JPH11134366A

JPH11134366A - データベースの特異値の数を推定する方法及び装置

Info

Publication number: JPH11134366A
Application number: JP10220985A
Authority: JP
Inventors: Yan Weipeng; ヤンウェイペン
Original assignee: Informix Software Inc
Current assignee: Informix Software Inc
Priority date: 1997-06-30
Filing date: 1998-06-30
Publication date: 1999-05-21
Also published as: AU734618B2; BR9802310A; EP0889424A3; US5999928A; AU7323298A; EP0889424A2; CA2242001A1

Abstract

(57)【要約】【課題】データベースの特異値の数を推定する方法及
び装置を提供する。【解決手段】データベース表の特異値の数を推定する
方法及び装置は、データベース表の特異値の数のモデル
を解決するために、表サイズ、サンプルサイズ、及びサ
ンプルの特異値の数に基づいて幾つかの数値法の１つを
選択する。サンプルは、特異値の数をを推定する以外の
目的のために前もって収集されたサンプルのことがあ
り、サンプルの記録の数及びサンプルの特異値の数は、
サンプルが収集されたときに決定されることもある。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、リレーショナルデータ
ベースのクエリー（照会又は問合せ）を最適化する方法
及び装置に関する。

【０００２】

【従来の技術】データベースは、情報の集合である。リ
レーショナルデータベースは、ユーザに表の集合である
と理解されているデータベースである。各表は、項目及
び項目の属性をそれぞれ行及び列に並べる。各表の行
は、項目（記録又はタプルとも呼ばれる）に対応し、各
表の列は、項目の属性（フィールド、属性型、又はフィ
ールド型と呼ばれる）に対応する。データベースから情
報を検索するために、データベースシステムのユーザ
は、クエリーを構築する。クエリーは、データベースか
ら検索する情報を指定する１つ又は複数のオペレーショ
ンを含む。システムは、クエリーを実行するためにデー
タベースの表を走査する。

【０００３】データベースシステムは、クエリーオペレ
ーションの順序を適切に並べることによりクエリーを最
適化できる。属性に対する特異値の数は、データベース
がクエリーを最適化するのに用いる１つの統計データで
ある。特異値の実際の数が不明の場合、データベースシ
ステムは、推定値を用いることができる。属性に対する
特異値の数の正確な推定値は、多重結合演算を含むクエ
リーを最適化する方法において有用である。データベー
スシステムは、表を結合する順序を決定する方法におい
て推定値を用いることができる。属性に対する特異値の
数の正確な推定値は、項目を再び順序づけかつグループ
化する方法においても又有用である。

【０００４】

【発明が解決しようとする課題】本発明は、データベー
ス表の属性に対する特異値の数を推定するコンピュータ
を利用した方法を提供することをその課題とする。ま
た、本発明は、コンピュータ読み取り可能媒体に常駐
し、データベース表の属性に対する特異値の数を推定す
るためのコンピュータを構成するコンピュータプログラ
ムを提供することをその課題とする。

【０００５】

【課題を解決するための手段】本発明の上記課題は、リ
レーショナルデータベースシステムにおいて、データベ
ース表の属性に対する特異値の数を推定するコンピュー
タを利用した方法であって、前記データベース表のサイ
ズを決定し、前記データベース表から記録のサンプルを
取得しかつ前記サンプルの記録の数及び前記サンプルの
属性に対する特異値の数を決定し、前記データベース表
の属性に対する特異値の数の推定値を計算するために該
データベース表の該属性に対する該特異値の数のモデル
を解く複数の数値法の１つを選択するために該データベ
ース表の前記サイズ、前記サンプルの前記サイズ、及び
前記サンプルの属性に対する特異値の数を用いる段階を
具備するとする方法によって達成される。

【０００６】本発明の方法では、前記サンプルは、前記
データベース表の特異値の数を推定する以外の目的のた
めに予め収集されたように構成してもよい。本発明の方
法では、前記サンプルは、予め収集されかつ当該サンプ
ルの前記記録の数及び該サンプルの前記特異値の数は、
該サンプルが収集されたときに決定されたように構成し
てもよい。本発明の方法では、前記モデルは、0 = 1 -
N/n * (1-(1-t/T)^(T/N)) であり、ここでＮは、前記デ
ータベース表の前記属性に対する前記特異値の数であ
り、ｎは、前記サンプルの前記属性に対する前記特異値
の数であり、ｔは、前記サンプルの前記記録の数であ
り、Ｔは、前記データベース表の前記サイズであり、か
つここで、ｎ，ｔ，及びＴの値を与えて、Ｎを解くこと
が、該データベース表の該特異値の数の推定値をもたら
すように構成してもよい。

【０００７】本発明の方法では、前記複数の数値法は、
割線法及び２分法を含むように構成してもよい。本発明
の方法では、前記複数の数値法は、割線法及び２分法を
含むように構成してもよい。本発明の方法では、前記第
１の選択した数値法を用いてエラーが生じるならば、第
２の数値法を選択しかつ用いる段階を更に具備するよう
に構成してもよい。本発明の方法では、前記第２の選択
した数値法を用いてエラーが生じるならば、第３の数値
法を選択しかつ用いる段階を更に具備するように構成し
てもよい。本発明の方法では、前記サンプルサイズで除
したサンプルの特異値の数は、しきい値と比較され、商
がしきい値以下ならば、選択数値法として割線法を用
い、商がしきい値より大きいか又は割線法がエラーをも
たらすならば、選択数値法として２分法を用い、２分法
がエラーをもたらすならば、選択数値法としてニュート
ン法を用いるように構成してもよい。

【０００８】本発明の方法では、ニュートン法がエラー
をもたらすならば、前記特異値の推定数は、前記サンプ
ルの前記特異値の数と前記データベース表のサイズの和
の半分であるように構成してもよい。本発明の方法で
は、前記特異値の推定数が前記サンプルの前記特異値の
数より小さいならば、前記特異値の推定数は、前記サン
プルの前記特異値の数に設定され、かつ前記特異値の推
定数が前記データベース表のサイズより大きいならば、
前記特異値の推定値は、前記データベース表のサイズに
設定されるように構成してもよい。本発明の方法では、
前記しきい値は、0.32であるように構成してもよい。本
発明の方法では、前記サンプルは、前記データベース表
の特異値を推定する以外の目的のために予め収集され、
前記サンプルの前記記録の数及び前記サンプルの前記特
異値の数は、サンプルが収集されたときに決定され、か
つ数値法の適用から生じるエラーは、数値法が収束でき
ないことを具備するように構成してもよい。

【０００９】本発明の方法では、前記データベースクエ
リーオペレーションを最適化するために前記データベー
スの前記属性に対する前記特異値の数の推定値を用いる
段階を更に具備するように構成してもよい。また、本発
明の上記課題は、データベース表の属性に対する特異値
の数を推定するコンピュータを利用した方法であって、
Ｎが前記データベース表の前記属性に対する特異値の数
であり、ｎが前記データベース表からのサンプルの属性
に対する特異値の数であり、ｔが前記サンプルの記録の
数であり、Ｔが前記データベース表のサイズであるよう
な、前記データベース表の前記属性に対する特異値の数
のモデル0 = 1 - N/n * (1-(1-t/T)^(T/N ⁾) を用いて、
かつ前記モデルを満足するＮに対する値を見つけるため
に数値法を用いることによって、ｎ，ｔ，及びＴの値を
与えて、Ｎについて解く段階を具備し、前記Ｎに対して
見つけられた値は、前記データベース表の属性に対する
特異値の数の推定値である方法によって達成される。

【００１０】更に、本発明の上記課題は、コンピュータ
読み取り可能媒体に存在しているコンピュータプログラ
ムであって、コンピュータに、データベース表のサイズ
を決定させ、前記データベース表から記録のサンプルを
取得させ、前記サンプルの記録の数及び前記サンプルの
属性に対する特異値の数を決定させ、かつ前記データベ
ース表の属性に対する特異値の数の推定値を計算するた
めに前記データベース表の属性に対する特異値の数のモ
デルを解くべく複数の数値法の１つを選択するために、
前記データベース表のサイズ、前記サンプルのサイズ、
及び前記サンプルの属性に対する特異値の数を用いらせ
る命令を備えているコンピュータプログラムによって達
成される。

【００１１】本発明のコンピュータプログラムでは、前
記サンプルは、前記データベース表の特異値の数を推定
する以外の目的のために予め収集されたように構成して
もよい。本発明のコンピュータプログラムでは、前記サ
ンプルは、予め収集され、かつ該サンプルの記録の数及
び該サンプルの特異値の数は、該サンプルが収集された
ときに決定されたように構成してもよい。本発明のコン
ピュータプログラムでは、前記モデルは、0 = 1 - N/n
* (1-(1-t/T)^(T/N)) であり、ここでＮは、前記データ
ベース表の属性に対する特異値の数であり、ｎは、前記
サンプルの属性に対する特異値の数であり、ｔは、前記
サンプルの記録の数であり、Ｔは、前記データベース表
のサイズであり、かつここでｎ，ｔ，及びＴの値を与え
てＮを解くことが、前記データベース表の特異値の数の
推定値をもたらすように構成してもよい。

【００１２】本発明のコンピュータプログラムでは、前
記数値法が割線法及び２分法を含むように構成してもよ
い。本発明のコンピュータプログラムでは、前記数値法
が割線法及び２分法を含むように構成してもよい。本発
明のコンピュータプログラムでは、第１の選択数値法を
用いてエラーが生じるならば、第２の数値法を選択しか
つ用いる段階を更に具備するように構成してもよい。本
発明のコンピュータプログラムでは、第２の選択数値法
を用いてエラーが生じるならば、第３の数値法を選択し
かつ用いる段階を具備するように構成してもよい。

【００１３】本発明のコンピュータプログラムでは、前
記サンプルサイズで除算したサンプルの特異値の数がし
きい値と比較され、商がしきい値以下ならば、選択数値
法として割線法を用い、商がしきい値の値より大きいか
又は割線法がエラーをもたらすならば、選択数値法とし
て２分法を用い、かつ２分法がエラーをもたらすなら
ば、選択数値法としてニュートン法を用いるように構成
してもよい。本発明のコンピュータプログラムでは、前
記ニュートン法がエラーをもたらすならば、特異値の推
定数は、前記サンプルの特異値の数と前記データベース
表のサイズの和の半分であるように構成してもよい。本
発明のコンピュータプログラムでは、前記特異値の推定
数がサンプルの特異値の数より小さいならば、該特異値
の推定数は、該サンプルの特異値の数に設定され、かつ
前記特異値の推定数が前記データベース表のサイズより
大きいならば、該特異値の推定値は、前記データベース
表のサイズに設定されるように構成してもよい。

【００１４】本発明のコンピュータプログラムでは、前
記しきい値は、0.32であってもよい。本発明のコンピュ
ータプログラムでは、前記サンプルは、前記データベー
ス表の特異値を推定する以外の目的のために予め収集さ
れ、前記サンプルの記録の数及び前記サンプルの特異値
の数は、該サンプルが収集されたときに決定され、かつ
数値法の適用から生じるエラーは、数値法が収束できな
いことを具備するように構成してもよい。本発明のコン
ピュータプログラムでは、前記データベースクエリーオ
ペレーションを最適化するためにデータベースの属性に
対する特異値の数の推定値を用いる段階を更に具備する
ように構成してもよい。

【００１５】また、本発明の上記目的は、コンピュータ
読み取り可能媒体に存在しているコンピュータプログラ
ムであって、コンピュータに、前記データベース表の属
性に対する特異値のモデルを用いらせ、モデルは、0= 1
- N/n * (1-(1-t/T)^(T/N)) であり、ここでＮは、デ
ータベース表の属性に対する特異値の数であり、ｎは、
データベース表からのサンプルの属性に対する特異値の
数であり、ｔは、サンプルの記録の数であり、Ｔは、デ
ータベース表のサイズであり、かつ前記モデルを満足す
るＮに対する値を見つけるために、数値法を用いること
によりｎ，ｔ，及びＴの値を与えてＮを解かせる命令を
備えており、前記Ｎに対し見つけられた値は、前記デー
タベース表の属性に対する特異値の数の推定値であるコ
ンピュータプログラムによって達成される。

【００１６】

【発明の実施の形態】一形態において、本発明は、デー
タベース表の属性に対する特異値の数を推定するコンピ
ュータを利用した方法に関する。別の形態においては、
本発明は、コンピュータ読み取り可能媒体に常駐し、デ
ータベース表の属性に対する特異値の数を推定するため
のコンピュータを構成するコンピュータプログラムに関
する。両方の形態において、推定は、データベース表か
ら記録のサンプルを用い、サンプルの記録の数を決定
し、サンプルの属性に対する特異値の数を決定し、デー
タベース表のサイズを決定し、データベース表の特異値
の数の推定を計算するために、データベース表の属性に
対する特異値の数のモデルを解決する複数の数値法の１
つを選択する。

【００１７】本発明の他の形態においては、記録のサン
プルは、データベース表の特異値を推定する以外の目的
で収集された記録の前もって収集されたサンプルであっ
て、かつサンプルの記録の数及びサンプルの特異値の数
は、サンプルが収集された時に決定されたものである。
本発明は、モデル 0 = 1 - N/n * (1-(1-t/T) ^(T/N))
を用いることができるが、ここでＮは、データベース表
の属性に対する特異値の数であり、ｎは、サンプルの属
性に対する特異値の数であり、ｔは、サンプルの記録の
数であり、Ｔは、データベース表のサイズであって、か
つここで、ｎ，ｔ，及びＴの値を与えられてＮを求めて
解決することが、データベース表の特異値の数の推定値
を生成する。本発明は、モデルを解決するために１つ又
は複数の数値法を用いることができ、かつ本発明は、平
方根を探索するために、例えば割線法、２分法、及びニ
ュートン法を用いることができる。

【００１８】本発明は、幾つかの利点を有する。本発明
は、置換を伴うサンプリングに基づく単純化されたモデ
ルを用い、かつ正確な推定値を供給する。本発明は、比
較的小サンプルサイズを用いて精度を達成している。例
えば、記録のサンプルの記録の数は、データベース表の
サイズに関係なく、1,000 の記録から 5,000の記録の範
囲にある。本発明は、他の目的のために収集された小サ
ンプルを再使用し、かつ前もって収集されたサンプルの
特異値の数のような、データを再使用する。本発明の他
の特徴及び利点は、以下の説明及び各請求項から明かに
なるであろう。

【００１９】

【実施例】図１は、リレーショナルデータベースシステ
ムを支援し、リレーショナルデータベース表、以後単に
表と呼ばれる、を記憶するのに適切なプラットフォーム
であるコンピュータシステム１０を示す。コンピュータ
システム１０は、１つ又は複数のコンピュータ１２（そ
れぞれ、コンピュータ１２ａ及び１２ｂ）を含む。複数
コンピュータは、コンピュータのクラスタを作成する高
速バックボーン、又はコンピュータを連結する局所又は
広域通信ネットワークコネクションであるリンク１４に
より接続されてよい。コンピュータは、１つ又は複数の
永続データ記憶装置１６ａから１６ｃを有する。データ
ベースは、「システムカタログ」と呼ばれる関係表の集
合を初期に含んでいる。システムカタログは、データベ
ースの全ての様相を記述し、全ての表１８ａからｄの定
義を含んでいる。システムカタログは、又システム統計
データ、例えば、属性の特異値の数を記憶している。デ
ータベースシステムは、データベース表の情報を処理す
る速度を増すためにクエリーを最適化する。図２で示さ
れているように、システムがクエリーを受け取った後に
（ステップ２０）、システムは、クエリーを最適化する
（ステップ２２）。クエリー最適化のための１つの重要
な統計データは、表の属性に対する特異値の数である。
クエリー最適化プロセスは、与えられた属性に対する特
異値の真数を用いることができるし、又は属性に対する
特異値の数の推定値を取得するころができる（ステップ
３０）。クエリーを最適化した後に、システムは、クエ
リーを実行する（ステップ２４）。

【００２０】図３に示されているように、属性に対する
特異値の数を推定する方法は、表から記録のサンプルを
検索することから始まる（ステップ３２）。通常、デー
タベースシステムは、事前設定の時間間隔で、又は要求
時にサンプルを収集する。データベースシステムは、サ
ンプルを調べ、かつサンプルの属性に対する特異値の数
を決定する（ステップ３４）。サンプルの特異値の数に
基づき、システムは、以下に説明されるように、表全体
の属性に対する特異値の数を推定する（ステップ３
６）。推定は、データが一様に分散されていると想定
し、かつサンプリングが置換を終了したと想定するモデ
ルに基づいている。これは、本法が実際には置換のない
サンプリングを、用いるにしても行われる。置換を伴う
サンプリングを想定することは、モデルを単純化し、そ
れ故にモデルを解決するのにかかる時間量を軽減し、数
学的エラーを生成する可能性を軽減し、かつモデルを解
決するのに選択された数値的技法が収束できないであろ
う可能性を軽減する。モデルは、ｎ = N * (1-(1-t/T)
^(T/N)) と表され、ここでｎは、サンプルの属性に対す
る特異値の数であり、Ｎは、表の属性に対する特異値の
数であり、ｔは、サンプルサイズであり、Ｔは、表のサ
イズである。

【００２１】本方法は、関数の平方根 f(N) = 1-N/n *
(1-(1-t/T)^(T/N)) を探索することにより属性に対する
特異値の数を推定する。関数は、サンプルに現れる表の
記録の確率が t/Tであると、第１に考えることにより導
かれた。それ故に、表の記録がサンプルに現れない確率
は、1-t/T である。表の特定の属性値の出現の数は、一
様であると想定して、T/N であると推定される。従っ
て、特定の属性値がサンプルに現れない確率は、(1-t/
T) ^T/Nであり、特定の属性値がサンプルに現れる確率
は、1-(1-t/T) ^T/Nである。最後に、サンプルの属性に
対する特異値の数は、ｎ = N * (1-(1-t/T) ^(T/N)) で
あり、もしくは、0 = f(N) = 1-N/n * (1-(1-t/T)
^(T/N)) と表される。本方法は、Ｎを解決するために幾
つかの数値的技法の１つを選択し、表サイズ、サンプル
サイズ、及びサンプルの特異値の数によってある特定の
技法が、他の技法より適切であると認識する。

【００２２】本方法により用いられる３つの平方根探索
技法は、割線法、２分法、及びニュートン法である。割
線法は、２点間の線がゼロを通過する場所を決定し、次
の反復に向け点を選択するために、その位置を用いる。
２分法は、２つのブラケティングポイント（即ち、相対
する符号を有する関数値を伴う点）を有する間隔の中間
点を調べ、その中間点の位置を用いて、中間点と同じ符
号を有するブラケティテングポイントを置き換える。ニ
ュートン法は、次の反復に向けて点を選択するために関
数及び微分を用いる。図４に描かれた流れ図に示されて
いるように、方法は、サンプルサイズ、表サイズ、及び
サンプルの特異値の数（即ち、ｎ）を与えられた特異値
の数を推定する。サンプルサイズが表サイズと等しけれ
ば（ステップ４０）、特異値の推定数は、サンプルの特
異値の数である（ステップ４２）。サンプルの特異値の
数がサンプルサイズと等しければ（ステップ４４）、推
定は、サンプルの特異値の数と表のサイズの和の半分で
ある（ステップ４６）。

【００２３】もしくは、サンプルサイズで除したサンプ
ルの特異値の数が、実験により得られたしきい値の値と
等しいか又は以下であるならば（ステップ４８）、関数
の平方根を探索するために割線法が用いられるが（ステ
ップ５０）、それが推定値である（ステップ５２）。
（本実施例に関して、しきい値は、0.32の値を有すると
決定された）。サンプルサイズで除したサンプルの特異
値の数がしきい値の値を超える（ステップ４８）か又は
割線法がエラーを生成するならば、関数の平方根を探索
するために２分法が用いられる（ステップ５４）が、そ
れが推定値である（ステップ５２）。２分法がエラーを
生成するならば、関数の平方根を探索するためにニュー
トン法が用いられる（ステップ５６）が、それが推定値
である（ステップ５２）。ニュートン法がエラーを生成
するならば、推定値は、サンプルの特異値の数と表のサ
イズの和の半分である（ステップ５８）。

【００２４】数値法が生成することがある１つの型のエ
ラーは、浮動小数点又はゼロ除算エラーのような数学的
エラーである。数値法は、さらに平方根探索技法が収束
できない場合に、エラーを生成することがある。最終ス
テップとして、本方法は、推定値がサンプルの値の固有
数に劣らず、かつ実際の表サイズを超えないことを確実
する（ステップ６０）。本方法は、表サイズ（即ち、
Ｔ）に対する疑似データのパーミュテーション（順
列）、サンプルサイズ（即ち、ｔ）、及び表の属性に対
する特異値の数（即ち、Ｎ）を用いて検査された。検査
は、表サイズには 5,000から 1,000,000,000にわたる１
７の値を用いた。検査は、サンプルサイズには 1,000の
ステップで1,000 から 5,000にわたる５つの値を用い
た。検査は、表で特異値の百分率（即ち、N/T*100)を表
す 0.0000000001 から 100にわたる３８の値を用いた。

【００２５】乱数発生プロセスは、サンプルを生成し
た。乱数発生プロセスは、サンプルサイズ、表サイズ及
び表の特異値の百分率を入力とした。該プロセスは、サ
ンプルの特異値の数を出力した。各検査項目に関して
は、エラーは、数式｜(N- est - N)/N｜を用いて計算さ
れたが、ここで、N - est は、表の特異値の推定数であ
り、N は，表の特異値の実数である。次の表に示されて
いるように、エラーは、検査データの幾つかの範囲に平
均化された。検査データの全てのパーミュテーション
（順列）に対する平均エラーは、0.552 であった。

【００２６】

【表１】

【００２７】前表で、第１及び第３列は、サンプルの属
性に対する特異値の百分率に基づき検査項目をまとめた
ものである。第２及び第４列は、それぞれの検査項目に
対するエラーの平均を含んでいる。本方法は、サンプル
サイズが小さい場合でも、高レベルの正確度を達成す
る。これにより本方法は、データベースシステムが他の
目的のために取得するサンプルを再使用することを可能
にしている。例えば、データベースシステムは、属性の
値の分散を示すヒストグラムを計算するために、表サイ
ズに関係なく、サイズが 1,000から 5,000の記録にわた
るサンプルを用いることがある。ヒストグラムを計算す
るために、データベースシステムは、サンプルの特異値
の数を決定したが、それは、対応する表の特異値の数を
決定するために、本方法が再使用できる結果１つであ
る。

【００２８】図５で示されているのは、図１に関して前
に説明されたコンピュータシステムプラットフォームで
の使用に適した、コンピュータ１０２のブロック図であ
る。本発明は、デジタル電子回路で、又はコンピュータ
のハードウェア、ファームウェア、ソフトウェアで、又
はそれらの組み合わせで実施してよい。本発明の装置
は、コンピュータプロセッサによる実行のための機械可
読記憶装置に明白に具体化されたコンピュータプログラ
ム製品で実施してよい。本発明の方法のステップは、入
力データで作動し出力を生成することにより、本発明の
機能を遂行するためのプログラムを実行するコンピュー
タプロセッサにより遂行してよい。合目的プロセッサ１
０２０は、例として、汎用及び専用マイクロプロセッサ
双方を含む。通常、プロセッサは、読み取り専用メモリ
１０２２及び、又は読み取り書き込みメモリ１０２１か
ら、命令及びデータを受け取る。明かに具体化するコン
ピュータプログラム命令に適する記憶装置は、例とし
て、ＥＰＲＯＭ，ＥＥＰＲＯＭのような半導体メモリ装
置及びフラッシュメモリ装置、磁気テープ、内部ハード
ディスク及び可変型ディスク１０４０のような磁気ディ
スク、光磁気ディスク及びＣＤ−ＲＯＭディスクを含む
あらゆる型の不揮発性メモリを含む。前述のどれも特別
に設計されるＡＳＩＣＳ（特定用途向け集積回路）によ
り補足されるか、又はそれに組み込まれてよい。

【００２９】他の実施例は、次の請求項の範囲内であ
る。例えば、本発明のステップを施行する順序は、熟練
技術者により変更がされてもなお望ましい結果を得るこ
とが可能である。本発明は、モデルを解決するために他
の数値法を用いることができる。本発明は、多属性値に
対する特異値を探索できる。本発明は、又オブジェクト
関係データベースシステムに適用されるが、そこでは、
属性が複合データ型、即ち、１つ又は複数の既存データ
型から構成されるデータ型のものであり得る。例えば、
文字列及び整数は、人の名前を表す文字列及び人の年齢
を表す整数を有する、複合データ型の名前付きの人を生
成するために、結合編集される。

【００３０】

【発明の効果】本発明は、幾つかの利点を有する。本発
明は、置換を伴うサンプリングに基づく単純化されたモ
デルを用い、かつ正確な推定値を供給する。本発明は、
比較的小サンプルサイズを用いて精度を達成している。
例えば、記録のサンプルの記録の数は、データベース表
のサイズに関係なく、1,000 の記録から 5,000の記録の
範囲にある。本発明は、他の目的のために収集された小
サンプルを再使用し、かつ前もって収集されたサンプル
の特異値の数のような、データを再使用する。

【図面の簡単な説明】

【図１】リレーショナルデータベースシステムを支援す
るコンピュータシステムのブロック図である。

【図２】本発明が用いられているコンテキストの流れ図
である。

【図３】本発明における予備段階の流れ図である。

【図４】データベース表の特異値の数のモデルを解決す
る技法を選択する方法の流れ図である。

【図５】データベースシステムの実施例に適するコンピ
ュータシステムプラットフォームのブロック図である。

【符号の説明】

１０コンピュータシステム１２ａ〜１２ｂコンピュータ１６ａ〜１６ｃ永続データ記憶装置１８ａ〜１８ｄ表

Claims

【特許請求の範囲】

【請求項１】リレーショナルデータベースシステムに
おいて、データベース表の属性に対する特異値の数を推
定するコンピュータを利用した方法であって、前記データベース表のサイズを決定し、前記データベース表から記録のサンプルを取得しかつ前
記サンプルの記録の数及び前記サンプルの属性に対する
特異値の数を決定し、前記データベース表の属性に対する特異値の数の推定値
を計算するために該データベース表の該属性に対する該
特異値の数のモデルを解く複数の数値法の１つを選択す
るために該データベース表の前記サイズ、前記サンプル
の前記サイズ、及び前記サンプルの属性に対する特異値
の数を用いる段階を具備することを特徴とする方法。
【請求項２】前記サンプルは、前記データベース表の
特異値の数を推定する以外の目的のために予め収集され
たことを特徴とする請求項１に記載の方法。
【請求項３】前記サンプルは、予め収集されかつ当該
サンプルの前記記録の数及び該サンプルの前記特異値の
数は、該サンプルが収集されたときに決定されたことを
特徴とする請求項１に記載の方法。
【請求項４】前記モデルは、0 = 1 - N/n * (1-(1-t/
T)^(T/N)) であり、ここでＮは、前記データベース表の
前記属性に対する前記特異値の数であり、ｎは、前記サ
ンプルの前記属性に対する前記特異値の数であり、ｔ
は、前記サンプルの前記記録の数であり、Ｔは、前記デ
ータベース表の前記サイズであり、かつここで、ｎ，
ｔ，及びＴの値を与えて、Ｎを解くことが、該データベ
ース表の該特異値の数の推定値をもたらすことを特徴と
する請求項１に記載の方法。
【請求項５】前記複数の数値法は、割線法及び２分法
を含むことを特徴とする請求項１に記載の方法。
【請求項６】前記複数の数値法は、割線法及び２分法
を含むことを特徴とする請求項４に記載の方法。
【請求項７】前記第１の選択した数値法を用いてエラ
ーが生じるならば、第２の数値法を選択しかつ用いる段
階を更に具備することを特徴とする請求項１に記載の方
法。
【請求項８】前記第２の選択した数値法を用いてエラ
ーが生じるならば、第３の数値法を選択しかつ用いる段
階を更に具備することを特徴とする請求項７に記載の方
法。
【請求項９】前記サンプルサイズで除したサンプルの
特異値の数は、しきい値と比較され、商がしきい値以下
ならば、選択数値法として割線法を用い、商がしきい値
より大きいか又は割線法がエラーをもたらすならば、選
択数値法として２分法を用い、２分法がエラーをもたら
すならば、選択数値法としてニュートン法を用いること
を特徴とする請求項４に記載の方法。
【請求項１０】ニュートン法がエラーをもたらすなら
ば、前記特異値の推定数は、前記サンプルの前記特異値
の数と前記データベース表のサイズの和の半分であるこ
とを特徴とする請求項９に記載の方法。
【請求項１１】前記特異値の推定数が前記サンプルの
前記特異値の数より小さいならば、前記特異値の推定数
は、前記サンプルの前記特異値の数に設定され、かつ前
記特異値の推定数が前記データベース表のサイズより大
きいならば、前記特異値の推定値は、前記データベース
表のサイズに設定されることを特徴とする請求項９に記
載の方法。
【請求項１２】前記しきい値は、0.32であることを特
徴とする請求項９に記載の方法。
【請求項１３】前記サンプルは、前記データベース表
の特異値を推定する以外の目的のために予め収集され、前記サンプルの前記記録の数及び前記サンプルの前記特
異値の数は、サンプルが収集されたときに決定され、か
つ数値法の適用から生じるエラーは、数値法が収束でき
ないことを具備することを特徴とする請求項９に記載の
方法。
【請求項１４】前記データベースクエリーオペレーシ
ョンを最適化するために前記データベースの前記属性に
対する前記特異値の数の推定値を用いる段階を更に具備
することを特徴とする請求項１に記載の方法。
【請求項１５】データベース表の属性に対する特異値
の数を推定するコンピュータを利用した方法であって、Ｎが前記データベース表の前記属性に対する特異値の数
であり、ｎが前記データベース表からのサンプルの属性
に対する特異値の数であり、ｔが前記サンプルの記録の
数であり、Ｔが前記データベース表のサイズであるよう
な、前記データベース表の前記属性に対する特異値の数
のモデル0 = 1 - N/n * (1-(1-t/T)^(T/N ⁾) を用いて、
かつ前記モデルを満足するＮに対する値を見つけるため
に数値法を用いることによって、ｎ，ｔ，及びＴの値を
与えて、Ｎについて解く段階を具備し、前記Ｎに対して見つけられた値は、前記データベース表
の属性に対する特異値の数の推定値であることを特徴と
する方法。
【請求項１６】コンピュータ読み取り可能媒体に存在
しているコンピュータプログラムであって、コンピュー
タに、データベース表のサイズを決定させ、前記データベース表から記録のサンプルを取得させ、前
記サンプルの記録の数及び前記サンプルの属性に対する
特異値の数を決定させ、かつ前記データベース表の属性
に対する特異値の数の推定値を計算するために前記デー
タベース表の属性に対する特異値の数のモデルを解くべ
く複数の数値法の１つを選択するために、前記データベ
ース表のサイズ、前記サンプルのサイズ、及び前記サン
プルの属性に対する特異値の数を用いらせる命令を備え
ていることを特徴とするコンピュータプログラム。
【請求項１７】前記サンプルは、前記データベース表
の特異値の数を推定する以外の目的のために予め収集さ
れたことを特徴とする請求項１６に記載のコンピュータ
プログラム。
【請求項１８】前記サンプルは、予め収集され、かつ
該サンプルの記録の数及び該サンプルの特異値の数は、
該サンプルが収集されたときに決定されたことを特徴と
する請求項１６に記載のコンピュータプログラム。
【請求項１９】前記モデルは、0 = 1 - N/n * (1-(1-
t/T)^(T/N)) であり、ここでＮは、前記データベース表
の属性に対する特異値の数であり、ｎは、前記サンプル
の属性に対する特異値の数であり、ｔは、前記サンプル
の記録の数であり、Ｔは、前記データベース表のサイズ
であり、かつここでｎ，ｔ，及びＴの値を与えてＮを解
くことが、前記データベース表の特異値の数の推定値を
もたらすことを特徴とする請求項１６に記載のコンピュ
ータプログラム。
【請求項２０】前記数値法が割線法及び２分法を含む
ことを特徴とする請求項１６に記載のコンピュータプロ
グラム。
【請求項２１】前記数値法が割線法及び２分法を含む
ことを特徴とする請求項１９に記載のコンピュータプロ
グラム。
【請求項２２】第１の選択数値法を用いてエラーが生
じるならば、第２の数値法を選択しかつ用いる段階を更
に具備することを特徴とする請求項１６に記載のコンピ
ュータプログラム。
【請求項２３】第２の選択数値法を用いてエラーが生
じるならば、第３の数値法を選択しかつ用いる段階を具
備することを特徴とする請求項２２に記載のコンピュー
タプログラム。
【請求項２４】前記サンプルサイズで除算したサンプ
ルの特異値の数がしきい値と比較され、商がしきい値以
下ならば、選択数値法として割線法を用い、商がしきい
値の値より大きいか又は割線法がエラーをもたらすなら
ば、選択数値法として２分法を用い、かつ２分法がエラ
ーをもたらすならば、選択数値法としてニュートン法を
用いることを特徴とする請求項１９に記載のコンピュー
タプログラム。
【請求項２５】前記ニュートン法がエラーをもたらす
ならば、特異値の推定数は、前記サンプルの特異値の数
と前記データベース表のサイズの和の半分であることを
特徴とする請求項２４に記載のコンピュータプログラ
ム。
【請求項２６】前記特異値の推定数がサンプルの特異
値の数より小さいならば、該特異値の推定数は、該サン
プルの特異値の数に設定され、かつ前記特異値の推定数
が前記データベース表のサイズより大きいならば、該特
異値の推定値は、前記データベース表のサイズに設定さ
れることを特徴とする請求項２４に記載のコンピュータ
プログラム。
【請求項２７】前記しきい値は、0.32であることを特
徴とする請求項２４に記載のコンピュータプログラム。
【請求項２８】前記サンプルは、前記データベース表
の特異値を推定する以外の目的のために予め収集され、前記サンプルの記録の数及び前記サンプルの特異値の数
は、該サンプルが収集されたときに決定され、かつ数値
法の適用から生じるエラーは、数値法が収束できないこ
とを具備することを特徴とする請求項２４に記載のコン
ピュータプログラム。
【請求項２９】前記データベースクエリーオペレーシ
ョンを最適化するためにデータベースの属性に対する特
異値の数の推定値を用いる段階を更に具備することを特
徴とする請求項１６に記載のコンピュータプログラム。
【請求項３０】コンピュータ読み取り可能媒体に存在
しているコンピュータプログラムであって、コンピュー
タに、前記データベース表の属性に対する特異値のモデルを用
いらせ、モデルは、0= 1 - N/n * (1-(1-t/T)^(T/N))
であり、ここでＮは、データベース表の属性に対する特
異値の数であり、ｎは、データベース表からのサンプル
の属性に対する特異値の数であり、ｔは、サンプルの記
録の数であり、Ｔは、データベース表のサイズであり、
かつ前記モデルを満足するＮに対する値を見つけるため
に、数値法を用いることによりｎ，ｔ，及びＴの値を与
えてＮを解かせる命令を備えており、前記Ｎに対し見つ
けられた値は、前記データベース表の属性に対する特異
値の数の推定値であることを特徴とするコンピュータプ
ログラム。