JP2728977B2 - 統計量プロファイルの抽出方法、及び該方法によって作成した統計量の利用法 - Google Patents

統計量プロファイルの抽出方法、及び該方法によって作成した統計量の利用法

Info

Publication number
JP2728977B2
JP2728977B2 JP6512838A JP51283894A JP2728977B2 JP 2728977 B2 JP2728977 B2 JP 2728977B2 JP 6512838 A JP6512838 A JP 6512838A JP 51283894 A JP51283894 A JP 51283894A JP 2728977 B2 JP2728977 B2 JP 2728977B2
Authority
JP
Japan
Prior art keywords
profile
statistics
statistic
uniform
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP6512838A
Other languages
English (en)
Other versions
JPH07502617A (ja
Inventor
アンドレ,フレデリツク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bull SA
Original Assignee
Bull SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bull SA filed Critical Bull SA
Publication of JPH07502617A publication Critical patent/JPH07502617A/ja
Application granted granted Critical
Publication of JP2728977B2 publication Critical patent/JP2728977B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Description

【発明の詳細な説明】 本発明は、リレーショナル・データベースから統計量
プロファイルを抽出する方法と、該方法によって作成し
た統計量の利用に関するものである。
リレーショナル・データベースは、階層データベース
と比較したときの長所によって広く用いられている。し
かしながら、いくつかのアプリケーションにおいて、お
よびデータベースの設計の方式によっては、応答時間を
はじめとして、すべての性能が十分ではないと判断され
ることも起こり得る。従って、情報システムのほうを適
合させることで、満足できる応答時間を得るか、あるい
はデータベースの構造か、または要求の表現のほうを変
更することが必要となる。情報システムまたはデータベ
ース構造、あるいは要求の表現の方式を変えることによ
る相互の影響を判断できるようにするため、すでに以前
のフランス特許出願第2674651号に、性能を評価するた
めの改良した機構が記載されており、この機構は、ライ
ブラリ、アーキテクチャ、システム、アクセス方法、そ
してデータベース・プロファイルの全体に基づいて作動
する。このライブラリはデータベースの性能評価の実
行、つまり1つの要求に対する応答時間を評価するのに
必要となる。
本発明は、性能評価機構中で使用されるデータベース
・プロファイル・ライブラリを構成する、統計量プロフ
ァイルの抽出方法に関するものである。
従って本発明の第1の目的は、余り時間を消費せず
に、あるいは結果を記憶するのに余りメモリ空間を使わ
ずに、データベースから統計量プロファイルを抽出する
方法を提供することである。
この目的は、関係、属性、およびインデックスによっ
て編成されたリレーショナル・データベースから統計量
プロファイルを抽出する方法において、上記プロファイ
ルがこのデータベースに含まれる表の中に配列され、 オブジェクトとして選択できるもの、つまり1つの表
の中の1列、1つの表の中のすべての列、すべての表、
または特殊な選択法では、ある表の中である属性を表し
ている1列といった選択肢の中からターゲット・オブジ
ェクトを選択する段階と、 統計量プロファイルを生成する段階とを含むことを特
徴とする方法によって達成される。
もう一つの目的は、どのようなタイプのものであれ、
あらゆる種類のデータに適合できるプロファイル抽出方
法を提供することである。
この目的は、この方法がプロファイル生成段階中に、
値の分布に関する統計量(論理統計量)を発生させる段
階、あるいは値の位置に関する統計量(物理統計量)を
発生させる段階を含んでいることによって達成させる。
別の特徴によれば、この値分布統計量の発生段階は、
数学的依存性を見つけるために、相関関係を検証する段
階と、 データの分布が一様であるかどうかを判定するため
に、分布を検証する段階と、 統計量を生成する段階とを含んでいる。
また別の特徴によれば、データの分布が一様でないな
らば、分布検証段階は、そのデータがアルファベットタ
イプであるか、英数字タイプであるか、あるいは数字タ
イプであるかを判定し、各タイプに対応する形で統計量
を生成するために、データのタイプを検証する段階を含
む。
別の特徴によれば、一様でないアルファベットタイプ
に対応する統計構造は、高さが一定のヒストグラムであ
り、また同じく、関係のプロファイルと属性のプロファ
イル、並びに最大値、最小値とを含む表である。
別の特徴によれば、数字タイプに対応する形式は、数
値のタイプに応じて、高さが一定のヒストグラム、ある
いは積率である。表には、関係のプロファイルと属性の
プロファイル、並びに属性の最小値、最大値が含まれ
る。
別の特徴によれば、一様なアルファベットタイプに対
応する形は、関係プロファイルおよび属性プロファイル
を含む表であり、各プロファイルには属性の最小値、最
大値が含まれる。
別の特徴によれば、値の位置に関する統計量発生段階
は、高さが一定のヒストグラムという形で統計量を生成
する。
別の特徴によれば、プロファイルをそれぞれ下記の表
に配列する。
関係に関する統計量を含む1つの関係プロファイル表 属性統計量を含む1つの属性プロファイル表 値が一様分布に従うような属性に関する統計量を含む
3つの表 値が非一様分布に従うような属性に関して、積率とい
う形の統計量を含む2つの表 値が非一様分布に従うような属性に関して、高さが一
定のヒストグラムという形の統計量を含む3つの表 各属性について、(統計量を従来の方式で視覚化する
ため)幅が一定のヒストグラムという形の統計量を含む
1つの表 相関関係を有する属性についての統計量を含む7つの
表 本発明の別の目的は、上述の方法によって生成した統
計量の使用法を提案することである。この目的は、リレ
ーショナル・データベース、つまりその中で関係が属性
を持っているようなデータベースから、統計量プロファ
イルを抽出する方法によって生成した統計量の使用方法
であって、 選択したある関係の属性の統計量プロファイルにアク
セスするステップと、 その統計プロファイルが存在している場合、そのデー
タベースに対して提出した要求のコストを算定する際
に、そのプロファイルの信頼率を、ユーザが希望する信
頼率と比較するステップと、 その統計プロファイルが存在しない、あるいは信頼率
が希望した信頼率より低い場合、本抽出方法を、選択し
た関係の属性に対して適用し、それによりその統計プロ
ファイルを生成するステップと、 信頼率を満足する統計量プロファイルを、データベー
スのプロファイル・ライブラリ内に格納することによ
り、適合可能な性能評価がそのプロファイルを利用でき
るようにするステップとからなる方法によって達成され
る。
本発明のその他の特徴および利点は、添付の図面を参
照しながら、以下の説明を読めばより明らかになるであ
ろう。
第1図は、コスト算定機構(3)を使用した情報シス
テムを表し、コスト算定機構はデータベース(21、22)
から統計量プロファイルを抽出するためのブロック
(1)から情報を受け取る。一方のデータベース(21)
はリレーショナル・タイプであり、これは例えばORACLE
タイプでよく、他方のデータベース(22)はINGRESタイ
プのものでよい。それぞれのデータベースは、インタフ
ェース(12)を介してプロファイル抽出モジュール(1
0)と通信しており、このインタフェースは、そのデー
タベース用に適合させたデータ獲得マネージャである。
このように、プロファイル抽出モジュール(10)は、活
動中のデータベースとともに働くのに適したインタフェ
ース(12)を意のままに使用できるので、モジュールの
使用法には汎用性および柔軟性がある。コスト算定およ
び性能評価機構(3)は、特許出願PCT/92/09057号ある
いは1992年10月2日に2674651号として公開されたフラ
ンス特許出願第91.03915号に記載されたタイプの機構で
ある。このタイプの機構は、ライブラリの集合に基づい
て作動しており、その集合のうちの一つは統計量プロフ
ァイル・ライブラリから構成されている。本発明の目的
は、第一に、統計量プロファイル・ライブラリの構築を
可能とする機構、およびその機構によって使用される方
法に関するものである。機構(10)は情報システムによ
って実行されるプログラムから成り、これにより統計量
プロファイルの作成を可能にしており、一方、機構(1
1)は情報システムによって実行されるプログラムから
成り、これにより関係のプロファイルおよび関係の属性
プロファイルに関する情報を、システムの画面上に表示
するのを可能にしている。
プログラム(10)は、統計量プロファイルを作成する
前に、データベース(それぞれ21と22)内に生成され、
各自のデータベース上でそれぞれ表(210、220)を処理
し、表の中に統計量を配列する。これらの表は、関係に
関する統計量を含む関係プロファイル(REL-PROF)表
と、属性に関する統計量を含む属性プロファイル(ATT-
PROF)表と、インデックスに関する統計量を含むインデ
ックス・プロファイル(IND-PROF)表と、一様−整数
(UNIF-INT)、一様−小数(UNIF-FLO)、一様−文字列
(UNIF-STR)という3つの表とから構成されており、最
後の3つの表には、値が一様分布に従うような属性に関
する統計量が含まれる。
積率−整数(MOM-INT)と積率−小数(MOM-FLO)とい
う2つの表は、値が非一様分布に従うような属性におけ
る統計量を含んでおり、ヒスト−整数(HIST-INT)、ヒ
スト−小数(HIST-FLO)、ヒスト−文字列(HIST-STR)
という3つの表は、値が非一様分布に従うような属性に
関する統計量を、高さが一定のヒストグラムという形で
含んでおり、長さ−ヒスト(LENG-HIST)という表は、
属性の統計量を(ユーザに対して表示するため)幅が一
定のヒストグラムという形で含んでおり、最後に多次元
ヒストグラム(MULT-HIST)、整数表(INT-TAB)、小数
表(FLO-TAB)、文字表(STR-TAB)、表−日付(DAT-TA
B)、関係ヒストグラム(REL-MHIST)、属性ヒストグラ
ム(ATT-MHIST)という7つの表は、複数の属性に関す
る統計量を含んでいる。
ソフトウェア(10)は同じく、データの論理選択度、
あるいは物理選択度の計算を可能にする統計量を作成す
る。この統計量は、論理選択度の場合には、第2図のフ
ローチャート(20)に従って作成される値分布統計量
(VDS)に基づいて作成され、また物理選択度の場合に
は、データ位置統計量(DPS)に基づいて作成される。
データの位置に関する統計量は、物理選択度の作成を可
能にし、また第3図のフローチャート(30)に対応して
いる。データ位置統計量については、第3図に図示した
ように、プロファイル抽出プログラムがそのデータか
ら、高さが一定のヒストグラムを抽出する。論理選択度
の算定が行えるような統計量の場合には、統計量プロフ
ァイル抽出プログラムは、第2図のフローチャートに従
う。この場合、プログラムは、まずステップ(23)にお
いて、属性間に相関関係があるかどうかを知るために相
関検証を実行する。
この相関の確証は、分布のエントロピー(Hで表す)
に基づく相関の測定によって行われる。
属性XおよびYを仮定し、XおよびYの値の変域をそ
れぞれDxおよびDyとする。解くべき問題は、Dxの値とDy
の値との間に相関関係があるかどうかである。
このアプリケーションのデータに対するDxおよびDy
は、第2B図に示したように分類できる。
ここでKは、属性Xが値xiを取り、しかも属性Yが値
yiを取るような多重項の数である。
ここでNiは、変域Dxのi番目の値に対する多重項の数
であり、Nは多重項の総数である。
XとYの間の依存性係数Uは以下の値である。
システムはH(X)、H(Y)、H(Y/X)を算定
し、続いて、下記のようにして相関関係を決定するた
め、U(Y/X)を算定する。
U(Y/X)=0ならば、XとYは何の依存性も持って
いない。
U(Y/X)=1ならば、XとYは完全に依存してい
る。
相関関係が存在するならば、複数の属性に関するデー
タ構造が問題となり、その場合、ステップ(231)にお
けるプログラムは、その相関関係を高さが一定の多次元
ヒストグラム構造の形で表示する。相関関係が存在しな
い場合には、プログラムは次のステップ(24)に進む
が、このステップは分布の検証段階であり、その分布が
一様であるか非一様であるかを検証する。
分布の検査はχ2検定に基づいて行う。
Niを、ある属性のある与えられた値に対して観測され
る多重項の数とし、またniを、探している分布(2項分
布、指数分布、正規分布)に従って得られる多重項の数
であると仮定する。
χ2が大きければ、それは属性の値が、探している分
布に従っていないことを意味している。もしχ2=0な
らば、それは属性の値が、予想した分布に正確に従って
いることを意味する。
一様分布(241)の場合には、プログラムは関係プロ
ファイル、属性プロファイル、および最小値、最大値を
表示するステップ(27)に進む。分布が非一様(242)
の場合には、プログラムはデータ・タイプを検証するス
テップ(25)に進み、またステップ(251)において、
データがアルファベットであるかどうかを検証し、その
結果に応じて、ステップ(27)において、関係プロファ
イルあるいは最大値、最小値を含む属性プロファイルを
作成し、次にステップ(28)において、高さが一定のヒ
ストグラムを作成する。ステップ(252)においてプロ
グラムがデータ・タイプを数値データであると判定した
場合、ステップ(27)において、プログラムはそれらの
最大値、最小値によって関係プロファイルまたは属性プ
ロファイルを作成し、次に、ステップ(26)において、
値のタイプについて検索を行う。この場合、プログラム
はプロファイルを、ステップ(28)において、高さが一
定のヒストグラムの形で、あるいはステップ(29)にお
いて、i次の積率の形で作成する。
i次の積率は、特定の属性Yを冪数iで累乗した値の
和:Mi=ΣYiに等しい。
このように、この統計量抽出方法を上記のとおりデー
タベースのデータに対して適用すると、機構(10)はそ
のデータベースから、プロファイル・ライブラリを構成
する表を抽出する。このプロファイル・ライブラリによ
って、データベースから抽出した統計量の信頼率を決定
することができる。統計量プロファイルによって伝播さ
れる誤り率は、評価や算定について希望した信頼率より
低くなければならない。このように、評価用プログラム
(3)は、誤り率が希望した信頼率より低いかぎりにお
いて、しかもその統計量が更新を必要としない場合に、
ライブラリ(210、220)内に格納された統計量を利用す
ることになる。そうでない場合には、誤り率が希望した
信頼率より低いという理由から、あるいはデータベース
が更新されてしまっており、従って統計量がもはや信頼
できないという理由から、プロファイル抽出プログラム
を実行して、その統計量を更新することになる。
実際、生成あるいは更新されたばかりのプロファイル
は信頼率が100%である。現実のデータベースに対する
いかなる変更も信頼率の低下を招く。このことは、それ
ぞれの属性の統計量に対する変更(挿入、更新、削
除)、とりわけ分布に対する変更の結果にその原因を帰
すことができる。
抽出を、このプロファイル抽出モジュール(10)を使
って実行することの利点は、得られたプロファイルが十
分に母集団を代表しているので、性能評価モジュール内
で使用することができ、それにもかかわらず、計算時間
が余り多くかからないことである。このことから、統計
量プロファイルに基づいて、ある要求のコストを、ある
与えられたアーキテクチャに応じて評価したり、あるい
は最適アーキテクチャを探して、与えられたタイプの要
求のコストを最小化したり、それに類することが行える
ようになる。プロファイルを利用する際、評価用プログ
ラムは、 ある与えられた関係の属性に関する統計量プロファイ
ルにアクセスするステップと、 その統計量プロファイルが存在する場合、信頼率を、
必要とされる信頼率と比較するステップと、 統計量プロファイルが存在しない場合、あるいは信頼
率が必要とされる信頼率より低い場合、与えられた関係
の属性に対してプロファイル抽出プログラムを始動させ
るステップと、 統計量プロファイルの生成の終わりに、性能評価プロ
グラムを始動させるステップとを実行する。
統計量プロファイルの評価用プログラム(10)は表示
モジュール(11)と連結されており、このモジュールに
よって、評価結果やプロファイルを抽出した機械の画面
上に、関係プロファイルや属性プロファイルに関する主
要情報を表示することができる。
第4図は、このソフトウェアによって作成した一つの
関係のプロファイルを示す。このプロファイルはモジュ
ール(11)によってウィンドウ(40)という形で表示さ
れ、このウィンドウ(40)は、関係の名称を表示できる
表示欄(400)と、関係のサイズを表示するための表示
欄(401)と、属性番号を表示できる表示欄(402)と、
起点番号を表示するための表示欄(403)と、所有者の
名前を表示できる表示欄(404)と、サイズをページ数
で表示するための表示欄(405)と、多重項サイズを表
示できる欄(406)と、パケットに分解した多重項の番
号を表示すための欄(407)と、プログラム(10)によ
って作成した統計量の最終更新日を表示できる欄(40
8)と、その統計量の信頼率を表示できる欄(409)とを
含んでいる。表示行(410)には、その統計量の信頼率
を表示でき、また表示欄(411)には、属性番号を表示
でき、また3つの操作ボタン(412、413、414)は、欄
(415)の表示に対してそれぞれ追加、削除または消
去、編集という機能を実行できる。グローバル・インデ
ックスの表示行(416)により、データに直接アクセス
でき、また表示行(421)は属性番号を表示し、表示欄
(417)はインデックス名を表示し、また追加、削除、
編集という3つの機能は、それぞれ3つの操作ボタン
(418、419、420)によってアクセス可能であり、これ
らの機能は欄(422)の表示に作用することができ、そ
して以上の表示も同じく、関係プロファイル・ウィンド
ウ(40)の表示を構成している。
操作ボタン(423)によって、前もって定義したグロ
ーバル・インデックスに対して記憶構造を関連付けるこ
とができるが、その構造として、アドレスの計算による
構造(つまりハッシュ)またはb木構造の2つが可能で
ある。
表示欄(423、431)は、プルダウンメニューのための
欄であり、これによりアドレス計算アルゴリズムを有す
る記憶構造と、木構造を有する記憶構造との間で選択が
行える。
行(424)ではローカル・インデックスの入力が行
え、欄(425)では属性番号を定義でき、もう一つの欄
(426)ではインデックス名が定義でき、また追加(42
7)、削除(428)、および編集(429)という3つの機
能により、欄(430)の表示を変更でき、操作ボタン(4
31)によって、そのイッデックスに記憶構造を関連付け
ることができ、そのために2つの構造、つまりアドレス
計算アルゴリズムか、または木構造が自由に使用でき
る。最後に欄(432)によって、評価を行うためのター
ゲット環境のタイプ、すなわちメモリが分散しているか
それとも共用であるかを定義でき、また行(433)によ
って、属性の走査、およびそれぞれの属性のプロファイ
ルを視覚化が行える。
第6図によって、ウィンドウ(60)中に、属性名を定
義できる欄(601)と、その新規性を定義できる欄(60
2)と、変域が取る値の数を定義できる欄(603)と、属
性のタイプ、すなわちそれが整数であるかどうかを指示
できる表示ボタン(604)を表示することにより、属性
プロファイルを定義し、あるいは表示することが可能と
なる。表示行(605)によって論理統計量を定義でき、
また表示欄(606)によってプロファイルが実行される
母集団を指示することができる。この欄(606)は、プ
ロファイルをすべての多重項に対して実行するのか、あ
るいはデータへのアクセス・コストを下げるため、1つ
のサンプルに対して実行するのかを表示する。欄(60
7)によって統計方法のタイプ、例えば一様方式を選択
でき、また欄(608)によって属性の分布モード、例え
ば一様モードを定義でき、また欄(610)は属性の最小
値を表示し、欄(609)は最大値を表示する。行(614)
によってデータの位置に関する統計量を指示でき、また
欄(611)によって、そうした統計量がすべての多重項
に対して実行されたか、それとも単に1つのサンプルに
対して実行されたかを示すことができる。欄(612)は
使用した統計方法を、例えば一様と示し、また欄(61
3)は分布モードを、例えば一様分布モードと示す。
プルダウンメニューを有する欄(607、612)により、
統計量の処理方法を、一様方式、ヒストグラムによる方
法、多次元ヒストグラムに基づいた方法、そして積率に
基づいた方法の中から選択することができる。
プルダウンメニューを有する欄(608、613)により、
データの分布モードを、一様モード、非一様モード、ポ
アッソン分布、正規分布の中から選択し、それを視覚化
することができる。
当業者に理解できるこれ以外の変形例も、同様に本発
明の趣旨の一部を成している。
図面の簡単な説明 第1図は、データベースの性能評価機構との間に配置
された統計量プロファイル抽出機構の概略図である。
第2図は、この抽出機構内に組み込んだ、統計量の分
布評価を行うための統計量プロファイル抽出プログラム
のフローチャートである。
第3図は、データの位置に関して統計量プロファイル
を抽出するプログラムのフローチャートである。
第4図は、プロファイルが作成される、その関係に関
する情報を情報システムの画面上に表示するウィンドウ
を表す図である。
第5図は、プロファイルが作成される、その関係に関
する情報を情報システムの画面上に表示するウィンドウ
を表す図である。
第6図は、プロファイルがそこで評価される、その関
係の属性に関するウィンドウを表す図である。

Claims (8)

    (57)【特許請求の範囲】
  1. 【請求項1】関係、属性およびインデックスに基づいて
    編成されたリレーショナル・データベースから統計量プ
    ロファイルを抽出する方法であって、該データベース中
    のデータの性質を表す前記統計量プロファイルがデータ
    ベース(21、22)内に含まれる表(210、220)中に配列
    され、該方法が、 ターゲット・オブジェクトをオブジェクトとして選択可
    能な選択肢、即ち1つの表の1列、1つの表のすべての
    列、すべての表、あるいは特殊な選択の中から選択する
    段階と、 ターゲット・オブジェクトの統計量プロファイルを生成
    し、該当計量プロファイルをデータベースに含まれる表
    に記憶する段階とを含み、 該統計量プロファイルを生成する段階が、 値の分布に関する統計量を生成する段階(20)、 あるいは値の位置に関する統計量を生成する段階(30)
    を含み、 該値の分布に関する統計量を生成する段階(20)が、 相関関係を検証して、数学的依存性を見つけるための段
    階(23)と、 分布を検証して、データ分布が一様であるか、非一様で
    あるかを判定するための段階(24)と、 統計量を作成する段階とを含む、統計量プロファイルの
    抽出方法。
  2. 【請求項2】データ分布が非一様であるならば、該分布
    検証段階(24)が、データのタイプを検証して、そのデ
    ータがアルファベットタイプか、英数字タイプか、ある
    いは数字タイプかを判定し、各タイプに対応する形で統
    計量を作成するための段階(25)を含む、請求の範囲第
    1項に記載の方法。
  3. 【請求項3】非一様アルファベットタイプに対応する統
    計構造が、 高さが一定のヒストグラム(28)、および 関係のプロファイルと、最小値および最大値の形の属性
    のプロファイルとを含む表(27)である、請求の範囲第
    1項または第2項に記載の方法。
  4. 【請求項4】数字タイプ(252)に対応する形が、値の
    タイプに応じて、高さが一定のヒストグラム(28)、ま
    たは 積率(29)のどちらかと、 関係のプロファイルと、最小値および最大値の形の属性
    のプロファイルとを含む表(27)である、請求の範囲第
    1項から第3項のいずれか1項に記載の方法。
  5. 【請求項5】一様アルファベットタイプ(251)に対応
    する形が、関係のプロファイルと、最小値および最大値
    も含めた属性のプロファイルとを含む表である、請求の
    範囲第1項から第4項のいずれか1項に記載の方法。
  6. 【請求項6】値の位置に関する統計量を生成する段階
    (30)が、高さが一定のヒストグラムという形で統計量
    を生成する、請求の範囲第1項から第5項のいずれか1
    項に記載の方法。
  7. 【請求項7】各プロファイルがそれぞれ、 関係に関する統計量を含む1つの関係プロファイル表
    (REL-PROF)、 属性統計量を含む1つの属性プロファイル表(ATT-PRO
    F)、 インデックスに関する統計量を含む1つのインデックス
    ・プロファイル表(IND-PROF)、 値が一様分布に従うような属性に関する統計量を含む3
    つの表(一様−整数、一様−小数、一様−文字列)、 値が非一様分布に従うような属性に関する統計量を含む
    2つの表(積率−整数、積率−小数)、 値が非一様分布に従うような属性に関して、統計量を高
    さが一定のヒストグラムという形で含む3つの表(ヒス
    ト−整数、ヒスト−小数、ヒスト−文字列)、 属性に関して、統計量を幅が一定のヒストグラムという
    形で含み、その統計量の視覚化を容易にするための1つ
    の表(長さ−ヒスト)、 相関関係にある属性に関する統計量を含む7つの表(多
    次元−ヒスト、整数−表、小数−表、文字列−表、日付
    −表、関係−ヒスト(rel-mhist)、属性−ヒスト(att
    -mhist))の中に配置される、請求の範囲第1項から第
    6項のいずれか一項に記載の方法。
  8. 【請求項8】請求の範囲第1項から第7項のいずれか一
    項に記載の、リレーショナル・データベース、つまりそ
    の中で関係が属性を持つようなデータベースから統計量
    プロファイルを抽出する方法によって作成した統計量の
    利用法であって、 選び出した関係の属性に関する統計量プロファイルにア
    クセスする段階と、 その統計プロファイルが存在する場合、そのデータベー
    スに対して抽出した要求のコストを算定する際に、その
    プロファイルの信頼率を、ユーザが希望する信頼率と、
    性能評価機構によって比較する段階と、 統計プロファイルが存在しない場合、あるいは信頼率が
    希望する信頼率より低い場合には、該抽出方法を、選び
    出した関係の属性に適用して統計プロファイルを生成す
    る段階と、 信頼率を満足する統計量プロファイルを、そのデータベ
    ースのプロファイル・ライブラリ(210、220)に格納し
    て、適合可能な性能評価機構によってそれを利用できる
    ようにする段階とを含む、統計量利用法。
JP6512838A 1992-11-20 1993-11-19 統計量プロファイルの抽出方法、及び該方法によって作成した統計量の利用法 Expired - Lifetime JP2728977B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR9213988A FR2698465B1 (fr) 1992-11-20 1992-11-20 Méthode d'extraction de profils de statistiques, utilisation des statistiques créées par la méthode.
FR92/13988 1992-11-20
PCT/FR1993/001141 WO1994012942A1 (fr) 1992-11-20 1993-11-19 Methode d'extraction de profils de statistiques, utilisation des statistiques creees par la methode

Publications (2)

Publication Number Publication Date
JPH07502617A JPH07502617A (ja) 1995-03-16
JP2728977B2 true JP2728977B2 (ja) 1998-03-18

Family

ID=9435754

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6512838A Expired - Lifetime JP2728977B2 (ja) 1992-11-20 1993-11-19 統計量プロファイルの抽出方法、及び該方法によって作成した統計量の利用法

Country Status (4)

Country Link
EP (1) EP0599707A1 (ja)
JP (1) JP2728977B2 (ja)
FR (1) FR2698465B1 (ja)
WO (1) WO1994012942A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6801903B2 (en) * 2001-10-12 2004-10-05 Ncr Corporation Collecting statistics in a database system
EP1676217B1 (en) 2003-09-15 2011-07-06 Ab Initio Technology LLC Data profiling
AU2012211167B2 (en) 2011-01-28 2014-08-21 Ab Initio Technology Llc Generating data pattern information
AU2013335231B2 (en) 2012-10-22 2018-08-09 Ab Initio Technology Llc Profiling data with location information
US9892026B2 (en) 2013-02-01 2018-02-13 Ab Initio Technology Llc Data records selection
US11487732B2 (en) 2014-01-16 2022-11-01 Ab Initio Technology Llc Database key identification
CA2939915C (en) 2014-03-07 2021-02-16 Ab Initio Technology Llc Managing data profiling operations related to data type
US11068540B2 (en) 2018-01-25 2021-07-20 Ab Initio Technology Llc Techniques for integrating validation results in data profiling and related systems and methods

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2674651B1 (fr) * 1991-03-29 1993-05-28 Bull Sa Dispositif d'evaluation de performance adaptable.

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
「ACM Computing Survey」,Vol.20,No.3(1988年9月),p.191〜221

Also Published As

Publication number Publication date
FR2698465B1 (fr) 1995-01-13
WO1994012942A1 (fr) 1994-06-09
FR2698465A1 (fr) 1994-05-27
JPH07502617A (ja) 1995-03-16
EP0599707A1 (fr) 1994-06-01

Similar Documents

Publication Publication Date Title
US6775674B1 (en) Auto completion of relationships between objects in a data model
US7873664B2 (en) Systems and computer program products to browse database query information
US7015911B2 (en) Computer-implemented system and method for report generation
US8219560B2 (en) Assessing relevant categories and measures for use in data analyses
US7707143B2 (en) Systems, methods, and computer program products that automatically discover metadata objects and generate multidimensional models
US5870747A (en) Generalized key indexes
KR101213798B1 (ko) 복합 데이터 액세스
KR102330547B1 (ko) 보고 생성 방법
US20060116999A1 (en) Sequential stepwise query condition building
US20080033976A1 (en) Metadata management for a data abstraction model
US8255368B2 (en) Apparatus and method for positioning user-created data in OLAP data sources
US7831614B2 (en) System and method for generating SQL using templates
US7668888B2 (en) Converting object structures for search engines
US5692171A (en) Method of extracting statistical profiles, and use of the statistics created by the method
CN113568995A (zh) 基于检索条件的动态瓦片地图制作方法及瓦片地图系统
US7030889B2 (en) Data display system, data display method, computer and computer program product
JPH11212988A (ja) 多次元データベース階層型分類軸自動生成システム、分類項目解析方法及びこのプログラムを記録した記録媒体
JP2728977B2 (ja) 統計量プロファイルの抽出方法、及び該方法によって作成した統計量の利用法
JP3339937B2 (ja) データベース検索装置
US7475088B2 (en) Systems and methods of providing data from a data source to a data sink
US6934701B1 (en) Using a stored procedure to access index configuration data in a remote database management system
JP3016691B2 (ja) データ検索条件設定方法
JPH1091494A (ja) データベース操作プログラムの変換方法および変換装置
JPH08329101A (ja) データベースシステム
Blockeel et al. Mining views: Database views for data mining