JPH07502617A - 統計量プロファイルの抽出方法、及び該方法によって作成した統計量の利用法 - Google Patents

統計量プロファイルの抽出方法、及び該方法によって作成した統計量の利用法

Info

Publication number
JPH07502617A
JPH07502617A JP6512838A JP51283894A JPH07502617A JP H07502617 A JPH07502617 A JP H07502617A JP 6512838 A JP6512838 A JP 6512838A JP 51283894 A JP51283894 A JP 51283894A JP H07502617 A JPH07502617 A JP H07502617A
Authority
JP
Japan
Prior art keywords
profile
statistics
uniform
attributes
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6512838A
Other languages
English (en)
Other versions
JP2728977B2 (ja
Inventor
アンドレ,フレデリツク
Original Assignee
ブル・エス・アー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ブル・エス・アー filed Critical ブル・エス・アー
Publication of JPH07502617A publication Critical patent/JPH07502617A/ja
Application granted granted Critical
Publication of JP2728977B2 publication Critical patent/JP2728977B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】 統計量プロファイルの抽出方法、及び該方法によって作成した統計量の利用法 本発明は、リレーショナル・データベースから統計量プロファイルを抽出する方 法と、該錠方法によって作成した統計量の利用に関するものである。
リレーショナル・データベースは、階層データベースと比較したときの長所によ って広く用いられている。しかしながら、いくつかのアプリケーションにおいて 、およびデータベースの設計の方式によっては、応答時間をはじめとして、すべ ての性能が十分ではないと判断されることも起こり得る。従って、情報システム のほうを適合させることで、満足できる応答時間を得るか、あるいはデータベー スの構造か、または要求の表現のほうを変更することが必要となる。情報システ ムまたはデータベース構造、あるいは要求の表現の方式を変えることによる相互 の影響を判断できるようにするため、すでに以前のフランス特許出願第2674 651号に、性能を評価するための改良した機構が記載されており、この機構は 、ライブラリ、アーキテクチャ、システム、アクセス方法、そしてデータベース ・プロファイルの全体に基づいて作動する。このライブラリはデータベースの性 能評価の実行、つまり1つの要求に対する応答時間を評価するのに必要となる。
本発明は、性能評価機構中で使用されるデータベース・プロファイル・ライブラ リを構成する、統計量プロファイルの抽出方法に関するものである。
従って本発明の第1の目的は、余り時間を消費せずに、あるいは結果を記憶する のに余りメモリ空間を使わずに、データベースから統計量プロファイルを抽出す る方法を提供することである。
この目的は、関係、属性、およびインデックスによって編成されたリレーショナ ル・データベースから統計量プロファイルを抽出する方法において、上記プロフ ァイルがこのデータベースに含まれる表の中に配列され、 オブジェクトとして選択できるもの、つまり1つの表の中の1列、1つの表の中 のすべての列、すべての表、または特殊な選択法では、ある表の中である属性を 表している1列といった選択肢の中からターゲット・オブジェクトを選択する段 階と、統計量プロファイルを生成する段階とを含むことを特徴とする方法によっ て達成される。
もう一つの目的は、どのようなタイプのものであれ、あらゆる種類のデータに適 合できるプロファイル抽出方法を提供することである。
この目的は、この方法がプロファイル生成段階中に、値の分布に関する統計量( 論理統計量)を発生させる段階、あるいは値の位置に関する統計量(物理統計量 )を発生させる段階を含んでいることによって達成させる。
別の特徴によれば、この値分布統計量の発生段階は、数学的依存性を見つけるた めに、相関関係を検証する段階と、データの分布が一様であるかどうかを判定す るために、分布を検証する段階と、 統計量を生成する段階とを含んでいる。
また別の特徴によれば、データの分布が一様でないならば、分布検証段階は、そ のデータがアルファベットタイプであるか、英数字タイプであるか、あるいは数 字タイプであるかを判定し、各タイプに対応する形で統計量を生成するために、 データのタイプを検証する段階を含む。
別の特徴によれば、一様でないアルファベットタイプに対応する統計構造は、高 さが一定のヒストグラムであり、また同じく、関係のプロファイルと属性のプロ ファイル、並びに最大値、最小値とを含む表である。
別の特徴によれば、数字タイプに対応する形式は、数値のタイプに応じて、高さ か−、定のヒストグラム、あるいは積率である。表には、関係のプロファイルと 属性のプロファイル、並びに属性の最小値、最大値が含まれる。
別の特徴によれば、一様なアルファベットタイプに対応する形は、関係プロファ イルおよび属性プロファイルを含む表であり、各プロファイルには属性の最小値 、最大値が含まれる。
別の特徴によれば、値の位置に関する統計量発生段階は、高さが一定のヒストグ ラムという形で統計量を生成する。
別の特徴によれば、プロファイルをそれぞれ下記の表に配列する。
関係に関する統計量を含む1つの関係プロファイル表属性統計量を含む1つの属 性プロファイル表値が一様分布に従うような属性に関する統計量を含む3つの表 値が非一様分布に従うような属性に関して、積率という形の統計量を含む2つの 表 値が非一様分布に従うような属性に関して、高さが一定のヒストグラムという形 の統計量を含む3つの表各属性について、(統計量を従来の方式で視覚化するた め)幅が一定のヒストグラムという形の統計量を含む1つの表相量関係を有する 属性についての統計量を含む7つの表本発明の別の目的は、上述の方法によって 生成した統計量の使用法を提案することである。この目的は、リレーシタナル・ データベース、つまりその中で関係が属性を持っているようなデータベースから 、統計量プロファイルを抽出する方法によって生成した統計量の使用方法であっ て、選択したある関係の属性の統計量プロファイルにアクセスするステップと、 その統計プロファイルが存在している場合、そのデータベースに対して提出した 要求のコストを算定する際に、そのプロファイルの信頼率を、ユーザが希望する 信頼率と比較するステップと、 その統計プロファイルが存在しない、あるいはその信頼率が希望した信頼率より 低い場合、本抽出方法を、選択した関係の属性に対して適用し、それによりその 統計プロファイルを生成するステップと、 信頼率を満足する統計プロファイルを、データベースのプロファイル・ライブラ リ内に格納することにより、性能評価を行うのに適合できる機構がそのプロファ イルを利用できるようにするステップとからなる方法によって達成される。
本発明のその他の特徴および利点は、添付の図面を参照しながら、以下の説明を 読めばより明らかになるであろう。
−第1図は、データベースと性能評価機構との間に配置された統計量プロファイ ル抽出機構の概略図である。
−第2図は、この抽出機構内に組み込んだ、統計量の分布評価を行うための統計 量プロファイル抽出プログラムのフローチャートである。
一第3図は、データの位置に関して統計量プロファイルを抽出するプログラムの フローチャートである。
−第4図および第5図は、プロファイルがそこで実行される。
その関係に関する情報を情報システムの画面上に表示するウィンドウを表す図で ある。
一第6図は、プロファイルがそこで評価される、その関係の属性に関するウィン ドウを表す図である。
第1図は、コスト算定機構(3)を使用した情報システムを表し、コスト算定機 構はデータベース(21,22)から統計量プロファイルを抽出するためのブロ ック(1)から情報を受け取る。一方のデータベース(21)はリレーショナル ・タイプであり、これは例えば0RACLEタイプでよく、他方のデータベース (22)はINGRESタイプのものでよい。それぞれのデータベースは、イン タフェース(12)を介してプロファイル抽出モジュール(10)七通信してお り、このインタフェースは、そのデータベース用に適合させたデータ獲得マネー ジャである。このように、プロファイル抽出モジュール(10)は、活動中のデ ータベースとともに働くのに適したインタフェース(12)を意のままに使用で きるので、モジュールの使用法には汎用性および柔軟性がある。
コスト算定および性能評価機構(3)は、特許出願PCT/92109057号 あるいは1992年10月2日に2674651号として公開されたフランス特 許出願第91.03915号に記載されたタイプの機構である。このタイプの機 構は、ライブラリの集合に基づいて作動しており、その集合のうちの−っは統計 量プロファイル・ライブラリから構成されている。本発明の目的は、第一に、統 計量プロファイル・ライブラリの構築を可能とする機構、およびその機構によっ て使用される方法に関するものである。機構(10)は情報システムによって実 行されるプログラムから成り、これにより統計量プロファイルの作成を可能にし ており、一方、機構(11)は情報システムによって実行されるプログラムから 成り、これにより関係のプロファイルおよび関係の属性プロファイルに関する情 報を、システムの画面上に表示するのを可能にしている。
プログラム(10)は、統計量プロファイルを作成する前に、データベース(そ れぞれ21と22)内に生成され、各自のデータベース上でそれぞれ表(210 ,220)を処理し、表の中に統計量を配列する。これらの表は、関係に関する 統計量を含む関係プロファイル(REL−PROF)表と、属性に関する統計量 を含む属性プロファイル(ATT−PROF)表と、インデックスに関する統計 量を含むインデックス・プロファイル(I N D −、P ROF )表と、 一様一整数(UNIF−INT)、一様−小数(UNIF−PLO)、一様一文 字列(UNIF−3TR)という3つの表とから構成されており、最後の3つの 表には、値が一様分布に従うような属性に関する統計量が含まれる。
積率−整数(MOM−I NT)と積率−小数(MOM−PLO)という2つの 表は、値が非一様分布に従うような属性における統計量を含んでおり、ヒスト− 整数(HI ST−I NT)、ヒスト−小数()(I 5T−FLO) 、ヒ スト−文字列(HIST−3TR)という3つの表は、値が非一様分布に従うよ うな属性に関する統計量を、高さが一定のヒストグラムという形で含んでおり、 長さ−ヒスト(LENG−HI ST)という表は、属性の統・計量を(ユーザ に対して表示するため)幅が一定のヒストグラムという形で含んでおり、最後に 多次元ヒストグラム(MULT−HI ST) 、整数表(T NT−TAB)  、小数表(PLO−TAB) 、文字表(STR−TAB) 、表−日付(D AT−TAB) 、関係ヒストグラム(REL−MHI ST)、属性ヒストグ ラム(ATT−MHI ST)という7つの表は、複数の属性に関する統計量を 含んでいる。
ソフトウェア(10)は同じく、データの論理選択度、あるいは物理選択度の計 算を可能にする統計量を作成する。この統計量は、論理選択度の場合には、第2 図のフローチャート(20)に従って作成される値分布統計量(VDS)に基づ いて作成され、また物理選択度の場合には、データ位置統計量(DPS)に基づ いて作成される。データの位置に関する統計量は、物理選択度の作成を可能にし 、また第3図のフローチャート(30)に対応している。データ位置統計量につ いては、第3図に図示したように、プロファイル抽出プログラムがそのデータか ら、高さが一定のヒストグラムを抽出する。論理選択度の算定が行えるような統 計量の場合には、統計量プロファイル抽出プログラムは、第2図のフローチャー トに従う。この場合、プログラムは、まずステップ(23)において、属性間に 相関関係があるかどうかを知るために相関検証を実行する。
この相関の確証は、分布のエントロピー(Hで表す)に基づく相関の測定によっ て行われる。
属性XおよびYを仮定し、XおよびYの値の変域をそれぞれDxおよびDYとす る。解くべき問題は、Dxの値とDyの値との間に相関関係があるかどうかであ る。
このアブリケーンヨンのデータに対するDxおよびDYは、第2B図に示したよ うに分類できる。
ここでKは、属性Xが値!1を取り、しかも属性Yが値Y1を取るような多重項 の数である。
ここでNiは、変域Dxの1番目の値に対する多重項の数であり、Nは多重項の 総数である。
l1w自然対数 XとYの間の依存性係数Uは以下の値である。
システムは)I (X) 、H(Y) 、H(Y/X )を算定し、続イて、下 記のようにして相関関係を決定するため、U (Y/I ”)を算定する。
U (Y/X ) =Oならば、XとYは何の依存性も持っていない。
U(Y/X)=1ならば、XとYは完全に依存している。
相関関係が存在するならば、複数の属性に関するデータ構造が問題となり、その 場合、ステップ(231)におけるプログラムは、その相関関係を高さが一定の 多次元ヒストグラム構造の形で表示する。相関関係が存在しない場合には、プロ グラムは次のステップ(24)に進むが、このステップは分布の検証段階であり 、その分布が一様であるか非一様であるかを検証する。
分布の検査はχ1検定に基づいて行う。
Niを、ある属性のある与えられた値に対して観測される多重項の数とし、また niを、探している分布(2項分布、指数分布、正規分布)に従って得られる多 重項の数であると仮定する。
χスが大きければ、それは属性の値が、探している分布に従っていないことを意 味している。もしχ7−〇ならば、それは属性の値が、予想した分布に正確に従 っていることを意味する。
−m分布(241)の場合には、プログラムは関係プロファイル、属性プロファ イル、および最小値、最大値を表示するステップ(27)に進む。分布が非一様 (242)の場合には、プログラムはデータ・タイプを検証するステップ(25 )に進み、またステップ(251)において、データがアルファベットであるか どうかを検証し、その結果に応じて、ステップ(27)において、関係プロファ イルあるいは最大値、最小値を含む属性プロファイルを作成し、次にステップ( 28)において、高さが一定のヒストグラムを作成する。ステップ(252)に おいてプログラムがデータ・タイプを数値データであると判定した場合、ステッ プ(27)において、プログラムはそれらの最大値、最小値によって関係プロフ ァイルまたは属性プロファイルを作成し、次に、ステップ(26)において、値 のタイプについて探索を行う。この場合、プログラムはプロファイルを、ステッ プ(28)において、高さが一定のヒストグラムの形で、あるいはステップ(2 9)において、i次の積率の形で作成する。
i次の積率は、特定の属性Yを幕数iで累乗した値の和:M i =ΣY1に等 しい。
このように、この統計量抽出方法を上記のとおりデータベースのデータに対して 適用すると、機構(10)はそのデータベースから、プロファイル・ライブラリ を構成する表を抽出する。
このプロファイル・ライブラリによって、データベースから抽出した統計量の信 頼率を決定することができる。統計量プロファイルによって伝播される誤り率は 、評価や算定について希望した信頼率より低くなければならない。このように、 評価用プログラム(3)は、誤り率が希望した信頼率より低いかぎりにおいて、 しかもその統計量が更新を必要としない場合に、ライブラリ(210,220) 内に格納された統計量を利用することになる。そうでない場合には、誤り率が希 望した信頼率より低いという理由から、あるいはデータベースが更新されてしま っており、従って統計量がもはや信頼できないという理由から、プロファイル抽 出プログラムを実行して、その統計量を更新することになる。
実際、生成あるいは更新されたばかりのプロファイルは信頼率が100%である 。現実のデータベースに対するいかなる変更も信頼率の低下を招く。このことは 、それぞれの属性の統計量に対する変更(挿入、更新、削除)、とりわけ分布に 対する変更の結果にその原因を帰すことができる。
抽出を、このプロファイル抽出モジュール(10)を使って実行することの利点 は、得られたプロファイルが十分に母集団を代表しているので、性能評価モジュ ール内で使用することができ、それにもかかわらず、計算時間が余り多くかから ないことである。このことから、統計量プロファイルに基づいて、ある要求のコ ストを、ある与えられたアーキテクチャに応じて評価したり、あるいは最適アー キテクチャを探して、与えられたタイプの要求のコストを最小化したり、それに 類することが行えるようになる。プロファイルを利用する際、評価用プログラム は、 ある与えられた関係の属性に関する統計量プロファイルにアクセスするステップ と、 その統計量プロファイルが存在する場合、信頼率を、必要とされる信頼率と比較 するステップと、 統計量プロファイルが存在しない場合、あるいは信頼率が必要とされる信頼率よ り低い場合、与えられた関係の属性に対してプロファイル抽出プログラムを始動 させるステップと、統計量プロファイルの生成の終わりに、性能評価プログラム を始動させるステップとを実行する。
統計量プロファイルの評価用プログラム(10)は表示モジュール(11)と連 結されており、このモジュールによって、評価結果やプロファイルを抽出した機 械の画面上に、関係ブロファイルや属性プロファイルに関する主要情報を表示す ること第4図は、このソフトウェアによって作成した一つの関係のプロファイル を示す。このプロファイルはモジュール(11)によってウィンドウ(40)と いう形で表示され、このウィンドウ(40)は、関係の名称を表示できる表示欄 (400)と、関係のサイズを表示するための表示欄(401)と、属性番号を 表示できる表示欄(402)と、起点番号を表示するための表示III (40 3)と、所有者の名前を表示できる表示欄(404)と、サイズをページ数で表 示するための表示欄(405)と、多重項サイズを表示できる欄(406)と、 パケットに分解した多重項の番号を表示するための欄(407)と、プログラム (10)によって作成した統計量の最終更新日を表示できる欄(408)と、そ の統計量の信頼率を表示できる欄(409)とを含んでいる。表示行(410) には、その統計量の信頼率を表示でき、また表示欄(411)には、属性番号を 表示でき、また3つの操作ボタン(412,413,414)は、欄(415) の表示に対してそれぞれ追加、削除または消去、編集という機能を実行できる。
グローバル・インデックスの表示行(416)により、データに直接アクセスで き、また表示行(421)は属性番号を表示し、表示欄(417)はインデック ス名を表示し、また追加、削除、編集という3つの機能は、それぞれ3つの操作 ボタン(418,419,420)によってアクセス可能であり、これらの機能 は欄(422)の表示に作用することができ、そして以上の表示も同じく、関係 プロファイル・ウィンドウ(40)の表示を構成している。
操作ボタン(423)によって、前もって定義したグローバル・インデックスに 対して記憶構造を関連付けることができるが、その構造として、アドレスの計算 による構造(つまりI\ツシュ)またはb木構造の2つが可能である。
表示欄(423,431)は、プルダウンメニューのための欄であり、これによ りアドレス計算アルゴリズムを有する記憶構造と、木構造を有する記憶構造との 間で選択が行える。
行(424)ではローカル・インデックスの入力が行え、欄(425)では属性 番号を定義でき、もう一つの欄(426)ではインデックス名が定義でき、また 追加(427)、削除(428)、および編集(429)という3つの機能によ り、II(430)の表示を変更でき、操作ボタン(431)によって、そのイ ンデックスに記憶構造を関連付けることができ、そのために2つの構造、つまり アドレス計算アルゴリズムか、または木構造が自由に使用できる。最後にIm( 432)によって、評価を行うためのターゲット環境のタイプ、すなわちメモリ が分散しているかそれとも共用であるかを定義でき、また行(433)によって 、属性の走査、およびそれぞれの属性のプロファイルの視覚化が行える。
第6図によって、ウィンドウ(60)中に、属性名を定義できる欄(601)と 、その新規性を定義できる欄(602)と、変域が取る値の数を定義できる欄( 603)と、属性のタイプ、すなわちそれが整数であるかどうかを指示できる表 示ボタン(604)を表示することにより、属性プロファイルを定義し、あるい は表示することが可能となる。表示行(605)によって論理統計量を定義でき 、また表示欄(606)によってプロファイルが実行される母集団を指示するこ とができる。この欄(606)は、プロファイルをすべての多重項に対して実行 するのか、あるいはデータへのアクセス・コストを下げるため、1つのサンプル に対して実行するのかを表示する。欄(607)によって統計方法のタイプ、例 えば一様方式を選択でき、また欄(608)によって属性の分布モード、例えば 一様モードを定義でき、また欄(610)は属性の最小値を表示し、欄(609 )は最大値を表示する。行(614)によってデータの位置に関する統計量を指 示でき、またII (611)によって、そうした統計量がすべての多重項に対 して実行されたか、それとも単に1つのサンプルに対して実行されたかを示すこ とができる。欄(612)は使用した統計方法を、例えば一様と示し、またII  (613)は分布モードを、例えば一様分布モードと示す。
プルダウンメニューを有する欄(607,612)により、統計量の処理方法を 、一様方式、ヒストグラムによる方法、多次元ヒストグラムに基づいた方法、そ して積率に基づいた方法の中から選択することができる。
プルダウンメニューを有する欄(608,613)により、データの分布モード を、一様モード、非一様モード、ポアッソン分布、正規分布の中から選択し、そ れを視覚化することができる。
当業者に理解できるこれ以外の変形例も、同様に本発明の趣旨の一部を成してい る。
統計量プロファイラ データ 3゜

Claims (1)

  1. 【特許請求の範囲】 1.関係、属性に基づいて編成されたリレーショナルデータ ベースから統計量プロファイルを抽出する方法において、上記プロファイルがデ ータベース(21、22)内に含まれる表(210、220)中に配列され、該 方法が、ターゲット・オブジェクトをオブジェクトとして可能な選択肢、即ち1 つの表の1列、1つの表のすべての列、すべての表、あるいは特殊な選択法の中 から選択する段階と、統計量を生成する段階とを含むことを特徴とする統計量プ ロファイルの抽出方法。 2.統計量プロファイルの生成段階が、値の分布に関する統計量を生成する段階 (20)、あるいは値の位置に関する統計量を生成する段階(30)を含むこと を特徴とする、請求の範囲第1項に記載の方法。 3.値の分布に関する統計量を生成する段階(20)が、相関関係を検証して、 数学的依存性を見つけるための段階(23)と、 分布を検証して、データ分布が一様であるか、非一様であるかを判定するための 段階(24)と、 統計量を作成する段階とを含むことを特徴とする、請求の範囲第2項に記載の方 法。 4.データ分布が非一様であるならは、分布を検証する段階がデータのタイプを 検証して、そのデータがアルファベットタイプか、英数字タイプか、あるいは数 字タイプかを判定し、各タイプに対応する形で統計量を生成するための段階(2 5)を含むことを特徴とする、請求の範囲第3項に記載の方法。 5.非一様アルファベットタイプに対応する統計構造が、高さが一定のヒストグ ラム(28)、および関係のプロファイルと、最小値および最大値に基づいた属 性のプロファイルとを含む表(27)であることを特徴とする、請求の範囲第4 項に記載の方法。 6.数字タイプ(252)に対応する形が、値のタイプに応じて、 高さが一定のヒストグラム(28)、または積率(29)のどちらかと、 関係のプロファイルと、最小値および最大値に基づいた属性のプロファイルとを 含む表(27)であることを特徴とする、請求の範囲第4項に記載の方法。 7.一様アルファベットタイプ(251)に対応する形が、関係のプロファイル と、最小値および最大値も含めた属性のプロファイルとを含む表であることを特 徴とする、請求の範囲第3項に記載の方法。 8.値の位置に関する統計量を生成する段階(30)が、高さが一定のヒストグ ラムという形で統計量を生成することを特徴とする、請求の範囲第2項に記載の 方法。 9.各プロファイルがそれぞれ、 関係に関する統計量を含む1つの関係プロファイル表(REL−PROF)、 属性統計量を含む1つの属性プロファイル表(ATT−PROF)、 インデックスに関する統計量を含む1つのインデックス・プロファイル表(IN D−PROF)、 値が一様分布に従うような属性に関する統計量を含む3つの表(一様−整数、一 様−小数、一様−文字列)、値が非一様分布に従うような属性に関する統計量を 含む2つの表(積率−1数、積率−小数)、 値が非一様分布に従うような属性に関して、統計量を高さが一定のヒストグラム という形で含む3つの表(ヒスト−整数、ヒスト−小数、ヒスト−文字列)、 属性に関して、統計量を幅が一定のヒストグラムという形で含み、その統計量の 視覚化を容易にするための1つの表(幅−ヒスト)、 相関関係にある属性に関する統計量を含む7つの表(多次元−ヒスト、整数−表 、小数−表、文字列−表、日付−表、関係−ヒスト(rel−mhist)、属 性−ヒスト(att−mhist))の中に配置されることを特徴とする、請求 の範囲第1項から第8項のいずれか一項に記載の方法。 10.請求の範囲第1項から第10項のいずれか一項に記載の、リレーショナル ・データベース、つまりその中で関係が属性を持つようなデータベースから統計 量プロファイルを抽出する方法によって作成した統計量の利用法であって、選び 出した関係の属性に関する統計量プロファイルにアクセスするステップと、 その統計プロファイルが存在する場合、そのデータベースに対して提出した要求 のコストを算定する際に、そのプロファイルの信頼率を、ユーザが希望する信頼 率と、性能評価機構によって比較するステップと、 統計プロファイルが存在しない場合、あるいは信頼率が希望する信頼率より低い 場合には、この抽出方法を、選び出した関係の属性に適用して統計プロファイル を生成するステップと、信頼率を満足する統計量プロファイルを、そのデータベ ースのプロファイル・ライブラリ(210、220)に格納して、性能評価を行 うのに適合できる機構によってそれを利用できるようにするステップとを含む、 統計重利用法。
JP6512838A 1992-11-20 1993-11-19 統計量プロファイルの抽出方法、及び該方法によって作成した統計量の利用法 Expired - Lifetime JP2728977B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR92/13988 1992-11-20
FR9213988A FR2698465B1 (fr) 1992-11-20 1992-11-20 Méthode d'extraction de profils de statistiques, utilisation des statistiques créées par la méthode.
PCT/FR1993/001141 WO1994012942A1 (fr) 1992-11-20 1993-11-19 Methode d'extraction de profils de statistiques, utilisation des statistiques creees par la methode

Publications (2)

Publication Number Publication Date
JPH07502617A true JPH07502617A (ja) 1995-03-16
JP2728977B2 JP2728977B2 (ja) 1998-03-18

Family

ID=9435754

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6512838A Expired - Lifetime JP2728977B2 (ja) 1992-11-20 1993-11-19 統計量プロファイルの抽出方法、及び該方法によって作成した統計量の利用法

Country Status (4)

Country Link
EP (1) EP0599707A1 (ja)
JP (1) JP2728977B2 (ja)
FR (1) FR2698465B1 (ja)
WO (1) WO1994012942A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8868580B2 (en) 2003-09-15 2014-10-21 Ab Initio Technology Llc Data profiling
US9323748B2 (en) 2012-10-22 2016-04-26 Ab Initio Technology Llc Profiling data with location information
US9449057B2 (en) 2011-01-28 2016-09-20 Ab Initio Technology Llc Generating data pattern information
US9892026B2 (en) 2013-02-01 2018-02-13 Ab Initio Technology Llc Data records selection
US9971798B2 (en) 2014-03-07 2018-05-15 Ab Initio Technology Llc Managing data profiling operations related to data type
US11068540B2 (en) 2018-01-25 2021-07-20 Ab Initio Technology Llc Techniques for integrating validation results in data profiling and related systems and methods
US11487732B2 (en) 2014-01-16 2022-11-01 Ab Initio Technology Llc Database key identification

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6801903B2 (en) * 2001-10-12 2004-10-05 Ncr Corporation Collecting statistics in a database system

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2674651B1 (fr) * 1991-03-29 1993-05-28 Bull Sa Dispositif d'evaluation de performance adaptable.

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9323802B2 (en) 2003-09-15 2016-04-26 Ab Initio Technology, Llc Data profiling
US8868580B2 (en) 2003-09-15 2014-10-21 Ab Initio Technology Llc Data profiling
US9652513B2 (en) 2011-01-28 2017-05-16 Ab Initio Technology, Llc Generating data pattern information
US9449057B2 (en) 2011-01-28 2016-09-20 Ab Initio Technology Llc Generating data pattern information
US9323749B2 (en) 2012-10-22 2016-04-26 Ab Initio Technology Llc Profiling data with location information
US9569434B2 (en) 2012-10-22 2017-02-14 Ab Initio Technology Llc Profiling data with source tracking
US9323748B2 (en) 2012-10-22 2016-04-26 Ab Initio Technology Llc Profiling data with location information
US9990362B2 (en) 2012-10-22 2018-06-05 Ab Initio Technology Llc Profiling data with location information
US10719511B2 (en) 2012-10-22 2020-07-21 Ab Initio Technology Llc Profiling data with source tracking
US9892026B2 (en) 2013-02-01 2018-02-13 Ab Initio Technology Llc Data records selection
US10241900B2 (en) 2013-02-01 2019-03-26 Ab Initio Technology Llc Data records selection
US11163670B2 (en) 2013-02-01 2021-11-02 Ab Initio Technology Llc Data records selection
US11487732B2 (en) 2014-01-16 2022-11-01 Ab Initio Technology Llc Database key identification
US9971798B2 (en) 2014-03-07 2018-05-15 Ab Initio Technology Llc Managing data profiling operations related to data type
US11068540B2 (en) 2018-01-25 2021-07-20 Ab Initio Technology Llc Techniques for integrating validation results in data profiling and related systems and methods

Also Published As

Publication number Publication date
WO1994012942A1 (fr) 1994-06-09
FR2698465B1 (fr) 1995-01-13
JP2728977B2 (ja) 1998-03-18
EP0599707A1 (fr) 1994-06-01
FR2698465A1 (fr) 1994-05-27

Similar Documents

Publication Publication Date Title
US7707143B2 (en) Systems, methods, and computer program products that automatically discover metadata objects and generate multidimensional models
US5592666A (en) Method and system for storing and retrieving data from a multidimensional array using database pointers
US5870747A (en) Generalized key indexes
CA2603515C (en) Method and system for handling large data sets in a statistical language
US7756804B2 (en) Automated model building and evaluation for data mining system
KR101213798B1 (ko) 복합 데이터 액세스
JP3344200B2 (ja) データ処理システム上で実行される複雑なソフトウェア機能の単一制御のための可変コンピュータ・アイコン
US20040133581A1 (en) Database management system, data structure generating method for database management system, and storage medium therefor
US5933796A (en) Data extracting system based on characteristic quantities of data distribution
US20060026199A1 (en) Method and system to load information in a general purpose data warehouse database
JPH10232804A (ja) データベースシステムにおいて集合体照会を遂行するための方法と装置
US20090303238A1 (en) Identifying on a graphical depiction candidate points and top-moving queries
KR100787079B1 (ko) 표형식데이터의 제시방법, 삽입방법, 삭제방법 및 갱신방법
US5544298A (en) Code generation and data access system
CN107357812A (zh) 一种数据查询方法及装置
US5301315A (en) Indexing/compression scheme for supporting graphics and data selection
US11947567B2 (en) System and method for computing and managing datasets using hierarchical analytics
US5692171A (en) Method of extracting statistical profiles, and use of the statistics created by the method
JP3777087B2 (ja) デ―タ表示システム、データ表示方法、コンピュータシステムおよび記録媒体
US5481704A (en) Indexing/compression scheme for supporting graphics and data selection
JPH07502617A (ja) 統計量プロファイルの抽出方法、及び該方法によって作成した統計量の利用法
CN108763341B (zh) 电子装置、自动化建表方法及存储介质
Verbruggen et al. Automatically wrangling spreadsheets into machine learning data formats
US20060005121A1 (en) Discretization of dimension attributes using data mining techniques
JP3552339B2 (ja) データベースシステム