JP2002092009A - Sqlベースの分析的アルゴリズムに基づくデータ検索方法及び装置 - Google Patents

Sqlベースの分析的アルゴリズムに基づくデータ検索方法及び装置

Info

Publication number
JP2002092009A
JP2002092009A JP2001207061A JP2001207061A JP2002092009A JP 2002092009 A JP2002092009 A JP 2002092009A JP 2001207061 A JP2001207061 A JP 2001207061A JP 2001207061 A JP2001207061 A JP 2001207061A JP 2002092009 A JP2002092009 A JP 2002092009A
Authority
JP
Japan
Prior art keywords
analysis
cluster
data
computer system
analysis algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001207061A
Other languages
English (en)
Inventor
James Dean Hildreth
ディーン ヒルドレス ジェームズ
Scott W Cunningham
ウッドルーフェ キュニンハム スコット
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NCR International Inc
Original Assignee
NCR International Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NCR International Inc filed Critical NCR International Inc
Publication of JP2002092009A publication Critical patent/JP2002092009A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Abstract

(57)【要約】 【課題】 関係データベース管理システムにおいてデー
タマイニング・アプリケーションを実行する方法、装
置、並びに、製造物が開示されている。 【解決手段】 クラスタ分析に対する分析アルゴリズム
はコンピュータによって実行される。クラスタ分析に対
する分析アルゴリズムはSQLステートメント及びプロ
グラム的反復を含んで、関係データベース管理システム
から検索されたデータにおいて1つ或はそれ以上のグル
ープ分けを見出し、それらグループ分けの内の同質のも
のをクラスタとして識別する。クラスタ分析に対する分
析アルゴリズムは関係データベース内に常駐するデータ
から分析論理データ・モデル内に少なくとも1つの分析
モデルを作り出す。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、一般的には、関係
データベース管理システムに関し、そして特に関係デー
タベース内に常駐するデータから分析モデルを作成する
クラスタ分析に対するSQLベースの分析アルゴリズム
に関する。
【0002】関係データベースはコンピュータ・システ
ムで使用されるデータベース管理システムの支配的な形
態である。関係データベース管理システムは、莫大な量
のデータが記憶され処理される所謂「データ・ウェハー
ス」・アプリケーションでしばしば使用される。近年、
幾つかのトレンドがデータマイニング・アプリケーショ
ンとして知られるデータ・ウェハージング・アプリケー
ションの新しい部類を作り出すべく収束されてきてい
る。データマイニングはデータベース内のパターンを識
別し解釈すると共に、3つのステージに一般化され得
る。
【0003】ステージ1は報告ステージであり、データ
を分析して何が起こったかを決定する。一般に、殆どの
データ・ウェハース具現化はビジネスの特定機能領域内
に焦点が合わされたアプリケーションで始まる。これら
アプリケーションは、通常、以前にはアクセスが難しい
か或は不可能であったビジネス情報の履歴的なスナップ
ショット報告に焦点を合わせる。例として、ほんの少数
を挙げれば、販売収益報告、生産報告、並びに、在庫報
告がある。
【0004】ステージ2は分析ステージであり、データ
を分析してそれがなぜ起こったかを決定する。ステージ
1のエンドユーザは彼等のビジネスの以前には未知の展
望を獲得すると、彼等は例えば販売収益の下落等の特定
の出来事がなぜ生じたのかを理解するために直ちに捜し
求める。販売に関して報告された下落を発見した後、デ
ータ・ウェハースのユーザは、「なぜ販売が下落したか
?」を明らかに問う。この質問に対する回答を学ぶこと
は、典型的には、条件の根本原因が発見されるまでその
場限りの問い合わせ或は多次元的な問い合わせの反復的
連続を通じてデータベースを精査することを含む。例と
しては販売分析、在庫分析、或は、生産分析を含む。
【0005】ステージ3は予想ステージであり、何が起
こるかを決定するように試みる。ステージ2のユーザが
より洗練されると、彼等は彼等の分析を未知の出来事の
予想を含むように拡張し始める。例えば、「どのエンド
ユーザが特定の製品を購買する可能性があるか」、或
は、「誰が競争のために立ち去る危険にさらされている
か?」である。人間にとってデータ内の希薄な関係を理
解或は解釈することは難しく、データ・ウェハースのユ
ーザは洗練された予想分析まで進化するので、彼等は従
来の問い合わせ及び報告ツールの限界に直ぐに到達す
る。データマイニングはエンドユーザを補助し、分析負
荷の内の幾らかを人から機械へシフトすべく知能ソフト
ウェアに梃子入れすることによってこれら限界を打ち破
らせて、以前には未知であった関係の発見を可能とす
る。
【0006】単一アルゴリズム解決策から完全ツール組
まで、数多くのデータマイニング・テクノロジーが利用
可能である。しかしながら、これらのテクロノジーの殆
どが少しのデータが取り込まれて維持されるデスクトッ
プ環境内で使用される。それ故に、データマイニング・
ツールは、様々なソースから私有のデータ構造或は平べ
ったいファイル内へ集められた小さなデータ・サンプル
を分析すべく使用される。他方、組織化は非常に大きな
データベースをため込むように始まっており、エンドユ
ーザはこれら大きなデータベースとアクセスを要求する
より複雑な質問を求めている。
【0007】残念ながら、殆どのデータマイニング・テ
クロノジーは大量のデータと共に用いることができな
い。更にデータマイニングで使用される殆ど分析技術は
データ駆動式と言うよりもアルゴリズム・ベースであ
り、そうしたことで、データマイニングとデータ・ウェ
ハースとの間で現在殆ど相乗作用がない。更には、使用
可能性の見込みから、従来のデータマイニング技術はデ
ータベース管理者及びアプリケーション・プログラマー
による使用には余りにも複雑であり、異なる産業用或は
異なる顧客用に変更するには余りにも難しい。
【0008】
【発明が解決しようとする課題】こうして、当業界にお
いて、データ・ウェハースに対して直接動作し、そして
非統計学者が関係環境において有効である上級の数学技
術から利益を得ることを可能とするデータマイニング・
アプリケーションの要望がある。
【0009】本発明の目的は、関係データベース管理シ
ステムに改善されたデータマイニング・ツール・セット
を提供すると共に、並列プロセッサ・コンピュータ・シ
ステムのより効率的な使用を提供することである。
【0010】
【課題を解決するための手段】第1局面から見れば、本
発明はデータマイニング・アプリケーションを実行する
方法に存しており、該方法は、(a)コンピュータ・シ
ステムと接続された1つ或はそれ以上のデータ記憶装置
に記憶された関係データベースを管理することと、
(b)前記コンピュータ・システムにおいてクラスタ分
析に対する分析アルゴリズムを実行し、クラスタ分析に
対する前記分析アルゴリズムが、SQLステートメント
及びプログラム的反復(プログラムに基づく反復)を含
んで、関係データベース管理システムから検索されたデ
ータにおいて1つ或はそれ以上のグループ分けを見出
し、それらグループ分けの内の同質のものをクラスタと
して識別しており、そして、関係データベース内に常駐
するデータから分析論理データ・モデル内に少なくとも
1つの分析モデルを作り出すことと、を含む。
【0011】クラスタ分析に対する分析アルゴリズム
は、好ましくは、クラスタに対して分析されるべき属性
から成るリスト、クラスタ分析のタイプ、データ内で調
査されるべきクラスタの数、反復閾値、並びに、反復の
最大数、を含む群から選択された1つ或はそれ以上の入
力パラメータに従って実行される。クラスタ分析に対す
る分析アルゴリズムは、好ましくは、クラスタ平均、分
散、並びに、先行確率を含む群から選択された1つ或は
それ以上の要素を含む出力を生成する。前記先行確率
が、全てのクラスタ内分散の平均としてクラスタ識別の
成功の測定を含む。
【0012】クラスタ分析に対する分析アルゴリズム
は、好ましくは、特定化されたテーブルの各行を1つ或
はそれ以上のクラスタと無作為に関連させることと、ク
ラスタに対して特定化された数の反復を実行し、各反復
が予想ステップ、最大化ステップ、並びに、評価ステッ
プを実行することと、を含む。前記予想ステップが、平
均、分散、並びに、各クラスタに割り当てられた行に対
する周波数を計算することと、共分散逆マトリックスを
前記計算された分散を用いて、好ましくは該共分散がゼ
ロであると仮定して、構築することと、を含む。前記共
分散は、クラスタ分析の実行を改善する標準化ユークリ
ッド距離に基づき、それは、必要とされる計算の数が列
数の平方よりも列数に比例するからである。前記標準化
ユークリッド距離は、好ましくは、マハラノビス距離
(MD)を含み、前記構築ステップは、前記マハラノビ
ス距離を用いて、各クラスタまでの各行の距離を計算す
ることを含む。前記計算ステップは前記予想ステップか
らの平均及び分散を用いる。K−meansモデルは前
記構築ステップで用いることができ、最低マハラノビス
距離を用いて各行を最も近接するクラスタ質量中心に関
連させることによってクラスタに行を再度割り当てる。
代替的には、ガウス混合モデルを用いることができ、距
離の単位がガウス距離機能によって標準正規分布の標準
偏差の単位へ変換された後、確率論的加重で行を再びク
ラスタに割り当てる。前記計算ステップ及び前記構築ス
テップからの中間結果が前記構築ステップで表示され得
て、次の反復へ渡される。これら中間結果は、クラスタ
平均、分散、並びに、平均的なクラスタ内分散を含む。
【0013】クラスタ分析に対する分析アルゴリズムに
よって特定化された数の反復が実行された後、最終結果
が表示される。
【0014】前記評価ステップは、収束の観測、下落す
る平均的なクラスタ内分散、或は、クラスタ質量中心の
正確な製作に依存して、任意の結果として生じるクラス
タを識別することを含む。
【0015】前記コンピュータ・システムは、好ましく
は、大きな並列処理(MPP)コンピュータ・システム
であり、クラスタ分析に対する前記分析アルゴリズムが
前記コンピュータ・システムによって同時並列的に実行
され、クラスタ分析に対する前記分析アルゴリズムが前
記関係データベース管理システムによって実行されるS
QLステートメントと、アプリケーション・プログラム
によって実行されるプログラム的反復との組み合わせと
して好ましくは具現化される。
【0016】別の局面から見れば、本発明はデータマイ
ニング・アプリケーションを実行するコンピュータ具現
化システムに存し、該システムは、(a)自体に接続さ
れた1つ或はそれ以上のデータ記憶装置を有するコンピ
ュータ・システムと、(b)前記データ記憶装置に記憶
される関係データベースを管理するための、前記コンピ
ュータ・システムによって実行される関係データベース
管理システムと、(c)前記コンピュータ・システムに
よって実行されるクラスタ分析に対する分析アルゴリズ
ムであり、SQLステートメント及びプログラム的反復
を含んで、前記関係データベース管理システムから検索
されたデータにおいて1つ或はそれ以上のグループ分け
を見出し、それらグループ分けの内の同質のものをクラ
スタとして識別すると共に、前記関係データベースに常
駐するデータから分析論理データ・モデル内に少なくと
も1つの分析モデルを作り出すことから成るクラスタ分
析に対する分析アルゴリズムと、を含む。
【0017】また本発明は、データマイニング・アプリ
ケーションをコンピュータ・システムにおいて実行する
指示であり、実行された際に該システムに上述の方法を
実施させるような指示を含む1つ或はそれ以上の機械可
読記憶媒体を含む物品、コンピュータ・システムに上述
の方法を実行させるプログラム指示を含むコンピュータ
・プログラム、そして、コンピュータ・システムにおい
てデータマイニング・アプリケーションを実行するメモ
リ内に記憶されたデータ構造であり、実行された際に該
システムに上述の方法を実施させるような指示を含むデ
ータ構造に存する。
【0018】本発明は、それ故に、関係データベース管
理システム内においてデータマイニング・アプリケーシ
ョンの改善された実行を提供する。クラスタ分析に対す
る分析アルゴリズムはコンピュータによって実行され
る。クラスタ分析に対する分析アルゴリズムはSQLス
テートメント及びプログラム的反復を含んで、前記関係
データベース管理システムから検索されたデータにおい
てグループ分けを見出し、そして、それらグループ分け
の内の同質のものをクラスタとして識別する。クラスタ
分析に対する分析アルゴリズムはデータからの分析論理
データ・モデル内において少なくとも1つの分析モデル
を作り出す。
【0019】本発明は、関係データベースのデータマイ
ニング動作を支援する関係データベース管理システム
(RDBMS)を提供する。本質的には、データマイニ
ング・アプリケーションに対する上級分析処理能力はそ
れらが属する場所に配置され、即ち、データに近接して
配置される。更には、これら分析処理能力の結果はデー
タベース内に持続するように為され得るか或は該データ
ベースから引き出され得る。これら分析処理能力及びそ
れらの結果は、アプリケーション・プログラマブル・イ
ンターフェース(API)によってRDBMSへ外的に
露出される。
【0020】好適実施例に従って、データマイニング・
プロセスは「知識発見分析プロセス」(KDAP)と呼
称される反復的アプローチである。このKDAP内には
6つの主要タスクがある: 1.ビジネス・オブジェクトの理解; 2.有効なソース・データの理解; 3.データ・セットの選択及びデータの「予備処理」; 4.分析モデルの設計; 5.モデルの創生及びテスト; 6.分析モデルの展開。
【0021】本発明はこれらタスクに対処するための様
々な構成要素を提供する: ●関係データベースに対する構造化問い合わせ言語(S
QL)ステートメントを実行するRDBMS; ●複雑SQLステートメントから構成されたスケーラブ
ル・データマイニング機能を作り出す分析アプリケーシ
ョン・プログラミング・インターフェース(API); ●分析APIを例示してパラメータ化するアプリケーシ
ョン・プログラム; ●分析アルゴリズムであって、 ■拡張ANSI SQLステートメント、 ■SQLステートメント及びプログラム的反復から構成
されるコール・レベル・インターフェース(CLI)、
並びに、 ■SQLステートメント及びプログラム的反復から構成
されるデータ低減ユーティリティ・プログラム、を利用
する分析アルゴリズム; ●RDBMSでの上級分析処理からの結果及びそれにつ
いての情報を記憶する分析論理データ・モデル(LD
M); ●分析論理データ・モデルに記憶された分析アルゴリズ
ムの結果の並列実行を制御する並列展開器。
【0022】本発明の利益としては: ●関係データベース内での直接的な非常に大きなデータ
ベースのデータマイニング; ●分析結果の関係データベース内での管理; ●関係データベース管理システム内で動作する分析動作
の包括的なセット; ●オブジェクト指向APIを通じてのアプリケーション
統合。
【0023】これら構成要素及び利益は以下により詳細
に記載される。
【0024】以下、本発明の実施例が、全体を通じて同
様参照番号が対応するパーツを表している添付図面を参
照して説明される。
【0025】
【発明の実施の形態】ハードウェア環境 図1は、本発明の好適実施例で使用され得る模範的なコ
ンピュータ・ハードウェア環境を図示するブロック線図
である。この模範的なコンピュータ・ハードウェア環境
において、大きな並列処理(MPP)コンピュータ・シ
ステム100はネットワーク104によって相互接続さ
れた1つ或はそれ以上のノード102から構成されてい
る。各ノード102は1つ或はそれ以上のプロセッサ、
ランダムアクセスメモリ(RAM)、読み出し専用メモ
リ(ROM)、並びに、他の構成要素から構成されてい
る。想像されることは、これらノード102には、1つ
或はそれ以上の固定及び/或はリムーバブル・データ記
憶ユニット(DSU)106と、1つ或はそれ以上のデ
ータ通信ユニット(DCU)108とが取り付けられ得
ることである。
【0026】各ノード102は、データマイニング動作
を実行するデータマイニング・アプリケーション(AP
PL)110、そのデータマイニング動作に対する上級
分析処理能力を提供する上級分析処理コンポーネント
(AAPC)112、並びに/或は、データマイニング
・アプリケーションに使用される1つ或はそれ以上のD
SU106に保存される関係データベース116を管理
する関係データベース管理システム(RDBMS)11
4等々の1つ或はそれ以上のコンピュータ・プログラム
を実行し、1つ或はそれ以上のクライアント118から
のコマンドに応じて、様々な動作がAPPL110、A
APC112、並びに/或は、RDBMS114で実行
される。代替実施例においてAPPL110は、クライ
アント118の内の1つ或はそれ以上、或は、ネットワ
ーク104に取り付けられた異なるプラットフォーム上
のアプリケーション・サーバ上で実行され得る。
【0027】一般に、コンピュータ・プログラムは、D
CU108の内の1つ或はそれ以上を介してコンピュー
タ・システム100と結合された、RAM、ROM、D
SU106の内の1つ或はそれ以上、並びに/或は、遠
隔装置に実際には実施されるか、或は、それらから検索
されるかの何れかか若しくはその双方である。コンピュ
ータ・プログラムは、ノード102によって読取られて
実行される際、該ノード102が本発明の諸ステップ或
は構成要素を実行するために必要な諸ステップを実行さ
せる指示を含む。
【0028】当業者であればご理解して頂けるように、
図1に図示された模範的環境は本発明を制限することが
意図されていない。事実上、当業者であればご理解して
頂けるように、他の代替ハードウェアが本発明の範囲か
ら逸脱すること無しに使用され得る。加えて、理解して
頂きたいことは、本発明はここで開示されたもの以外の
コンピュータ・プログラムに適用され得ることである。
【0029】論議アーキテクチャ 図2は、本発明の好適実施例に従った、AAPC112
の模範的論理アーキテクチャと、APPL110、RD
BMS114、関係データベース116、並びに、クラ
イアント118とのその相互作用とを図示しているブロ
ック線図である。好適実施例におけるAAPC112は
以下の構成要素を含む: ●RDBMS114における上級分析処理からの結果を
記憶する分析論理データ・モデル(LDM)200; ●RDBMS114における上級分析処理を実行する複
雑な最適化SQLステートメントを含む1つ或はそれ以
上のスケーラブル・データマイニング機能202; ●スケーラブル・データマイニング機能202を呼び出
すAPPL110或は他の構成要素に対する機構を提供
する分析アプリケーション・プログラミング・インター
フェース(API)204; ●スタンドアローン・アプリケーションとして動作でき
るか、或は、別の構成要素によって呼び出され得る1つ
或はそれ以上の分析アルゴリズム206であり、 ■分析アルゴリズム206の特定の部類を具現化すべく
使用可能な拡張ANSI SQL208、 ■SQL及びプログラム的反復(プログラムに基づく反
復)の組み合わせが分析アルゴリズム206の特定の部
類を具現化すべく必要とされた際に使用可能なコール・
レベル・インターフェース(CLI)210、並びに、 ■プログラム的反復で追従される、データが先ずSQL
を用いて低減される、分析アルゴリズム206の特定の
部類を具現化すべく使用可能なデータ低減ユーティリテ
ィ・プログラム212、を含む分析アルゴリズム20
6; ●分析アルゴリズム206を呼び出すAPPL110或
は他の構成要素に対する機構を提供する分析アルゴリズ
ム・アプリケーション・プログラミング・インターフェ
ース(API)214; ●分析LDM200に記憶された分析アルゴリズム20
6の結果(しばしば、分析モデルと呼称される)の並列
実行を制御する並列展開器(Deployer)216
であり、当該並列展開器216を実行した結果はRDB
MS114内に記憶されることから成る並列展開器21
6。
【0030】留意すべきことは、これら様々な構成要素
の使用は任意であり、よってこれら構成要素の内の幾つ
かだけが任意の特定形態で使用され得る。
【0031】好適実施例は多重階層論理アーキテクチャ
に向けられており、そこでは、クライアント118が以
上に記載された様々な構成要素と相互作用し、次いでそ
れら構成要素がRDBMS114とインターフェース接
続して、分析処理用に関係データベース116に記憶さ
れた企業体データの大きな中央収納庫を利用する。
【0032】一例において、クライアント118はAP
PL110と相互作用し、該APPL110が分析AP
I204とインターフェース接続して、スケーラブル・
データマイニング機能202の内の1つ或はそれ以上を
呼び出し、それらがRDBMS114によって実行され
る。スケーラブル・データマイニング機能202の実行
からの結果はRDBMS114内の分析LDM200内
における分析モデルとして記憶され得ることになる。
【0033】別の例において、クライアント118は直
接的か或は分析アルゴリズムAPI214を介して1つ
或はそれ以上の分析アルゴリズム206と相互作用す
る。分析アルゴリズム206は、プログラム的反復を含
み得るか或は含み得ないSQLステートメントを含み、
該SQLステートメントはRDBMS114によって実
行される。加えて、分析アルゴリズム206は分析AP
I204とインターフェース接続し得るか或はし得な
く、スケーラブル・データマイニング機能202の内の
1つ或はそれ以上を呼び出し、それらがRDBMS11
4によって実行される。それにもかかわらず、分析アル
ゴリズム206を実行した結果はRDBMS114内の
分析LDM200内における分析モデルとして記憶され
ることになる。
【0034】更に別の例において、クライアント118
は並列展開器216と相互作用し、該並列展開器が、し
ばしば分析モデルと呼称される、分析アルゴリズム20
6の結果の内の並列例を呼び出す。この分析モデルは分
析LDM200内に分析アルゴリズム206の一例を実
行した結果として記憶される。並列展開器216を実行
した結果はRDBMS114内に記憶される。
【0035】更にまた別の例において、クライアント1
18はAPPL110と相互作用し、該APPLが直接
的に或は分析アルゴリズムAPI214を介して1つ或
はそれ以上の分析アルゴリズム206を呼び出す。その
結果はRDBMS114における分析LDM200内に
分析モデルとして記憶されることになる。
【0036】総体的な目標は、様々な構成要素において
計算及び/或はI/O集中的操作を実行することによっ
て、データマイニング動作の性能、効率、並びに、スケ
ーラビリィティを著しく改善することである。好適実施
例はこれをMPPコンピュータ・システム100によっ
て提供された並列処理を通じてばかりではなく、APP
L110、AAPC112、RDBMS114、クライ
アント188、並びに、他の構成要素の間を流れるデー
タ量を低減することによっても達成する。
【0037】当業者であればご理解して頂けるように、
図2に関連されて図示され且つ議論された模範的な構成
は本発明を制限するものではない。事実上、当業者であ
ればご理解して頂けるように、他の代替構成が本発明の
範囲から逸脱すること無しに使用され得る。加えて、理
解して頂きたいことは、本発明がここで開示されたもの
以外の構成要素にも適用できることである。
【0038】スケーラブル・データマイニング機能 スケーラブル・データマイニング機能202は、好適実
施例では対応する分析API204をパラメータ化して
具体化することによって作成される複雑で最適化された
SQLステートメントを含む。スケーラブル・データマ
イニング機能202は、RDBMS114によって実行
された際、データを関係データベースから移動させる必
要性無しに、データマイニング・アプリケーションに対
する上級分析処理の多くを実行する。
【0039】スケーラブル・データマイニング機能20
2は以下の機能によって分類され得る: ●データ記述:統計技術を用いて有効なデータを理解し
且つ記述する能力。例えば、記述的統計学、周波数、並
びに/或は、ヒストグラム・ビンの生成。 ●データ誘導:分析モデルを設計する際に現行詳細デー
タに基づき新しい変数(変換)を生成する能力。例え
ば、ビットマップ、レンジ、コード、並びに、数学的関
数等の予想変数の生成。 ●データ低減:分析モデルを設計する際に使用される変
数(列)或は観察(行)の数を低減する能力。例えば、
共分散、相関関係、或は、平方及び外積の合算の生成。 ●データ再組織化:予備処理された結果を合体させるか
或は非正規化して広範な分析データ・セットに為す。 ●データのサンプリング/区分:異なるデータ・サンプ
ル或はデータ区分を知的に要求する能力。例えば、ハッ
シュ・データ区分或はデータ・サンプリング。
【0040】スケーラブル・データマイニング機能20
2の主要テーマはRDBMS112内での分析動作を促
進することであり、それでデータベース114内に記憶
されたデータ収集を処理し、またデータベース114内
に記憶された結果を作り出す。データマイニング動作は
反復的で且つ探求的となる傾向があるので、好適実施例
でのデータベース116は組合せられた記憶・作業スペ
ース環境を含む。そうすることで、データマイニング動
作のシーケンスはデータベース116内の複数テーブル
から成る何等かの収集で開始し、一連の中間作業テーブ
ルを生成し、そして最終的には結果的なテーブル或は展
望を作り出す諸ステップから成るセットとして見られ
る。
【0041】分析論理データ・モデル 関係データベース114及びRDBMS112と結び付
けられている分析LDM200は、上級分析処理用の論
理エンティティ及び属性定義を提供するものであり、即
ち、関係データベース114に対して直接的にRDBM
S112によって実行されるスケーラブル・データマイ
ニング機能202及び分析アルゴリズム206を提供す
る。これらの論理エンティティ及び属性定義は、関係デ
ータベース114に記憶されたデータの特性を定義する
メタデータを、RDBMSが上級分析処理をどのように
して実行するかを決定するメタデータと共に含む。分析
LDM200もこの上級分析処理からの処理結果を記憶
し、それはスケーラブル・データマイニング機能20
2、分析アルゴリズム206、並びに、並列展開器21
6に対する結果的なテーブルと誘導データの双方を含
む。分析LDM200は動的モデルであり、それは論理
エンティティ及び属性定義が上級分析処理のパラメータ
化に依存して変化すると共に、分析LDM200が上級
分析処理の結果で更新されるからである。
【0042】分析アルゴリズム 分析アルゴリズム206は、関係データベース116に
常駐するデータから分析LDM200を作成すべく統計
的方法及び「機械学習」的方法を提供する。完全にデー
タ駆動された分析アルゴリズム206は、拡張ANSI
SQL208内に唯一具現化され得る。SQL及びプ
ログラム的反復の組合せを必要とする分析アルゴリズム
206はCLI210を用いて具現化され得る。最後
に、殆ど完全なプログラム的反復を必要とする分析アル
ゴリズム206は、データ低減ユーティリティ・プログ
ラム212を用いて具現化され得るが、非SQLアルゴ
リズムが次いで処理できるデータ量を低減するデータ予
備処理を含む。
【0043】分析アルゴリズム206は、RDBMS1
14に対して直接的に上級分析動作を実行すべく技術的
構成要素を提供することによって、データマイニング動
作の性能及び効率を著しく改善している。加えて分析ア
ルゴリズム206は、MPPコンピュータ・システム1
00、RDBMS112、並びに、データベース114
内に存する並行処理に梃子入れする。
【0044】分析アルゴリズム206はデータ分析に前
例のない見解を提供して、関係データベース116内の
大量データに対する「機械学習」分析を訓練し適用す
る。先行する技術は失敗し、それらの順次的な設計がR
DBMS114環境において最適ではないためである。
分析アルゴリズム206はCLI210を介して及び/
或はデータ低減ユーティリティ・プログラム212によ
って拡張ANSI SQL208内で具現化されるた
め、それらはMPPコンピュータ・システム100上で
有効なスケーラビリティに梃子入れできる。加えて、完
全拡張ANSI sql208の使用を通じて分析する
データ駆動アプローチを採用することは、高度に教育さ
れた経済学者以外の人々が分析アルゴリズム206によ
って提供される上級分析技術に梃子入れすることを可能
とする。
【0045】クラスタ分析用分析アルゴリズム 多次元データをモデル化するタスクを実行する1つの分
析アルゴリズム206は「クラスタ分析」である。クラ
スタ分析はデータにおけるグループ分けを見出し、それ
らグループの内の同質なものをクラスタとして識別す
る。もしデータベース116が大きければ、クラスタ分
析は基準化できなければならず(スケーラブルでなけれ
ばならず)、それは実際的な時間限界内で完了され得
る。
【0046】先行技術においてクラスタ分析は、典型的
には、メモリ制限及び必要とされる実行時間によって、
大きなデータベース116と共に充分な作業を行わな
い。しばしば、大量の詳細データからクラスタを見出す
解決策は、大量のデータを取り扱う能力のなさのため
に、データ低減或はサンプリングによって対処されてき
た。しかしながらデータ低減或はサンプリングは情報の
潜在的な損失を生ずる。
【0047】他方、本発明はこの問題を並列RDBMS
114内でクラスタ分析を実行することによって解決す
る。好適実施例において、クラスタ分析は一連の拡張A
NSI SQL208ステートメント及び/或はAPP
L110から初期化されたステートメントのグループ分
けを含む一連のスクリプトを用いて実行される。本発明
のキーとなる特徴は、高濃度処理(即ち、データ濃度局
面)が拡張ANSISQL208を用いてRDBMS1
14内にで直に実行され得る一方で、低濃度処理が拡張
ANSI SQL208を動的に生成するAPPL11
0内で実行され得る。
【0048】好適実施例において、数多くのタイプのク
ラスタ分析の内の2つのみを記載する:即ち、(1)K
−meansモデル、及び、(2)ガウス混合モデルで
あり、それら双方は予想−最大化(EM)アルゴリズム
を介して具現化される。このEMアルゴリズムは統計学
的なモデル化に対する他のモデルより優れ、そして分類
及び連続属性を容易に許容する。勿論、当業者であれば
ご理解して頂けるように、他のタイプのクラスタ分析や
他のアルゴリズムが本発明の範囲から逸脱することなく
使用され得る。
【0049】並列RDBMS114内でクラスタ分析を
具現化するに当たって幾つかの長所があり、それは、 ●大量のデータをデータベース116から移動する必要
性を削減して、単に分析LDM200内でクラスタ分析
モデルを構築して、時間及び不便を節約する。 ●分析アルゴリズム206の能力と充分に適合し、それ
がデータベース116内に直接的に記述的統計及び変換
を提供する。 ●MPPコンピュータ・システム100内で固有の並列
処理能力を利用する。 ●分析LDM200内で構築されたクラスタ分析モデル
の記憶、分析、並びに、アプリケーションを促進補助す
る。
【0050】一般に、クラスタ分析はユーザからの入力
パラメータに基づいて実行される。好適実施例におい
て、ユーザはデータベース116、該データベース11
6内のテーブル、並びに、クラスタ用に分析されること
になる該テーブルからの属性から成るリストを特定し得
る。またユーザはクラスタ分析のタイプ(例えば、K−
means或はガウス混合)、そのデータ内で調査され
るべきクラスタの数、EM反復が下回って停止すること
になるログ尤度値における閾値差、並びに、ログ尤度値
における変化と独立した反復の最大数を識別し得る。こ
の実施例において、ログ尤度は所与のクラスタリング・
モデルがデータ・セットを生成する尤度、即ち、所与の
確率論的なモデルの仮定の下に適合するクラスタリング
・モデルの妥当性を記述する尤度を規定する。
【0051】出力はクラスタ平均の値、分散、並びに、
先行可能性(即ち、クラスタに割り当てられた行の相対
数)から成るテーブルを含む。クラスタ識別の成功の測
定は、クラスタ内分散の全てと行クラスタ確率上のログ
尤度合算との平均として提供される。
【0052】ユーザが所望されたクラスタ数(N)を選
択した後、初期化ステップがテーブルの各行を無作為に
N個のクラスタの内の1つと関連させる。これはサンプ
リング機能、(非無作為)行モジュラス機能、或は、何
等かの他の同様機能を用いて達成され得る。
【0053】その後、反復の特定された数が実行され
る。各反復は多数のステップを実行し、それには、予想
ステップ、最大化ステップ、並びに、評価ステップを含
む。これらステップは以下により詳細に記載される。
【0054】予想ステップは平均、分散、並びに、各ク
ラスタに割り当てられた全ての行の周波数を計算する。
共分散逆マトリックスはクラスタ分散を用いて構築さ
れ、全ての共分散はゼロであると仮定している。この単
純化は、マハラノビス(汎)距離(Mahalanob
is Distance)(MD)の特殊ケースである
標準化されたユークリッド距離に基づく最大化ステップ
における行距離計算を効果的にもたらす。クラスタ分析
の性能を非常に改善するものであり、それは必要とされ
る計算数が列数の平方よりも、列数の比例するからであ
る。
【0055】最大化ステップは、予想ステップから平均
及び分散に基づくマハラノビス距離を用いて各クラスタ
の平均までの各行の距離を計算する。K−meansモ
デルの下、最低のマハラノビス距離を用いて各行を最も
近接したクラスタ質量中心に関連させることによって行
がクラスタに再び割り当てられる。ガウス混合モデルの
下、距離の単位がガウス距離機能を介して標準正規分布
の標準偏差の単位へ変換された後、確率論的加重で行が
再びクラスタに割り当てられる。両モデルにおいて、中
間結果が表示され、テーブルを介して次の反復へ渡さ
れ、そこでこれら中間結果がクラスタ平均、分散、並び
に、平均的なクラスタ内分散を含む。特定された数の反
復が実行された後、このステップは最終結果を表示す
る。
【0056】評価ステップは結果的なクラスタを識別す
る。クラスタ識別の成功はアルゴリズムの収束に依存す
る。予想−最大化アプローチは各連続的な反復でのクラ
スタリング解決策の尤度を増大することを保証する。し
かしながらこのアルゴリズムは初期開始状態に対して鋭
敏であり得る。解決策の統計的品質は尤度パラメータを
用いることによって評価され得て、尤度がより高けれ
ば、解決策はより優れている。クラスタ品質を考慮する
別の基準はクラスタ内分散の下落平均である。
【0057】K−meansモデル及びガウス・モデル
を用いるテストは、それらが非常に類似したクラスタ質
量中心を生成することを示している。相違は、ガウス・
モデルがK−meansモデルよりもより少ない反復で
より高速に収束するように見えることである。他方、ガ
ウス・モデルはより多くの実行時間を必要とするように
見え、K−meansモデル及びガウス・モデルの全履
行時間はガウス・モデルと僅かな端で非常に類似するこ
とになり得る。最善のモデルはK−meansモデル及
びガウス・モデルの混成物であり得て、K−means
が早期の反復でより迅速に収束するように見える一方
で、ガウスが末期の反復でより良好であるためである。
【0058】代替実施例は多数の改善を含み得る。例え
ば、クラスタ内の分散が次元における定数セットの結果
としてゼロまで下落すると特殊考察が付与され得る。更
に、確率、責務、並びに、混合パラメータを水平方向に
計算することが可能であり、大規模に計算時間をスピー
ドアップする。
【0059】最後に、クラスタ分析は加重機能に対する
確率論的密度機能(PDF)を用いるべく一般化され得
る。例えば、指数関数的PDFを用いてマハラノビス距
離を指数関数的分布変数でデータに対する重みに変換す
べく最適化され得る。代替的PDFは良好なクラスタ分
析を作り出し得て、様々な種類のデータを生ずる。
【0060】好適実施例の論理 本発明の好適実施例の論理を図示しているフローチャー
トが図3、図4、並びに、図5に提供される。当業者で
あれば理解して頂けるように、この論理は例示的目的の
みのために提供されたものであり、異なる論理が同一結
果を達成すべく使用され得る。
【0061】図3で参照されるように、このフローチャ
ートは本発明の好適実施例に従ったスケーラブル・デー
タマイニング機能202の論理を図示している。
【0062】ブロック300はAPI204を介して作
り出される1つ或はそれ以上のスケーラブル・データマ
イニング機能202を表す。これは、例えば、所望機能
を提供するオブジェクトの例示を引き起こし得る。
【0063】ブロック302は、スケーラブル・データ
マイニング機能202の動作を制御するために特定パラ
メータがAPI204へ渡されること(パス)を表して
いる。
【0064】ブロック304は、もしスケーラブル・デ
ータマイニング機能202の動作にとって必要であれ
ば、アクセスされる分析LDM200におけるメタデー
タを表している。
【0065】ブロック306は、渡されたパラメータ及
び任意のメタデータに基づくデータマイニング問い合わ
せの形態でスケーラブル・データマイニング機能202
を生成するAPI204を表している。
【0066】ブロック308は実行のためにRDBMS
112へ渡されるスケーラブル・データマイニング機能
202を表している。
【0067】図4を参照すると、このフローチャートは
本発明の好適実施例に従った分析アルゴリズム206の
論理を図示している。
【0068】ブロック400は、直接的に或は分析アル
ゴリズムAPI214を介してかの何れかで、呼び出さ
れる分析アルゴリズム206を表している。
【0069】ブロック402は、分析アルゴリズム20
6へ渡される特定のパラメータを表しており、それらの
動作を制御する。1つ或はそれ以上のパラメータがクラ
スタ分析に対する分析アルゴリズム206用に提供さ
れ、それらにはクラスタに対して分析されるべき属性か
ら成るリスト、データ内で調査されるべきクラスタ数、
反復閾値、並びに、反復の最大数を含む。
【0070】ブロック404は、もし分析アルゴリズム
206の動作にとって必要であれば、アクセスされる分
析LDM200内のメタデータを表している。
【0071】ブロック406は実行のためにRDBMS
112へSQLステートメントを渡す分析アルゴリズム
206を表し、ブロック408がプログラム的反復を実
行する分析アルゴリズム206を任意に表している。当
業者には理解して頂けるように、これらのステップのシ
ーケンスは先に記載したものとは、該シーケンスが両ス
テップを含まない可能性があること、それが追加ステッ
プを含む可能性があること、そして、それがこれらステ
ップの反復を含む可能性があることで異なる可能性があ
る。
【0072】好適実施例においてクラスタ分析に対する
分析アルゴリズム206は、ブロック406でRDBM
S112へ渡される拡張ANSI SQL208ステー
トメントと、ブロック408で実行されるプログラム的
反復との双方を用いて実行される。クラスタ分析に対す
る分析アルゴリズム206が実行されている際、拡張A
NSI SQL208ステートメント及びプログラム的
反復は関係データベース116から検索されるデータに
おいてグループ分けを見出し、それらグループ分けの内
の同質のものをクラスタとして識別する。詳細には、こ
れらブロックは先ず無作為に特定化されたテーブルの各
行を1つ或はそれ以上のクラスタと関連させ、次いでそ
れらクラスタ上で特定化された数のプログラム的反復を
実行するものであり、各プログラム的反復は、予想ステ
ップ、最大化ステップ、並びに、評価ステップを含む拡
張ANSI SQL208ステートメントを動的に生成
する。
【0073】先に留意したように、予想ステップは平
均、分散、並びに、各クラスタに割り当てられた行に対
する周波数を計算する。最大化ステップは、予想ステッ
プからの平均及び分散を用いて各クラスタの平気までの
行距離を計算し、各行をその最も近接したクラスタ質量
中心に関連させることによって行がクラスタに再び割り
当てられる。最大化ステップにおいて、中間結果は表示
され得て、テーブルを介して次の反復へ渡されることに
なるが、これら中間結果はクラスタ平均、分散、並び
に、平均的なクラスタ内分散を含む。特定化された数の
反復実行の後、このステップは最終結果を表示する。最
後に評価ステップは、収束の観察に依存する任意の結果
として生ずるクラスタを識別する。
【0074】ブロック410は、分析LDM200に結
果を記憶する分析アルゴリズム206を表している。詳
細には、クラスタ分析に対する分析アルゴリズム206
用の出力は、クラスタ平均、分散、並びに、先行確率
(全てのクラスタ内分散の平均として提供されたクラス
タ識別の成功の測定)を含み得る。
【0075】図5で参照されるように、このフローチャ
ートは本発明の好適実施例に従ったRDBMS112に
よって実行される論理を図示している。
【0076】ブロック500は問い合わせ或は他のSQ
Lステートメントを受け取るRDBMS112を表して
いる。
【0077】ブロック502は問い合わせを分析するR
DBMS112を表している。
【0078】ブロック504は、問い合わせを満たすべ
く、RDBMS112が関係データベース114から正
しい情報を検索することを可能とするプランを生成する
RDBMS112を表している。
【0079】ブロック506は、コンパイルされるより
はインタープリタされ得るが、RDBMS112によっ
てのより効率的な実行のため、プランをオブジェクト・
コードにコンパイルするRDBMS112を表してい
る。
【0080】ブロック508はプランの実行を始動する
RDBMS112を表している。
【0081】ブロック510はプランの実行から結果を
生成するRDBMS112を表している。
【0082】ブロック512は、結果を分析LDM20
0内に記憶するか、或は、結果を分析アルゴリズム20
6及び/或はクライアント116へ戻すかの何れかを為
すRDBMS112を表している。
【0083】代替実施例において、メインフレーム、ミ
ニコンピュータ、或は、パーソナルコンピュータ等の任
意のタイプのコンピュータが本発明を具現化すべく使用
され得る。
【0084】要約すると、本発明は関係データベース管
理システムにおいてデータマイニング・アプリケーショ
ンを実行するための方法、装置、並びに、製造物を開示
している。クラスタ分析に対する分析アルゴリズムはコ
ンピュータによって実行される。クラスタ分析に対する
分析アルゴリズムは、SQLステートメント及びプログ
ラム的反復を含み、関係データベース管理システムから
検索されたデータにおけるグループ分けを見出し、それ
らグループ分けの内の同質のものをクラスタとして識別
する。クラスタ分析に対する分析アルゴリズムは、関係
データベースに常駐するデータから分析論理データ・モ
デル内に少なくとも1つの分析モデルを作り出す。
【図面の簡単な説明】
【図1】 本発明の好適実施例で使用され得る模範的な
コンピュータ・ハードウェア環境を図示するブロック線
図である。
【図2】 本発明の好適実施例で使用され得る模範的な
論理アーキテクチャを図示するブロック線図である。
【図3】 本発明の好適実施例に従って実行される模範
的な論理を図示するフローチャートである。
【図4】 本発明の好適実施例に従って実行される模範
的な論理を図示するフローチャートである。
【図5】 本発明の好適実施例に従って実行される模範
的な論理を図示するフローチャートである。
【符号の説明】
100 並列処理(MPP)コンピュータ・システム 102 ノード 104 ネットワーク 106 固定或はリムバーブル・データ記憶ユニット
(DSU) 108 データ通信ユニット(DCU) 110 データマイニング・アプリケーション(AP
PL) 112 上級分析処理構成要素(AAPC) 114 関係データベース管理システム(RDBM
S) 116 関係データベース 118 クライアント 200 分析論理データ・モデル(LDM) 202 スケーラブル・データマイニング機能 204 分析アプリケーション・プログラミング・イ
ンターフェース(API) 206 分析アルゴリズム 208 拡張ANSI SQL 210 コール・レベル・インターフェース(CL
I) 212 データ低減ユーティリティ・プログラム 214 分析アルゴリズム・アプリケーション・プロ
グラミング・インターフェース(API) 216 並列展開器
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ジェームズ ディーン ヒルドレス アメリカ合衆国 92028 カリフォルニア 州 フォールブルック チャンデル レー ン 1545 (72)発明者 スコット ウッドルーフェ キュニンハム アメリカ合衆国 92101 カリフォルニア 州 サンディエゴ ウエスト ハーバー ドライブ 500 Apt.134 Fターム(参考) 5B075 ND03 ND34 NR12 QT06

Claims (32)

    【特許請求の範囲】
  1. 【請求項1】 データマイニング・アプリケーションを
    実行する方法であって、 (a)コンピュータ・システムと接続された1つ或はそ
    れ以上のデータ記憶装置に記憶された関係データベース
    を管理することと、 (b)前記コンピュータ・システムにおいてクラスタ分
    析に対する分析アルゴリズムを実行し、クラスタ分析に
    対する前記分析アルゴリズムが、SQLステートメント
    及びプログラム的反復を含んで、関係データベース管理
    システムから検索されたデータにおいて1つ或はそれ以
    上のグループ分けを見出し、それらグループ分けの内の
    同質のものをクラスタとして識別しており、そして、関
    係データベース内に常駐するデータから分析論理データ
    ・モデル内に少なくとも1つの分析モデルを作り出すこ
    とと、を含む方法。
  2. 【請求項2】 クラスタ分析に対する前記分析アルゴリ
    ズムが、 クラスタに対して分析されるべき属性から成るリスト、 クラスタ分析のタイプ、 データ内で調査されるべきクラスタの数、 反復閾値、並びに、 反復の最大数、を含む群から選択された1つ或はそれ以
    上の入力パラメータに従って実行される、請求項1に記
    載の方法。
  3. 【請求項3】 クラスタ分析に対する前記分析アルゴリ
    ズムが、クラスタ平均、分散、並びに、先行確率を含む
    群から選択された1つ或はそれ以上の要素を含む出力を
    生成する、請求項1又は2に記載の方法。
  4. 【請求項4】 前記先行確率が、全てのクラスタ内分散
    の平均としてクラスタ識別の成功の測定を含む、請求項
    3に記載の方法。
  5. 【請求項5】 クラスタ分析に対する前記分析アルゴリ
    ズムが、 特定化されたテーブルの各行を1つ或はそれ以上のクラ
    スタと無作為に関連させることと、 クラスタに対して特定化された数の反復を実行し、各反
    復が予想ステップ、最大化ステップ、並びに、評価ステ
    ップを実行することと、を含む、請求項3に記載の方
    法。
  6. 【請求項6】 前記予想ステップが、 平均、分散、並びに、各クラスタに割り当てられた行に
    対する周波数を計算することと、 共分散逆マトリックスを前記計算された分散を用いて構
    築することと、を含む、請求項5に記載の方法。
  7. 【請求項7】 前記構築ステップが、共分散がゼロであ
    ることを仮定する、請求項6に記載の方法。
  8. 【請求項8】 前記共分散が標準化ユークリッド距離に
    基づく、請求項6に記載の方法。
  9. 【請求項9】 必要とされる計算の数が列数の平方より
    も列数に比例するので、前記標準化ユークリッド距離が
    前記クラスタ分析の実行を改善する、請求項8に記載の
    方法。
  10. 【請求項10】 前記標準化ユークリッド距離がマハラ
    ノビス距離(MD)を含む、請求項8に記載の方法。
  11. 【請求項11】 前記構築ステップが、前記マハラノビ
    ス距離を用いて、各クラスタまでの各行の距離を計算す
    ることを含む、請求項10に記載の方法。
  12. 【請求項12】 前記計算ステップが前記予想ステップ
    からの平均及び分散を用いる、請求項11に記載の方
    法。
  13. 【請求項13】 前記構築ステップが、K−means
    モデルの下、最低マハラノビス距離を用いて各行を最も
    近接するクラスタ質量中心に関連させることによってク
    ラスタに行を再度割り当てることを含む、請求項11に
    記載の方法。
  14. 【請求項14】 前記構築ステップが、ガウス混合モデ
    ルの下、距離の単位がガウス距離機能を介して標準正規
    分布の標準偏差の単位へ変換された後、確率論的加重で
    行を再びクラスタに割り当てることを含む、請求項11
    に記載の方法。
  15. 【請求項15】 前記構築ステップが、前記計算ステッ
    プ及び前記構築ステップからの中間結果を表示し、それ
    ら中間結果を次の反復に渡すことを含む、請求項6に記
    載の方法。
  16. 【請求項16】 前記中間結果が、クラスタ平均、分
    散、並びに、平均的なクラスタ内分散を含む、請求項1
    5に記載の方法。
  17. 【請求項17】 特定化された数の反復が実行された
    後、最終結果を表示することを更に含む、請求項6に記
    載の方法。
  18. 【請求項18】 前記評価ステップが任意の結果として
    生ずるクラスタを識別することを含む、請求項5に記載
    の方法。
  19. 【請求項19】 前記識別ステップが収束の観測に依存
    する、請求項18に記載の方法。
  20. 【請求項20】 前記識別ステップが下落する平均的な
    クラスタ内分散のパターンに依存する、請求項18に記
    載の方法。
  21. 【請求項21】 前記識別ステップがクラスタ質量中心
    の正確な製作に依存する、請求項18に記載の方法。
  22. 【請求項22】 前記コンピュータ・システムが大きな
    並列処理(MPP)コンピュータ・システムであり、ク
    ラスタ分析に対する前記分析アルゴリズムが前記コンピ
    ュータ・システムによって同時並列的に実行される、請
    求項1乃至21の何れか一項に記載の方法。
  23. 【請求項23】 クラスタ分析に対する前記分析アルゴ
    リズムが前記関係データベース管理システムによって実
    行されるSQLステートメントと、アプリケーション・
    プログラムによって実行されるプログラム的反復との組
    み合わせとして具現化される、請求項1乃至22の何れ
    か一項に記載の方法。
  24. 【請求項24】 請求項1乃至23の何れか一項に従っ
    て、データマイニング・アプリケーションを実行する方
    法を実施する論理を含む製造物。
  25. 【請求項25】 データマイニング・アプリケーション
    を実行するコンピュータ具現化システムであって、 (a)自体に接続された1つ或はそれ以上のデータ記憶
    装置を有するコンピュータ・システムと、 (b)前記データ記憶装置に記憶される関係データベー
    スを管理するための、前記コンピュータ・システムによ
    って実行される関係データベース管理システムと、 (c)前記コンピュータ・システムによって実行される
    クラスタ分析に対する分析アルゴリズムであり、SQL
    ステートメント及びプログラム的反復を含んで、前記関
    係データベース管理システムから検索されたデータにお
    いて1つ或はそれ以上のグループ分けを見出し、それら
    グループ分けの内の同質のものをクラスタとして識別す
    ると共に、前記関係データベースに常駐するデータから
    分析論理データ・モデル内に少なくとも1つの分析モデ
    ルを作り出すことから成るクラスタ分析に対する分析ア
    ルゴリズムと、を備えるシステム。
  26. 【請求項26】 クラスタ分析に対する前記分析アルゴ
    リズムがクラスタに対して分析されるべき属性から成る
    リスト、 クラスタ分析のタイプ、 データ内で調査されるべきクラスタの数、 反復閾値、並びに、 反復の最大数、を含む群から選択された1つ或はそれ以
    上の入力パラメータに従って実行される、請求項25に
    記載のシステム。
  27. 【請求項27】 クラスタ分析に対する前記分析アルゴ
    リズムが、クラスタ平均、分散、並びに、先行確率を含
    む群から選択された1つ或はそれ以上の要素を含む出力
    を生成する、請求項25又は26に記載のシステム。
  28. 【請求項28】 前記コンピュータ・システムが大きな
    並列処理(MPP)コンピュータ・システムであり、ク
    ラスタ分析に対する前記分析アルゴリズムが前記コンピ
    ュータ・システムによって同時並列的に実行される、請
    求項25乃至27の何れか一項に記載のコンピュータ具
    現化システム。
  29. 【請求項29】 クラスタ分析に対する前記分析アルゴ
    リズムが前記関係データベース管理システムによって実
    行されるSQLステートメントと、アプリケーション・
    プログラムによって実行されるプログラム的反復との組
    み合わせとして具現化される、請求項25乃至28の何
    れか一項に記載のコンピュータ具現化システム。
  30. 【請求項30】 データマイニング・アプリケーション
    をコンピュータ・システムにおいて実行する指示であ
    り、実行された際に該システムに請求項1乃至23の何
    れか一項に記載の方法を実施させるような指示を含む1
    つ或はそれ以上の機械可読記憶媒体を含む物品。
  31. 【請求項31】 コンピュータ・システムに請求項1乃
    至23の何れか一項に記載の方法を実行させるプログラ
    ム指示を含むコンピュータ・プログラム。
  32. 【請求項32】 コンピュータ・システムにおいてデー
    タマイニング・アプリケーションを実行するメモリ内に
    記憶されたデータ構造であり、実行された際に該システ
    ムに請求項1乃至23の何れか一項に記載の方法を実施
    させるような指示を含むデータ構造。
JP2001207061A 2000-06-12 2001-06-05 Sqlベースの分析的アルゴリズムに基づくデータ検索方法及び装置 Pending JP2002092009A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/592,024 US6816848B1 (en) 2000-06-12 2000-06-12 SQL-based analytic algorithm for cluster analysis
US09/592024 2000-06-12

Publications (1)

Publication Number Publication Date
JP2002092009A true JP2002092009A (ja) 2002-03-29

Family

ID=24368953

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001207061A Pending JP2002092009A (ja) 2000-06-12 2001-06-05 Sqlベースの分析的アルゴリズムに基づくデータ検索方法及び装置

Country Status (3)

Country Link
US (1) US6816848B1 (ja)
EP (1) EP1172740A3 (ja)
JP (1) JP2002092009A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020063149A (ko) * 2002-06-25 2002-08-01 이용규 컴퓨터 알고리즘을 이용한 유휴설비를 자동화 설비로재생하는 공정
US7633924B2 (en) 2002-11-20 2009-12-15 Ntt Docomo, Inc. Communications system, communications method, transmitting apparatus, receiving apparatus and control program to variably adjust a symbol length
JP2016511397A (ja) * 2013-01-31 2016-04-14 ユニベルシテ ドゥ モンペリエ 希少事象を同定する方法

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6947878B2 (en) * 2000-12-18 2005-09-20 Ncr Corporation Analysis of retail transactions using gaussian mixture models in a data mining system
US6970882B2 (en) * 2002-04-04 2005-11-29 International Business Machines Corporation Unified relational database model for data mining selected model scoring results, model training results where selection is based on metadata included in mining model control table
US7359913B1 (en) 2005-05-13 2008-04-15 Ncr Corp. K-means clustering using structured query language (SQL) statements and sufficient statistics
US7565335B2 (en) * 2006-03-15 2009-07-21 Microsoft Corporation Transform for outlier detection in extract, transfer, load environment
US9740735B2 (en) * 2007-11-07 2017-08-22 Microsoft Technology Licensing, Llc Programming language extensions in structured queries
US8219583B2 (en) * 2008-11-10 2012-07-10 Nbcuniversal Media, Llc Methods and systems for mining websites
US20100169158A1 (en) * 2008-12-30 2010-07-01 Yahoo! Inc. Squashed matrix factorization for modeling incomplete dyadic data
TWI501168B (zh) * 2010-07-06 2015-09-21 Univ Nat Cheng Kung 演算法本質平行度之量化及分析方法
US10824986B2 (en) * 2010-12-23 2020-11-03 Bladelogic, Inc. Auto-suggesting IT asset groups using clustering techniques
US9223903B2 (en) 2012-04-19 2015-12-29 International Business Machines Corporation Analyzing data from a sensor-enabled device
CN102768675B (zh) * 2012-06-13 2014-11-12 天津大学 一种并行天文交叉证认方法
US9336302B1 (en) 2012-07-20 2016-05-10 Zuci Realty Llc Insight and algorithmic clustering for automated synthesis
US9424337B2 (en) 2013-07-09 2016-08-23 Sas Institute Inc. Number of clusters estimation
US9202178B2 (en) 2014-03-11 2015-12-01 Sas Institute Inc. Computerized cluster analysis framework for decorrelated cluster identification in datasets
CN104239555B (zh) * 2014-09-25 2017-07-11 天津神舟通用数据技术有限公司 基于mpp的并行数据挖掘系统及其实现方法
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US20200089795A1 (en) * 2018-09-17 2020-03-19 Hewlett-Packard Development Company, L.P. Dataset orchestration with metadata variance data
US11481379B2 (en) 2018-11-01 2022-10-25 Hewlett-Packard Development Company, L.P. Metadata variance analytics
US10540334B1 (en) 2019-07-22 2020-01-21 Capital One Services, Llc Code generator platform for data transformation
US11409642B2 (en) * 2020-01-13 2022-08-09 Fujitsu Limited Automatic parameter value resolution for API evaluation
CN113656395B (zh) * 2021-10-15 2022-03-15 深圳市信润富联数字科技有限公司 数据质量治理方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5734887A (en) * 1995-09-29 1998-03-31 International Business Machines Corporation Method and apparatus for logical data access to a physical relational database
WO1999062007A1 (en) * 1998-05-22 1999-12-02 Microsoft Corporation A scalable system for clustering of large databases having mixed data attributes
US6012058A (en) * 1998-03-17 2000-01-04 Microsoft Corporation Scalable system for K-means clustering of large databases
JP2000040079A (ja) * 1998-07-24 2000-02-08 Fujitsu Ltd 並列データ分析装置
WO2000020999A1 (en) * 1998-10-02 2000-04-13 Ncr Corporation Techniques for deploying analytic models in parallel

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5701400A (en) 1995-03-08 1997-12-23 Amado; Carlos Armando Method and apparatus for applying if-then-else rules to data sets in a relational data base and generating from the results of application of said rules a database of diagnostics linked to said data sets to aid executive analysis of financial data
US6078925A (en) 1995-05-01 2000-06-20 International Business Machines Corporation Computer program product for database relational extenders
US5857179A (en) * 1996-09-09 1999-01-05 Digital Equipment Corporation Computer method and apparatus for clustering documents and automatic generation of cluster keywords
US5787425A (en) 1996-10-01 1998-07-28 International Business Machines Corporation Object-oriented data mining framework mechanism
US5933818A (en) * 1997-06-02 1999-08-03 Electronic Data Systems Corporation Autonomous knowledge discovery system and method
US6581058B1 (en) * 1998-05-22 2003-06-17 Microsoft Corporation Scalable system for clustering of large databases having mixed data attributes
US6263334B1 (en) * 1998-11-11 2001-07-17 Microsoft Corporation Density-based indexing method for efficient execution of high dimensional nearest-neighbor queries on large databases
US6549907B1 (en) * 1999-04-22 2003-04-15 Microsoft Corporation Multi-dimensional database and data cube compression for aggregate query support on numeric dimensions
US6633882B1 (en) * 2000-06-29 2003-10-14 Microsoft Corporation Multi-dimensional database record compression utilizing optimized cluster models
US6496834B1 (en) * 2000-12-22 2002-12-17 Ncr Corporation Method for performing clustering in very large databases
US6519591B1 (en) * 2000-12-22 2003-02-11 Ncr Corporation Vertical implementation of expectation-maximization algorithm in SQL for performing clustering in very large databases
US6615205B1 (en) * 2000-12-22 2003-09-02 Paul M. Cereghini Horizontal implementation of expectation-maximization algorithm in SQL for performing clustering in very large databases

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5734887A (en) * 1995-09-29 1998-03-31 International Business Machines Corporation Method and apparatus for logical data access to a physical relational database
US6012058A (en) * 1998-03-17 2000-01-04 Microsoft Corporation Scalable system for K-means clustering of large databases
WO1999062007A1 (en) * 1998-05-22 1999-12-02 Microsoft Corporation A scalable system for clustering of large databases having mixed data attributes
JP2000040079A (ja) * 1998-07-24 2000-02-08 Fujitsu Ltd 並列データ分析装置
WO2000020999A1 (en) * 1998-10-02 2000-04-13 Ncr Corporation Techniques for deploying analytic models in parallel
WO2000020982A1 (en) * 1998-10-02 2000-04-13 Ncr Corporation Sql-based analytic algorithms

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020063149A (ko) * 2002-06-25 2002-08-01 이용규 컴퓨터 알고리즘을 이용한 유휴설비를 자동화 설비로재생하는 공정
US7633924B2 (en) 2002-11-20 2009-12-15 Ntt Docomo, Inc. Communications system, communications method, transmitting apparatus, receiving apparatus and control program to variably adjust a symbol length
JP2016511397A (ja) * 2013-01-31 2016-04-14 ユニベルシテ ドゥ モンペリエ 希少事象を同定する方法

Also Published As

Publication number Publication date
EP1172740A2 (en) 2002-01-16
EP1172740A3 (en) 2005-05-11
US6816848B1 (en) 2004-11-09

Similar Documents

Publication Publication Date Title
US6611829B1 (en) SQL-based analytic algorithm for association
JP2002092009A (ja) Sqlベースの分析的アルゴリズムに基づくデータ検索方法及び装置
US6718322B1 (en) SQL-based analytic algorithm for rule induction
US6826556B1 (en) Techniques for deploying analytic models in a parallel
US6496834B1 (en) Method for performing clustering in very large databases
US7739297B2 (en) Computerized method, system and program product for generating a data mining model
US6263327B1 (en) Finding collective baskets and inference rules for internet mining
US6212526B1 (en) Method for apparatus for efficient mining of classification models from databases
US6032146A (en) Dimension reduction for data mining application
US6134555A (en) Dimension reduction using association rules for data mining application
WO2002073468A1 (en) Automatic data explorer that determines relationships among original and derived fields
US6615205B1 (en) Horizontal implementation of expectation-maximization algorithm in SQL for performing clustering in very large databases
US20110161280A1 (en) System, method, and computer-readable medium that facilitate in-database analytics with supervised data discretization
US6704717B1 (en) Analytic algorithm for enhanced back-propagation neural network processing
US7162464B1 (en) Data mining assists in a relational database management system
US6519591B1 (en) Vertical implementation of expectation-maximization algorithm in SQL for performing clustering in very large databases
US6687695B1 (en) SQL-based analytic algorithms
US6772166B1 (en) SQL-based analytic algorithm for clustering
Singh et al. Knowledge based retrieval scheme from big data for aviation industry
Mishra et al. Association Rule Mining with Apriori and Fpgrowth Using Weka
Wójcik et al. Data mining industrial applications
Chugh et al. Various Techniques to Improve the Efficiency of Apriori Algorithm: A Review
Pach et al. Fuzzy association rule mining for the analysis of historical process data
Barlos et al. A join ordering approach for multicomputer relational databases with highly skewed data
Chinnatekur PREPARE DATASETS FOR DATA MINING ANALYSIS BY USING HORTIZONTAL AGGREGATION IN SQL

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20080303

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080515

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100927

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100929

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110104

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110218