JP2002092009A

JP2002092009A - Ｓｑｌベースの分析的アルゴリズムに基づくデータ検索方法及び装置

Info

Publication number: JP2002092009A
Application number: JP2001207061A
Authority: JP
Inventors: James Dean Hildreth; ディーンヒルドレスジェームズ; Scott W Cunningham; ウッドルーフェキュニンハムスコット
Original assignee: NCR International Inc
Current assignee: NCR International Inc
Priority date: 2000-06-12
Filing date: 2001-06-05
Publication date: 2002-03-29
Also published as: EP1172740A2; EP1172740A3; US6816848B1

Abstract

(57)【要約】【課題】関係データベース管理システムにおいてデー
タマイニング・アプリケーションを実行する方法、装
置、並びに、製造物が開示されている。【解決手段】クラスタ分析に対する分析アルゴリズム
はコンピュータによって実行される。クラスタ分析に対
する分析アルゴリズムはＳＱＬステートメント及びプロ
グラム的反復を含んで、関係データベース管理システム
から検索されたデータにおいて１つ或はそれ以上のグル
ープ分けを見出し、それらグループ分けの内の同質のも
のをクラスタとして識別する。クラスタ分析に対する分
析アルゴリズムは関係データベース内に常駐するデータ
から分析論理データ・モデル内に少なくとも１つの分析
モデルを作り出す。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、一般的には、関係
データベース管理システムに関し、そして特に関係デー
タベース内に常駐するデータから分析モデルを作成する
クラスタ分析に対するＳＱＬベースの分析アルゴリズム
に関する。

【０００２】関係データベースはコンピュータ・システ
ムで使用されるデータベース管理システムの支配的な形
態である。関係データベース管理システムは、莫大な量
のデータが記憶され処理される所謂「データ・ウェハー
ス」・アプリケーションでしばしば使用される。近年、
幾つかのトレンドがデータマイニング・アプリケーショ
ンとして知られるデータ・ウェハージング・アプリケー
ションの新しい部類を作り出すべく収束されてきてい
る。データマイニングはデータベース内のパターンを識
別し解釈すると共に、３つのステージに一般化され得
る。

【０００３】ステージ１は報告ステージであり、データ
を分析して何が起こったかを決定する。一般に、殆どの
データ・ウェハース具現化はビジネスの特定機能領域内
に焦点が合わされたアプリケーションで始まる。これら
アプリケーションは、通常、以前にはアクセスが難しい
か或は不可能であったビジネス情報の履歴的なスナップ
ショット報告に焦点を合わせる。例として、ほんの少数
を挙げれば、販売収益報告、生産報告、並びに、在庫報
告がある。

【０００４】ステージ２は分析ステージであり、データ
を分析してそれがなぜ起こったかを決定する。ステージ
１のエンドユーザは彼等のビジネスの以前には未知の展
望を獲得すると、彼等は例えば販売収益の下落等の特定
の出来事がなぜ生じたのかを理解するために直ちに捜し
求める。販売に関して報告された下落を発見した後、デ
ータ・ウェハースのユーザは、「なぜ販売が下落したか
？」を明らかに問う。この質問に対する回答を学ぶこと
は、典型的には、条件の根本原因が発見されるまでその
場限りの問い合わせ或は多次元的な問い合わせの反復的
連続を通じてデータベースを精査することを含む。例と
しては販売分析、在庫分析、或は、生産分析を含む。

【０００５】ステージ３は予想ステージであり、何が起
こるかを決定するように試みる。ステージ２のユーザが
より洗練されると、彼等は彼等の分析を未知の出来事の
予想を含むように拡張し始める。例えば、「どのエンド
ユーザが特定の製品を購買する可能性があるか」、或
は、「誰が競争のために立ち去る危険にさらされている
か？」である。人間にとってデータ内の希薄な関係を理
解或は解釈することは難しく、データ・ウェハースのユ
ーザは洗練された予想分析まで進化するので、彼等は従
来の問い合わせ及び報告ツールの限界に直ぐに到達す
る。データマイニングはエンドユーザを補助し、分析負
荷の内の幾らかを人から機械へシフトすべく知能ソフト
ウェアに梃子入れすることによってこれら限界を打ち破
らせて、以前には未知であった関係の発見を可能とす
る。

【０００６】単一アルゴリズム解決策から完全ツール組
まで、数多くのデータマイニング・テクノロジーが利用
可能である。しかしながら、これらのテクロノジーの殆
どが少しのデータが取り込まれて維持されるデスクトッ
プ環境内で使用される。それ故に、データマイニング・
ツールは、様々なソースから私有のデータ構造或は平べ
ったいファイル内へ集められた小さなデータ・サンプル
を分析すべく使用される。他方、組織化は非常に大きな
データベースをため込むように始まっており、エンドユ
ーザはこれら大きなデータベースとアクセスを要求する
より複雑な質問を求めている。

【０００７】残念ながら、殆どのデータマイニング・テ
クロノジーは大量のデータと共に用いることができな
い。更にデータマイニングで使用される殆ど分析技術は
データ駆動式と言うよりもアルゴリズム・ベースであ
り、そうしたことで、データマイニングとデータ・ウェ
ハースとの間で現在殆ど相乗作用がない。更には、使用
可能性の見込みから、従来のデータマイニング技術はデ
ータベース管理者及びアプリケーション・プログラマー
による使用には余りにも複雑であり、異なる産業用或は
異なる顧客用に変更するには余りにも難しい。

【０００８】

【発明が解決しようとする課題】こうして、当業界にお
いて、データ・ウェハースに対して直接動作し、そして
非統計学者が関係環境において有効である上級の数学技
術から利益を得ることを可能とするデータマイニング・
アプリケーションの要望がある。

【０００９】本発明の目的は、関係データベース管理シ
ステムに改善されたデータマイニング・ツール・セット
を提供すると共に、並列プロセッサ・コンピュータ・シ
ステムのより効率的な使用を提供することである。

【００１０】

【課題を解決するための手段】第１局面から見れば、本
発明はデータマイニング・アプリケーションを実行する
方法に存しており、該方法は、（ａ）コンピュータ・シ
ステムと接続された１つ或はそれ以上のデータ記憶装置
に記憶された関係データベースを管理することと、
（ｂ）前記コンピュータ・システムにおいてクラスタ分
析に対する分析アルゴリズムを実行し、クラスタ分析に
対する前記分析アルゴリズムが、ＳＱＬステートメント
及びプログラム的反復（プログラムに基づく反復）を含
んで、関係データベース管理システムから検索されたデ
ータにおいて１つ或はそれ以上のグループ分けを見出
し、それらグループ分けの内の同質のものをクラスタと
して識別しており、そして、関係データベース内に常駐
するデータから分析論理データ・モデル内に少なくとも
１つの分析モデルを作り出すことと、を含む。

【００１１】クラスタ分析に対する分析アルゴリズム
は、好ましくは、クラスタに対して分析されるべき属性
から成るリスト、クラスタ分析のタイプ、データ内で調
査されるべきクラスタの数、反復閾値、並びに、反復の
最大数、を含む群から選択された１つ或はそれ以上の入
力パラメータに従って実行される。クラスタ分析に対す
る分析アルゴリズムは、好ましくは、クラスタ平均、分
散、並びに、先行確率を含む群から選択された１つ或は
それ以上の要素を含む出力を生成する。前記先行確率
が、全てのクラスタ内分散の平均としてクラスタ識別の
成功の測定を含む。

【００１２】クラスタ分析に対する分析アルゴリズム
は、好ましくは、特定化されたテーブルの各行を１つ或
はそれ以上のクラスタと無作為に関連させることと、ク
ラスタに対して特定化された数の反復を実行し、各反復
が予想ステップ、最大化ステップ、並びに、評価ステッ
プを実行することと、を含む。前記予想ステップが、平
均、分散、並びに、各クラスタに割り当てられた行に対
する周波数を計算することと、共分散逆マトリックスを
前記計算された分散を用いて、好ましくは該共分散がゼ
ロであると仮定して、構築することと、を含む。前記共
分散は、クラスタ分析の実行を改善する標準化ユークリ
ッド距離に基づき、それは、必要とされる計算の数が列
数の平方よりも列数に比例するからである。前記標準化
ユークリッド距離は、好ましくは、マハラノビス距離
（ＭＤ）を含み、前記構築ステップは、前記マハラノビ
ス距離を用いて、各クラスタまでの各行の距離を計算す
ることを含む。前記計算ステップは前記予想ステップか
らの平均及び分散を用いる。Ｋ−ｍｅａｎｓモデルは前
記構築ステップで用いることができ、最低マハラノビス
距離を用いて各行を最も近接するクラスタ質量中心に関
連させることによってクラスタに行を再度割り当てる。
代替的には、ガウス混合モデルを用いることができ、距
離の単位がガウス距離機能によって標準正規分布の標準
偏差の単位へ変換された後、確率論的加重で行を再びク
ラスタに割り当てる。前記計算ステップ及び前記構築ス
テップからの中間結果が前記構築ステップで表示され得
て、次の反復へ渡される。これら中間結果は、クラスタ
平均、分散、並びに、平均的なクラスタ内分散を含む。

【００１３】クラスタ分析に対する分析アルゴリズムに
よって特定化された数の反復が実行された後、最終結果
が表示される。

【００１４】前記評価ステップは、収束の観測、下落す
る平均的なクラスタ内分散、或は、クラスタ質量中心の
正確な製作に依存して、任意の結果として生じるクラス
タを識別することを含む。

【００１５】前記コンピュータ・システムは、好ましく
は、大きな並列処理（ＭＰＰ）コンピュータ・システム
であり、クラスタ分析に対する前記分析アルゴリズムが
前記コンピュータ・システムによって同時並列的に実行
され、クラスタ分析に対する前記分析アルゴリズムが前
記関係データベース管理システムによって実行されるＳ
ＱＬステートメントと、アプリケーション・プログラム
によって実行されるプログラム的反復との組み合わせと
して好ましくは具現化される。

【００１６】別の局面から見れば、本発明はデータマイ
ニング・アプリケーションを実行するコンピュータ具現
化システムに存し、該システムは、（ａ）自体に接続さ
れた１つ或はそれ以上のデータ記憶装置を有するコンピ
ュータ・システムと、（ｂ）前記データ記憶装置に記憶
される関係データベースを管理するための、前記コンピ
ュータ・システムによって実行される関係データベース
管理システムと、（ｃ）前記コンピュータ・システムに
よって実行されるクラスタ分析に対する分析アルゴリズ
ムであり、ＳＱＬステートメント及びプログラム的反復
を含んで、前記関係データベース管理システムから検索
されたデータにおいて１つ或はそれ以上のグループ分け
を見出し、それらグループ分けの内の同質のものをクラ
スタとして識別すると共に、前記関係データベースに常
駐するデータから分析論理データ・モデル内に少なくと
も１つの分析モデルを作り出すことから成るクラスタ分
析に対する分析アルゴリズムと、を含む。

【００１７】また本発明は、データマイニング・アプリ
ケーションをコンピュータ・システムにおいて実行する
指示であり、実行された際に該システムに上述の方法を
実施させるような指示を含む１つ或はそれ以上の機械可
読記憶媒体を含む物品、コンピュータ・システムに上述
の方法を実行させるプログラム指示を含むコンピュータ
・プログラム、そして、コンピュータ・システムにおい
てデータマイニング・アプリケーションを実行するメモ
リ内に記憶されたデータ構造であり、実行された際に該
システムに上述の方法を実施させるような指示を含むデ
ータ構造に存する。

【００１８】本発明は、それ故に、関係データベース管
理システム内においてデータマイニング・アプリケーシ
ョンの改善された実行を提供する。クラスタ分析に対す
る分析アルゴリズムはコンピュータによって実行され
る。クラスタ分析に対する分析アルゴリズムはＳＱＬス
テートメント及びプログラム的反復を含んで、前記関係
データベース管理システムから検索されたデータにおい
てグループ分けを見出し、そして、それらグループ分け
の内の同質のものをクラスタとして識別する。クラスタ
分析に対する分析アルゴリズムはデータからの分析論理
データ・モデル内において少なくとも１つの分析モデル
を作り出す。

【００１９】本発明は、関係データベースのデータマイ
ニング動作を支援する関係データベース管理システム
（ＲＤＢＭＳ）を提供する。本質的には、データマイニ
ング・アプリケーションに対する上級分析処理能力はそ
れらが属する場所に配置され、即ち、データに近接して
配置される。更には、これら分析処理能力の結果はデー
タベース内に持続するように為され得るか或は該データ
ベースから引き出され得る。これら分析処理能力及びそ
れらの結果は、アプリケーション・プログラマブル・イ
ンターフェース（ＡＰＩ）によってＲＤＢＭＳへ外的に
露出される。

【００２０】好適実施例に従って、データマイニング・
プロセスは「知識発見分析プロセス」（ＫＤＡＰ）と呼
称される反復的アプローチである。このＫＤＡＰ内には
６つの主要タスクがある：１．ビジネス・オブジェクトの理解；２．有効なソース・データの理解；３．データ・セットの選択及びデータの「予備処理」；４．分析モデルの設計；５．モデルの創生及びテスト；６．分析モデルの展開。

【００２１】本発明はこれらタスクに対処するための様
々な構成要素を提供する： ●関係データベースに対する構造化問い合わせ言語（Ｓ
ＱＬ）ステートメントを実行するＲＤＢＭＳ； ●複雑ＳＱＬステートメントから構成されたスケーラブ
ル・データマイニング機能を作り出す分析アプリケーシ
ョン・プログラミング・インターフェース（ＡＰＩ）； ●分析ＡＰＩを例示してパラメータ化するアプリケーシ
ョン・プログラム； ●分析アルゴリズムであって、 ■拡張ＡＮＳＩＳＱＬステートメント、 ■ＳＱＬステートメント及びプログラム的反復から構成
されるコール・レベル・インターフェース（ＣＬＩ）、
並びに、 ■ＳＱＬステートメント及びプログラム的反復から構成
されるデータ低減ユーティリティ・プログラム、を利用
する分析アルゴリズム； ●ＲＤＢＭＳでの上級分析処理からの結果及びそれにつ
いての情報を記憶する分析論理データ・モデル（ＬＤ
Ｍ）； ●分析論理データ・モデルに記憶された分析アルゴリズ
ムの結果の並列実行を制御する並列展開器。

【００２２】本発明の利益としては： ●関係データベース内での直接的な非常に大きなデータ
ベースのデータマイニング； ●分析結果の関係データベース内での管理； ●関係データベース管理システム内で動作する分析動作
の包括的なセット； ●オブジェクト指向ＡＰＩを通じてのアプリケーション
統合。

【００２３】これら構成要素及び利益は以下により詳細
に記載される。

【００２４】以下、本発明の実施例が、全体を通じて同
様参照番号が対応するパーツを表している添付図面を参
照して説明される。

【００２５】

【発明の実施の形態】ハードウェア環境図１は、本発明の好適実施例で使用され得る模範的なコ
ンピュータ・ハードウェア環境を図示するブロック線図
である。この模範的なコンピュータ・ハードウェア環境
において、大きな並列処理（ＭＰＰ）コンピュータ・シ
ステム１００はネットワーク１０４によって相互接続さ
れた１つ或はそれ以上のノード１０２から構成されてい
る。各ノード１０２は１つ或はそれ以上のプロセッサ、
ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモ
リ（ＲＯＭ）、並びに、他の構成要素から構成されてい
る。想像されることは、これらノード１０２には、１つ
或はそれ以上の固定及び／或はリムーバブル・データ記
憶ユニット（ＤＳＵ）１０６と、１つ或はそれ以上のデ
ータ通信ユニット（ＤＣＵ）１０８とが取り付けられ得
ることである。

【００２６】各ノード１０２は、データマイニング動作
を実行するデータマイニング・アプリケーション（ＡＰ
ＰＬ）１１０、そのデータマイニング動作に対する上級
分析処理能力を提供する上級分析処理コンポーネント
（ＡＡＰＣ）１１２、並びに／或は、データマイニング
・アプリケーションに使用される１つ或はそれ以上のＤ
ＳＵ１０６に保存される関係データベース１１６を管理
する関係データベース管理システム（ＲＤＢＭＳ）１１
４等々の１つ或はそれ以上のコンピュータ・プログラム
を実行し、１つ或はそれ以上のクライアント１１８から
のコマンドに応じて、様々な動作がＡＰＰＬ１１０、Ａ
ＡＰＣ１１２、並びに／或は、ＲＤＢＭＳ１１４で実行
される。代替実施例においてＡＰＰＬ１１０は、クライ
アント１１８の内の１つ或はそれ以上、或は、ネットワ
ーク１０４に取り付けられた異なるプラットフォーム上
のアプリケーション・サーバ上で実行され得る。

【００２７】一般に、コンピュータ・プログラムは、Ｄ
ＣＵ１０８の内の１つ或はそれ以上を介してコンピュー
タ・システム１００と結合された、ＲＡＭ、ＲＯＭ、Ｄ
ＳＵ１０６の内の１つ或はそれ以上、並びに／或は、遠
隔装置に実際には実施されるか、或は、それらから検索
されるかの何れかか若しくはその双方である。コンピュ
ータ・プログラムは、ノード１０２によって読取られて
実行される際、該ノード１０２が本発明の諸ステップ或
は構成要素を実行するために必要な諸ステップを実行さ
せる指示を含む。

【００２８】当業者であればご理解して頂けるように、
図１に図示された模範的環境は本発明を制限することが
意図されていない。事実上、当業者であればご理解して
頂けるように、他の代替ハードウェアが本発明の範囲か
ら逸脱すること無しに使用され得る。加えて、理解して
頂きたいことは、本発明はここで開示されたもの以外の
コンピュータ・プログラムに適用され得ることである。

【００２９】論議アーキテクチャ図２は、本発明の好適実施例に従った、ＡＡＰＣ１１２
の模範的論理アーキテクチャと、ＡＰＰＬ１１０、ＲＤ
ＢＭＳ１１４、関係データベース１１６、並びに、クラ
イアント１１８とのその相互作用とを図示しているブロ
ック線図である。好適実施例におけるＡＡＰＣ１１２は
以下の構成要素を含む： ●ＲＤＢＭＳ１１４における上級分析処理からの結果を
記憶する分析論理データ・モデル（ＬＤＭ）２００； ●ＲＤＢＭＳ１１４における上級分析処理を実行する複
雑な最適化ＳＱＬステートメントを含む１つ或はそれ以
上のスケーラブル・データマイニング機能２０２； ●スケーラブル・データマイニング機能２０２を呼び出
すＡＰＰＬ１１０或は他の構成要素に対する機構を提供
する分析アプリケーション・プログラミング・インター
フェース（ＡＰＩ）２０４； ●スタンドアローン・アプリケーションとして動作でき
るか、或は、別の構成要素によって呼び出され得る１つ
或はそれ以上の分析アルゴリズム２０６であり、 ■分析アルゴリズム２０６の特定の部類を具現化すべく
使用可能な拡張ＡＮＳＩＳＱＬ２０８、 ■ＳＱＬ及びプログラム的反復（プログラムに基づく反
復）の組み合わせが分析アルゴリズム２０６の特定の部
類を具現化すべく必要とされた際に使用可能なコール・
レベル・インターフェース（ＣＬＩ）２１０、並びに、 ■プログラム的反復で追従される、データが先ずＳＱＬ
を用いて低減される、分析アルゴリズム２０６の特定の
部類を具現化すべく使用可能なデータ低減ユーティリテ
ィ・プログラム２１２、を含む分析アルゴリズム２０
６； ●分析アルゴリズム２０６を呼び出すＡＰＰＬ１１０或
は他の構成要素に対する機構を提供する分析アルゴリズ
ム・アプリケーション・プログラミング・インターフェ
ース（ＡＰＩ）２１４； ●分析ＬＤＭ２００に記憶された分析アルゴリズム２０
６の結果（しばしば、分析モデルと呼称される）の並列
実行を制御する並列展開器（Ｄｅｐｌｏｙｅｒ）２１６
であり、当該並列展開器２１６を実行した結果はＲＤＢ
ＭＳ１１４内に記憶されることから成る並列展開器２１
６。

【００３０】留意すべきことは、これら様々な構成要素
の使用は任意であり、よってこれら構成要素の内の幾つ
かだけが任意の特定形態で使用され得る。

【００３１】好適実施例は多重階層論理アーキテクチャ
に向けられており、そこでは、クライアント１１８が以
上に記載された様々な構成要素と相互作用し、次いでそ
れら構成要素がＲＤＢＭＳ１１４とインターフェース接
続して、分析処理用に関係データベース１１６に記憶さ
れた企業体データの大きな中央収納庫を利用する。

【００３２】一例において、クライアント１１８はＡＰ
ＰＬ１１０と相互作用し、該ＡＰＰＬ１１０が分析ＡＰ
Ｉ２０４とインターフェース接続して、スケーラブル・
データマイニング機能２０２の内の１つ或はそれ以上を
呼び出し、それらがＲＤＢＭＳ１１４によって実行され
る。スケーラブル・データマイニング機能２０２の実行
からの結果はＲＤＢＭＳ１１４内の分析ＬＤＭ２００内
における分析モデルとして記憶され得ることになる。

【００３３】別の例において、クライアント１１８は直
接的か或は分析アルゴリズムＡＰＩ２１４を介して１つ
或はそれ以上の分析アルゴリズム２０６と相互作用す
る。分析アルゴリズム２０６は、プログラム的反復を含
み得るか或は含み得ないＳＱＬステートメントを含み、
該ＳＱＬステートメントはＲＤＢＭＳ１１４によって実
行される。加えて、分析アルゴリズム２０６は分析ＡＰ
Ｉ２０４とインターフェース接続し得るか或はし得な
く、スケーラブル・データマイニング機能２０２の内の
１つ或はそれ以上を呼び出し、それらがＲＤＢＭＳ１１
４によって実行される。それにもかかわらず、分析アル
ゴリズム２０６を実行した結果はＲＤＢＭＳ１１４内の
分析ＬＤＭ２００内における分析モデルとして記憶され
ることになる。

【００３４】更に別の例において、クライアント１１８
は並列展開器２１６と相互作用し、該並列展開器が、し
ばしば分析モデルと呼称される、分析アルゴリズム２０
６の結果の内の並列例を呼び出す。この分析モデルは分
析ＬＤＭ２００内に分析アルゴリズム２０６の一例を実
行した結果として記憶される。並列展開器２１６を実行
した結果はＲＤＢＭＳ１１４内に記憶される。

【００３５】更にまた別の例において、クライアント１
１８はＡＰＰＬ１１０と相互作用し、該ＡＰＰＬが直接
的に或は分析アルゴリズムＡＰＩ２１４を介して１つ或
はそれ以上の分析アルゴリズム２０６を呼び出す。その
結果はＲＤＢＭＳ１１４における分析ＬＤＭ２００内に
分析モデルとして記憶されることになる。

【００３６】総体的な目標は、様々な構成要素において
計算及び／或はＩ／Ｏ集中的操作を実行することによっ
て、データマイニング動作の性能、効率、並びに、スケ
ーラビリィティを著しく改善することである。好適実施
例はこれをＭＰＰコンピュータ・システム１００によっ
て提供された並列処理を通じてばかりではなく、ＡＰＰ
Ｌ１１０、ＡＡＰＣ１１２、ＲＤＢＭＳ１１４、クライ
アント１８８、並びに、他の構成要素の間を流れるデー
タ量を低減することによっても達成する。

【００３７】当業者であればご理解して頂けるように、
図２に関連されて図示され且つ議論された模範的な構成
は本発明を制限するものではない。事実上、当業者であ
ればご理解して頂けるように、他の代替構成が本発明の
範囲から逸脱すること無しに使用され得る。加えて、理
解して頂きたいことは、本発明がここで開示されたもの
以外の構成要素にも適用できることである。

【００３８】スケーラブル・データマイニング機能スケーラブル・データマイニング機能２０２は、好適実
施例では対応する分析ＡＰＩ２０４をパラメータ化して
具体化することによって作成される複雑で最適化された
ＳＱＬステートメントを含む。スケーラブル・データマ
イニング機能２０２は、ＲＤＢＭＳ１１４によって実行
された際、データを関係データベースから移動させる必
要性無しに、データマイニング・アプリケーションに対
する上級分析処理の多くを実行する。

【００３９】スケーラブル・データマイニング機能２０
２は以下の機能によって分類され得る： ●データ記述：統計技術を用いて有効なデータを理解し
且つ記述する能力。例えば、記述的統計学、周波数、並
びに／或は、ヒストグラム・ビンの生成。 ●データ誘導：分析モデルを設計する際に現行詳細デー
タに基づき新しい変数（変換）を生成する能力。例え
ば、ビットマップ、レンジ、コード、並びに、数学的関
数等の予想変数の生成。 ●データ低減：分析モデルを設計する際に使用される変
数（列）或は観察（行）の数を低減する能力。例えば、
共分散、相関関係、或は、平方及び外積の合算の生成。 ●データ再組織化：予備処理された結果を合体させるか
或は非正規化して広範な分析データ・セットに為す。 ●データのサンプリング／区分：異なるデータ・サンプ
ル或はデータ区分を知的に要求する能力。例えば、ハッ
シュ・データ区分或はデータ・サンプリング。

【００４０】スケーラブル・データマイニング機能２０
２の主要テーマはＲＤＢＭＳ１１２内での分析動作を促
進することであり、それでデータベース１１４内に記憶
されたデータ収集を処理し、またデータベース１１４内
に記憶された結果を作り出す。データマイニング動作は
反復的で且つ探求的となる傾向があるので、好適実施例
でのデータベース１１６は組合せられた記憶・作業スペ
ース環境を含む。そうすることで、データマイニング動
作のシーケンスはデータベース１１６内の複数テーブル
から成る何等かの収集で開始し、一連の中間作業テーブ
ルを生成し、そして最終的には結果的なテーブル或は展
望を作り出す諸ステップから成るセットとして見られ
る。

【００４１】分析論理データ・モデル関係データベース１１４及びＲＤＢＭＳ１１２と結び付
けられている分析ＬＤＭ２００は、上級分析処理用の論
理エンティティ及び属性定義を提供するものであり、即
ち、関係データベース１１４に対して直接的にＲＤＢＭ
Ｓ１１２によって実行されるスケーラブル・データマイ
ニング機能２０２及び分析アルゴリズム２０６を提供す
る。これらの論理エンティティ及び属性定義は、関係デ
ータベース１１４に記憶されたデータの特性を定義する
メタデータを、ＲＤＢＭＳが上級分析処理をどのように
して実行するかを決定するメタデータと共に含む。分析
ＬＤＭ２００もこの上級分析処理からの処理結果を記憶
し、それはスケーラブル・データマイニング機能２０
２、分析アルゴリズム２０６、並びに、並列展開器２１
６に対する結果的なテーブルと誘導データの双方を含
む。分析ＬＤＭ２００は動的モデルであり、それは論理
エンティティ及び属性定義が上級分析処理のパラメータ
化に依存して変化すると共に、分析ＬＤＭ２００が上級
分析処理の結果で更新されるからである。

【００４２】分析アルゴリズム分析アルゴリズム２０６は、関係データベース１１６に
常駐するデータから分析ＬＤＭ２００を作成すべく統計
的方法及び「機械学習」的方法を提供する。完全にデー
タ駆動された分析アルゴリズム２０６は、拡張ＡＮＳＩ
ＳＱＬ２０８内に唯一具現化され得る。ＳＱＬ及びプ
ログラム的反復の組合せを必要とする分析アルゴリズム
２０６はＣＬＩ２１０を用いて具現化され得る。最後
に、殆ど完全なプログラム的反復を必要とする分析アル
ゴリズム２０６は、データ低減ユーティリティ・プログ
ラム２１２を用いて具現化され得るが、非ＳＱＬアルゴ
リズムが次いで処理できるデータ量を低減するデータ予
備処理を含む。

【００４３】分析アルゴリズム２０６は、ＲＤＢＭＳ１
１４に対して直接的に上級分析動作を実行すべく技術的
構成要素を提供することによって、データマイニング動
作の性能及び効率を著しく改善している。加えて分析ア
ルゴリズム２０６は、ＭＰＰコンピュータ・システム１
００、ＲＤＢＭＳ１１２、並びに、データベース１１４
内に存する並行処理に梃子入れする。

【００４４】分析アルゴリズム２０６はデータ分析に前
例のない見解を提供して、関係データベース１１６内の
大量データに対する「機械学習」分析を訓練し適用す
る。先行する技術は失敗し、それらの順次的な設計がＲ
ＤＢＭＳ１１４環境において最適ではないためである。
分析アルゴリズム２０６はＣＬＩ２１０を介して及び／
或はデータ低減ユーティリティ・プログラム２１２によ
って拡張ＡＮＳＩＳＱＬ２０８内で具現化されるた
め、それらはＭＰＰコンピュータ・システム１００上で
有効なスケーラビリティに梃子入れできる。加えて、完
全拡張ＡＮＳＩｓｑｌ２０８の使用を通じて分析する
データ駆動アプローチを採用することは、高度に教育さ
れた経済学者以外の人々が分析アルゴリズム２０６によ
って提供される上級分析技術に梃子入れすることを可能
とする。

【００４５】クラスタ分析用分析アルゴリズム多次元データをモデル化するタスクを実行する１つの分
析アルゴリズム２０６は「クラスタ分析」である。クラ
スタ分析はデータにおけるグループ分けを見出し、それ
らグループの内の同質なものをクラスタとして識別す
る。もしデータベース１１６が大きければ、クラスタ分
析は基準化できなければならず（スケーラブルでなけれ
ばならず）、それは実際的な時間限界内で完了され得
る。

【００４６】先行技術においてクラスタ分析は、典型的
には、メモリ制限及び必要とされる実行時間によって、
大きなデータベース１１６と共に充分な作業を行わな
い。しばしば、大量の詳細データからクラスタを見出す
解決策は、大量のデータを取り扱う能力のなさのため
に、データ低減或はサンプリングによって対処されてき
た。しかしながらデータ低減或はサンプリングは情報の
潜在的な損失を生ずる。

【００４７】他方、本発明はこの問題を並列ＲＤＢＭＳ
１１４内でクラスタ分析を実行することによって解決す
る。好適実施例において、クラスタ分析は一連の拡張Ａ
ＮＳＩＳＱＬ２０８ステートメント及び／或はＡＰＰ
Ｌ１１０から初期化されたステートメントのグループ分
けを含む一連のスクリプトを用いて実行される。本発明
のキーとなる特徴は、高濃度処理（即ち、データ濃度局
面）が拡張ＡＮＳＩＳＱＬ２０８を用いてＲＤＢＭＳ１
１４内にで直に実行され得る一方で、低濃度処理が拡張
ＡＮＳＩＳＱＬ２０８を動的に生成するＡＰＰＬ１１
０内で実行され得る。

【００４８】好適実施例において、数多くのタイプのク
ラスタ分析の内の２つのみを記載する：即ち、（１）Ｋ
−ｍｅａｎｓモデル、及び、（２）ガウス混合モデルで
あり、それら双方は予想−最大化（ＥＭ）アルゴリズム
を介して具現化される。このＥＭアルゴリズムは統計学
的なモデル化に対する他のモデルより優れ、そして分類
及び連続属性を容易に許容する。勿論、当業者であれば
ご理解して頂けるように、他のタイプのクラスタ分析や
他のアルゴリズムが本発明の範囲から逸脱することなく
使用され得る。

【００４９】並列ＲＤＢＭＳ１１４内でクラスタ分析を
具現化するに当たって幾つかの長所があり、それは、 ●大量のデータをデータベース１１６から移動する必要
性を削減して、単に分析ＬＤＭ２００内でクラスタ分析
モデルを構築して、時間及び不便を節約する。 ●分析アルゴリズム２０６の能力と充分に適合し、それ
がデータベース１１６内に直接的に記述的統計及び変換
を提供する。 ●ＭＰＰコンピュータ・システム１００内で固有の並列
処理能力を利用する。 ●分析ＬＤＭ２００内で構築されたクラスタ分析モデル
の記憶、分析、並びに、アプリケーションを促進補助す
る。

【００５０】一般に、クラスタ分析はユーザからの入力
パラメータに基づいて実行される。好適実施例におい
て、ユーザはデータベース１１６、該データベース１１
６内のテーブル、並びに、クラスタ用に分析されること
になる該テーブルからの属性から成るリストを特定し得
る。またユーザはクラスタ分析のタイプ（例えば、Ｋ−
ｍｅａｎｓ或はガウス混合）、そのデータ内で調査され
るべきクラスタの数、ＥＭ反復が下回って停止すること
になるログ尤度値における閾値差、並びに、ログ尤度値
における変化と独立した反復の最大数を識別し得る。こ
の実施例において、ログ尤度は所与のクラスタリング・
モデルがデータ・セットを生成する尤度、即ち、所与の
確率論的なモデルの仮定の下に適合するクラスタリング
・モデルの妥当性を記述する尤度を規定する。

【００５１】出力はクラスタ平均の値、分散、並びに、
先行可能性（即ち、クラスタに割り当てられた行の相対
数）から成るテーブルを含む。クラスタ識別の成功の測
定は、クラスタ内分散の全てと行クラスタ確率上のログ
尤度合算との平均として提供される。

【００５２】ユーザが所望されたクラスタ数（Ｎ）を選
択した後、初期化ステップがテーブルの各行を無作為に
Ｎ個のクラスタの内の１つと関連させる。これはサンプ
リング機能、（非無作為）行モジュラス機能、或は、何
等かの他の同様機能を用いて達成され得る。

【００５３】その後、反復の特定された数が実行され
る。各反復は多数のステップを実行し、それには、予想
ステップ、最大化ステップ、並びに、評価ステップを含
む。これらステップは以下により詳細に記載される。

【００５４】予想ステップは平均、分散、並びに、各ク
ラスタに割り当てられた全ての行の周波数を計算する。
共分散逆マトリックスはクラスタ分散を用いて構築さ
れ、全ての共分散はゼロであると仮定している。この単
純化は、マハラノビス（汎）距離（Ｍａｈａｌａｎｏｂ
ｉｓＤｉｓｔａｎｃｅ）（ＭＤ）の特殊ケースである
標準化されたユークリッド距離に基づく最大化ステップ
における行距離計算を効果的にもたらす。クラスタ分析
の性能を非常に改善するものであり、それは必要とされ
る計算数が列数の平方よりも、列数の比例するからであ
る。

【００５５】最大化ステップは、予想ステップから平均
及び分散に基づくマハラノビス距離を用いて各クラスタ
の平均までの各行の距離を計算する。Ｋ−ｍｅａｎｓモ
デルの下、最低のマハラノビス距離を用いて各行を最も
近接したクラスタ質量中心に関連させることによって行
がクラスタに再び割り当てられる。ガウス混合モデルの
下、距離の単位がガウス距離機能を介して標準正規分布
の標準偏差の単位へ変換された後、確率論的加重で行が
再びクラスタに割り当てられる。両モデルにおいて、中
間結果が表示され、テーブルを介して次の反復へ渡さ
れ、そこでこれら中間結果がクラスタ平均、分散、並び
に、平均的なクラスタ内分散を含む。特定された数の反
復が実行された後、このステップは最終結果を表示す
る。

【００５６】評価ステップは結果的なクラスタを識別す
る。クラスタ識別の成功はアルゴリズムの収束に依存す
る。予想−最大化アプローチは各連続的な反復でのクラ
スタリング解決策の尤度を増大することを保証する。し
かしながらこのアルゴリズムは初期開始状態に対して鋭
敏であり得る。解決策の統計的品質は尤度パラメータを
用いることによって評価され得て、尤度がより高けれ
ば、解決策はより優れている。クラスタ品質を考慮する
別の基準はクラスタ内分散の下落平均である。

【００５７】Ｋ−ｍｅａｎｓモデル及びガウス・モデル
を用いるテストは、それらが非常に類似したクラスタ質
量中心を生成することを示している。相違は、ガウス・
モデルがＫ−ｍｅａｎｓモデルよりもより少ない反復で
より高速に収束するように見えることである。他方、ガ
ウス・モデルはより多くの実行時間を必要とするように
見え、Ｋ−ｍｅａｎｓモデル及びガウス・モデルの全履
行時間はガウス・モデルと僅かな端で非常に類似するこ
とになり得る。最善のモデルはＫ−ｍｅａｎｓモデル及
びガウス・モデルの混成物であり得て、Ｋ−ｍｅａｎｓ
が早期の反復でより迅速に収束するように見える一方
で、ガウスが末期の反復でより良好であるためである。

【００５８】代替実施例は多数の改善を含み得る。例え
ば、クラスタ内の分散が次元における定数セットの結果
としてゼロまで下落すると特殊考察が付与され得る。更
に、確率、責務、並びに、混合パラメータを水平方向に
計算することが可能であり、大規模に計算時間をスピー
ドアップする。

【００５９】最後に、クラスタ分析は加重機能に対する
確率論的密度機能（ＰＤＦ）を用いるべく一般化され得
る。例えば、指数関数的ＰＤＦを用いてマハラノビス距
離を指数関数的分布変数でデータに対する重みに変換す
べく最適化され得る。代替的ＰＤＦは良好なクラスタ分
析を作り出し得て、様々な種類のデータを生ずる。

【００６０】好適実施例の論理本発明の好適実施例の論理を図示しているフローチャー
トが図３、図４、並びに、図５に提供される。当業者で
あれば理解して頂けるように、この論理は例示的目的の
みのために提供されたものであり、異なる論理が同一結
果を達成すべく使用され得る。

【００６１】図３で参照されるように、このフローチャ
ートは本発明の好適実施例に従ったスケーラブル・デー
タマイニング機能２０２の論理を図示している。

【００６２】ブロック３００はＡＰＩ２０４を介して作
り出される１つ或はそれ以上のスケーラブル・データマ
イニング機能２０２を表す。これは、例えば、所望機能
を提供するオブジェクトの例示を引き起こし得る。

【００６３】ブロック３０２は、スケーラブル・データ
マイニング機能２０２の動作を制御するために特定パラ
メータがＡＰＩ２０４へ渡されること（パス）を表して
いる。

【００６４】ブロック３０４は、もしスケーラブル・デ
ータマイニング機能２０２の動作にとって必要であれ
ば、アクセスされる分析ＬＤＭ２００におけるメタデー
タを表している。

【００６５】ブロック３０６は、渡されたパラメータ及
び任意のメタデータに基づくデータマイニング問い合わ
せの形態でスケーラブル・データマイニング機能２０２
を生成するＡＰＩ２０４を表している。

【００６６】ブロック３０８は実行のためにＲＤＢＭＳ
１１２へ渡されるスケーラブル・データマイニング機能
２０２を表している。

【００６７】図４を参照すると、このフローチャートは
本発明の好適実施例に従った分析アルゴリズム２０６の
論理を図示している。

【００６８】ブロック４００は、直接的に或は分析アル
ゴリズムＡＰＩ２１４を介してかの何れかで、呼び出さ
れる分析アルゴリズム２０６を表している。

【００６９】ブロック４０２は、分析アルゴリズム２０
６へ渡される特定のパラメータを表しており、それらの
動作を制御する。１つ或はそれ以上のパラメータがクラ
スタ分析に対する分析アルゴリズム２０６用に提供さ
れ、それらにはクラスタに対して分析されるべき属性か
ら成るリスト、データ内で調査されるべきクラスタ数、
反復閾値、並びに、反復の最大数を含む。

【００７０】ブロック４０４は、もし分析アルゴリズム
２０６の動作にとって必要であれば、アクセスされる分
析ＬＤＭ２００内のメタデータを表している。

【００７１】ブロック４０６は実行のためにＲＤＢＭＳ
１１２へＳＱＬステートメントを渡す分析アルゴリズム
２０６を表し、ブロック４０８がプログラム的反復を実
行する分析アルゴリズム２０６を任意に表している。当
業者には理解して頂けるように、これらのステップのシ
ーケンスは先に記載したものとは、該シーケンスが両ス
テップを含まない可能性があること、それが追加ステッ
プを含む可能性があること、そして、それがこれらステ
ップの反復を含む可能性があることで異なる可能性があ
る。

【００７２】好適実施例においてクラスタ分析に対する
分析アルゴリズム２０６は、ブロック４０６でＲＤＢＭ
Ｓ１１２へ渡される拡張ＡＮＳＩＳＱＬ２０８ステー
トメントと、ブロック４０８で実行されるプログラム的
反復との双方を用いて実行される。クラスタ分析に対す
る分析アルゴリズム２０６が実行されている際、拡張Ａ
ＮＳＩＳＱＬ２０８ステートメント及びプログラム的
反復は関係データベース１１６から検索されるデータに
おいてグループ分けを見出し、それらグループ分けの内
の同質のものをクラスタとして識別する。詳細には、こ
れらブロックは先ず無作為に特定化されたテーブルの各
行を１つ或はそれ以上のクラスタと関連させ、次いでそ
れらクラスタ上で特定化された数のプログラム的反復を
実行するものであり、各プログラム的反復は、予想ステ
ップ、最大化ステップ、並びに、評価ステップを含む拡
張ＡＮＳＩＳＱＬ２０８ステートメントを動的に生成
する。

【００７３】先に留意したように、予想ステップは平
均、分散、並びに、各クラスタに割り当てられた行に対
する周波数を計算する。最大化ステップは、予想ステッ
プからの平均及び分散を用いて各クラスタの平気までの
行距離を計算し、各行をその最も近接したクラスタ質量
中心に関連させることによって行がクラスタに再び割り
当てられる。最大化ステップにおいて、中間結果は表示
され得て、テーブルを介して次の反復へ渡されることに
なるが、これら中間結果はクラスタ平均、分散、並び
に、平均的なクラスタ内分散を含む。特定化された数の
反復実行の後、このステップは最終結果を表示する。最
後に評価ステップは、収束の観察に依存する任意の結果
として生ずるクラスタを識別する。

【００７４】ブロック４１０は、分析ＬＤＭ２００に結
果を記憶する分析アルゴリズム２０６を表している。詳
細には、クラスタ分析に対する分析アルゴリズム２０６
用の出力は、クラスタ平均、分散、並びに、先行確率
（全てのクラスタ内分散の平均として提供されたクラス
タ識別の成功の測定）を含み得る。

【００７５】図５で参照されるように、このフローチャ
ートは本発明の好適実施例に従ったＲＤＢＭＳ１１２に
よって実行される論理を図示している。

【００７６】ブロック５００は問い合わせ或は他のＳＱ
Ｌステートメントを受け取るＲＤＢＭＳ１１２を表して
いる。

【００７７】ブロック５０２は問い合わせを分析するＲ
ＤＢＭＳ１１２を表している。

【００７８】ブロック５０４は、問い合わせを満たすべ
く、ＲＤＢＭＳ１１２が関係データベース１１４から正
しい情報を検索することを可能とするプランを生成する
ＲＤＢＭＳ１１２を表している。

【００７９】ブロック５０６は、コンパイルされるより
はインタープリタされ得るが、ＲＤＢＭＳ１１２によっ
てのより効率的な実行のため、プランをオブジェクト・
コードにコンパイルするＲＤＢＭＳ１１２を表してい
る。

【００８０】ブロック５０８はプランの実行を始動する
ＲＤＢＭＳ１１２を表している。

【００８１】ブロック５１０はプランの実行から結果を
生成するＲＤＢＭＳ１１２を表している。

【００８２】ブロック５１２は、結果を分析ＬＤＭ２０
０内に記憶するか、或は、結果を分析アルゴリズム２０
６及び／或はクライアント１１６へ戻すかの何れかを為
すＲＤＢＭＳ１１２を表している。

【００８３】代替実施例において、メインフレーム、ミ
ニコンピュータ、或は、パーソナルコンピュータ等の任
意のタイプのコンピュータが本発明を具現化すべく使用
され得る。

【００８４】要約すると、本発明は関係データベース管
理システムにおいてデータマイニング・アプリケーショ
ンを実行するための方法、装置、並びに、製造物を開示
している。クラスタ分析に対する分析アルゴリズムはコ
ンピュータによって実行される。クラスタ分析に対する
分析アルゴリズムは、ＳＱＬステートメント及びプログ
ラム的反復を含み、関係データベース管理システムから
検索されたデータにおけるグループ分けを見出し、それ
らグループ分けの内の同質のものをクラスタとして識別
する。クラスタ分析に対する分析アルゴリズムは、関係
データベースに常駐するデータから分析論理データ・モ
デル内に少なくとも１つの分析モデルを作り出す。

【図面の簡単な説明】

【図１】本発明の好適実施例で使用され得る模範的な
コンピュータ・ハードウェア環境を図示するブロック線
図である。

【図２】本発明の好適実施例で使用され得る模範的な
論理アーキテクチャを図示するブロック線図である。

【図３】本発明の好適実施例に従って実行される模範
的な論理を図示するフローチャートである。

【図４】本発明の好適実施例に従って実行される模範
的な論理を図示するフローチャートである。

【図５】本発明の好適実施例に従って実行される模範
的な論理を図示するフローチャートである。

【符号の説明】

１００並列処理（ＭＰＰ）コンピュータ・システム１０２ノード１０４ネットワーク１０６固定或はリムバーブル・データ記憶ユニット
（ＤＳＵ）１０８データ通信ユニット（ＤＣＵ）１１０データマイニング・アプリケーション（ＡＰ
ＰＬ）１１２上級分析処理構成要素（ＡＡＰＣ）１１４関係データベース管理システム（ＲＤＢＭ
Ｓ）１１６関係データベース１１８クライアント２００分析論理データ・モデル（ＬＤＭ）２０２スケーラブル・データマイニング機能２０４分析アプリケーション・プログラミング・イ
ンターフェース（ＡＰＩ）２０６分析アルゴリズム２０８拡張ＡＮＳＩＳＱＬ２１０コール・レベル・インターフェース（ＣＬ
Ｉ）２１２データ低減ユーティリティ・プログラム２１４分析アルゴリズム・アプリケーション・プロ
グラミング・インターフェース（ＡＰＩ）２１６並列展開器

───────────────────────────────────────────────────── フロントページの続き (72)発明者ジェームズディーンヒルドレスアメリカ合衆国 92028 カリフォルニア州フォールブルックチャンデルレーン 1545 (72)発明者スコットウッドルーフェキュニンハムアメリカ合衆国 92101 カリフォルニア州サンディエゴウエストハーバードライブ 500 Ａｐｔ．134 Ｆターム(参考） 5B075 ND03 ND34 NR12 QT06

Claims

【特許請求の範囲】

【請求項１】データマイニング・アプリケーションを
実行する方法であって、（ａ）コンピュータ・システムと接続された１つ或はそ
れ以上のデータ記憶装置に記憶された関係データベース
を管理することと、（ｂ）前記コンピュータ・システムにおいてクラスタ分
析に対する分析アルゴリズムを実行し、クラスタ分析に
対する前記分析アルゴリズムが、ＳＱＬステートメント
及びプログラム的反復を含んで、関係データベース管理
システムから検索されたデータにおいて１つ或はそれ以
上のグループ分けを見出し、それらグループ分けの内の
同質のものをクラスタとして識別しており、そして、関
係データベース内に常駐するデータから分析論理データ
・モデル内に少なくとも１つの分析モデルを作り出すこ
とと、を含む方法。
【請求項２】クラスタ分析に対する前記分析アルゴリ
ズムが、クラスタに対して分析されるべき属性から成るリスト、クラスタ分析のタイプ、データ内で調査されるべきクラスタの数、反復閾値、並びに、反復の最大数、を含む群から選択された１つ或はそれ以
上の入力パラメータに従って実行される、請求項１に記
載の方法。
【請求項３】クラスタ分析に対する前記分析アルゴリ
ズムが、クラスタ平均、分散、並びに、先行確率を含む
群から選択された１つ或はそれ以上の要素を含む出力を
生成する、請求項１又は２に記載の方法。
【請求項４】前記先行確率が、全てのクラスタ内分散
の平均としてクラスタ識別の成功の測定を含む、請求項
３に記載の方法。
【請求項５】クラスタ分析に対する前記分析アルゴリ
ズムが、特定化されたテーブルの各行を１つ或はそれ以上のクラ
スタと無作為に関連させることと、クラスタに対して特定化された数の反復を実行し、各反
復が予想ステップ、最大化ステップ、並びに、評価ステ
ップを実行することと、を含む、請求項３に記載の方
法。
【請求項６】前記予想ステップが、平均、分散、並びに、各クラスタに割り当てられた行に
対する周波数を計算することと、共分散逆マトリックスを前記計算された分散を用いて構
築することと、を含む、請求項５に記載の方法。
【請求項７】前記構築ステップが、共分散がゼロであ
ることを仮定する、請求項６に記載の方法。
【請求項８】前記共分散が標準化ユークリッド距離に
基づく、請求項６に記載の方法。
【請求項９】必要とされる計算の数が列数の平方より
も列数に比例するので、前記標準化ユークリッド距離が
前記クラスタ分析の実行を改善する、請求項８に記載の
方法。
【請求項１０】前記標準化ユークリッド距離がマハラ
ノビス距離（ＭＤ）を含む、請求項８に記載の方法。
【請求項１１】前記構築ステップが、前記マハラノビ
ス距離を用いて、各クラスタまでの各行の距離を計算す
ることを含む、請求項１０に記載の方法。
【請求項１２】前記計算ステップが前記予想ステップ
からの平均及び分散を用いる、請求項１１に記載の方
法。
【請求項１３】前記構築ステップが、Ｋ−ｍｅａｎｓ
モデルの下、最低マハラノビス距離を用いて各行を最も
近接するクラスタ質量中心に関連させることによってク
ラスタに行を再度割り当てることを含む、請求項１１に
記載の方法。
【請求項１４】前記構築ステップが、ガウス混合モデ
ルの下、距離の単位がガウス距離機能を介して標準正規
分布の標準偏差の単位へ変換された後、確率論的加重で
行を再びクラスタに割り当てることを含む、請求項１１
に記載の方法。
【請求項１５】前記構築ステップが、前記計算ステッ
プ及び前記構築ステップからの中間結果を表示し、それ
ら中間結果を次の反復に渡すことを含む、請求項６に記
載の方法。
【請求項１６】前記中間結果が、クラスタ平均、分
散、並びに、平均的なクラスタ内分散を含む、請求項１
５に記載の方法。
【請求項１７】特定化された数の反復が実行された
後、最終結果を表示することを更に含む、請求項６に記
載の方法。
【請求項１８】前記評価ステップが任意の結果として
生ずるクラスタを識別することを含む、請求項５に記載
の方法。
【請求項１９】前記識別ステップが収束の観測に依存
する、請求項１８に記載の方法。
【請求項２０】前記識別ステップが下落する平均的な
クラスタ内分散のパターンに依存する、請求項１８に記
載の方法。
【請求項２１】前記識別ステップがクラスタ質量中心
の正確な製作に依存する、請求項１８に記載の方法。
【請求項２２】前記コンピュータ・システムが大きな
並列処理（ＭＰＰ）コンピュータ・システムであり、ク
ラスタ分析に対する前記分析アルゴリズムが前記コンピ
ュータ・システムによって同時並列的に実行される、請
求項１乃至２１の何れか一項に記載の方法。
【請求項２３】クラスタ分析に対する前記分析アルゴ
リズムが前記関係データベース管理システムによって実
行されるＳＱＬステートメントと、アプリケーション・
プログラムによって実行されるプログラム的反復との組
み合わせとして具現化される、請求項１乃至２２の何れ
か一項に記載の方法。
【請求項２４】請求項１乃至２３の何れか一項に従っ
て、データマイニング・アプリケーションを実行する方
法を実施する論理を含む製造物。
【請求項２５】データマイニング・アプリケーション
を実行するコンピュータ具現化システムであって、（ａ）自体に接続された１つ或はそれ以上のデータ記憶
装置を有するコンピュータ・システムと、（ｂ）前記データ記憶装置に記憶される関係データベー
スを管理するための、前記コンピュータ・システムによ
って実行される関係データベース管理システムと、（ｃ）前記コンピュータ・システムによって実行される
クラスタ分析に対する分析アルゴリズムであり、ＳＱＬ
ステートメント及びプログラム的反復を含んで、前記関
係データベース管理システムから検索されたデータにお
いて１つ或はそれ以上のグループ分けを見出し、それら
グループ分けの内の同質のものをクラスタとして識別す
ると共に、前記関係データベースに常駐するデータから
分析論理データ・モデル内に少なくとも１つの分析モデ
ルを作り出すことから成るクラスタ分析に対する分析ア
ルゴリズムと、を備えるシステム。
【請求項２６】クラスタ分析に対する前記分析アルゴ
リズムがクラスタに対して分析されるべき属性から成る
リスト、クラスタ分析のタイプ、データ内で調査されるべきクラスタの数、反復閾値、並びに、反復の最大数、を含む群から選択された１つ或はそれ以
上の入力パラメータに従って実行される、請求項２５に
記載のシステム。
【請求項２７】クラスタ分析に対する前記分析アルゴ
リズムが、クラスタ平均、分散、並びに、先行確率を含
む群から選択された１つ或はそれ以上の要素を含む出力
を生成する、請求項２５又は２６に記載のシステム。
【請求項２８】前記コンピュータ・システムが大きな
並列処理（ＭＰＰ）コンピュータ・システムであり、ク
ラスタ分析に対する前記分析アルゴリズムが前記コンピ
ュータ・システムによって同時並列的に実行される、請
求項２５乃至２７の何れか一項に記載のコンピュータ具
現化システム。
【請求項２９】クラスタ分析に対する前記分析アルゴ
リズムが前記関係データベース管理システムによって実
行されるＳＱＬステートメントと、アプリケーション・
プログラムによって実行されるプログラム的反復との組
み合わせとして具現化される、請求項２５乃至２８の何
れか一項に記載のコンピュータ具現化システム。
【請求項３０】データマイニング・アプリケーション
をコンピュータ・システムにおいて実行する指示であ
り、実行された際に該システムに請求項１乃至２３の何
れか一項に記載の方法を実施させるような指示を含む１
つ或はそれ以上の機械可読記憶媒体を含む物品。
【請求項３１】コンピュータ・システムに請求項１乃
至２３の何れか一項に記載の方法を実行させるプログラ
ム指示を含むコンピュータ・プログラム。
【請求項３２】コンピュータ・システムにおいてデー
タマイニング・アプリケーションを実行するメモリ内に
記憶されたデータ構造であり、実行された際に該システ
ムに請求項１乃至２３の何れか一項に記載の方法を実施
させるような指示を含むデータ構造。