JP2001249995A - コンピュータシステム内、並列アーキテクチャ・コンピュータ内、及び、対称的マルチプロセッサ・アーキテクチャ・コンピュータ内で患者導入規則法を用いて大型ディスク常駐データ・セットを分析する方法 - Google Patents

コンピュータシステム内、並列アーキテクチャ・コンピュータ内、及び、対称的マルチプロセッサ・アーキテクチャ・コンピュータ内で患者導入規則法を用いて大型ディスク常駐データ・セットを分析する方法

Info

Publication number
JP2001249995A
JP2001249995A JP2000387496A JP2000387496A JP2001249995A JP 2001249995 A JP2001249995 A JP 2001249995A JP 2000387496 A JP2000387496 A JP 2000387496A JP 2000387496 A JP2000387496 A JP 2000387496A JP 2001249995 A JP2001249995 A JP 2001249995A
Authority
JP
Japan
Prior art keywords
attribute
cost
value
continuous
discontinuous
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000387496A
Other languages
English (en)
Inventor
Suribasutaba Anuragu
アヌラグ・スリバスタバ
Sai Bineeto
ビネート・サイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of JP2001249995A publication Critical patent/JP2001249995A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Epidemiology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Multi Processors (AREA)

Abstract

(57)【要約】 【課題】 本発明は、コンピュータシステム内で患者規
則導入法(PRIM)を用いた大型ディスク常駐データ
・セットの分析に関する。 【解決手段】 PRIM内では、連続属性52、不連続
属性54、物質パラメータ、及びコスト属性56を含ん
だ関係データ表50を最初に受け取る。コスト属性56
は、入力として連続及び不連続属性値に基づくコスト出
力値を表す。連続及び不連続属性値で定義された多次元
空間を囲む超矩形が形成される。連続及び不連続属性値
は多次元空間内の点として表示される。超矩形内の点の
総数が二次元パラメータ58に等しくなるまで、超矩形
の縁に沿って複数の点が、コスト出力値の平均に基づく
その複数の点から除去される。超矩形で囲まれた多次元
空間全体でのコスト出力値の合計が変化するまで、除去
された不連続及び連続属性値は超矩形の縁に沿って加え
られる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、概して1組の入力
変数に基づいた幾らかの出力変数のうち高い値の予測を
伴うデータ分析に関する。特に、本発明は、患者規則導
入法(Patient Rule Induction Method, PRIM)を
用いた大型ディスク常駐データ・セットの分析に関す
る。
【0002】
【従来の技術】データ分析における一般的な問題は、1
組の入力変数に基づいた幾らかの出力変数のうち高い値
の予測を伴っている。例えば、病院は、患者年齢と滞在
期間長さとのどのような組合わせが高コストの病院滞在
期間に関係されるのかを、収集された患者データから決
定したいだろう。このデータ分析問題の複雑さに付加さ
れていることは、対象の変数が異なるタイプのものであ
り、連続/数値的(年齢、コスト、又は、滞在期間長さ
のような順序データ)、絶対的(医者のような非順序デ
ータ)、及び、不連続(手順リスクのような順序不連続
データ)を含むことである。
【0003】上述の問題に類似するデータ分析問題を解
決するため従来技術に依る多くの戦略があり、その戦略
は、SLIQ分類アルゴリズム(M. Mehta, R. Agrawa
l, 及びJ. Rissanenに依る「SLIQ:データ・マイニ
ング用高速スケーラブルクラシファイア」、1996年
3月、フランスのアビニョンに於いて、データベース工
学発展に関する第5回インテル会議録)、SPEC(An
urag Srivastava, Vineet Singh, Eui-Hong (Sam) Han,
及びVipin Kumarに依る「データ・マイニング用の効率
的スケーラブル並列クラシファイア(1996年)」、
1996年、ミネアポリス、ミネソタ大学、コンピュー
タ・サイエンス部門、技術レポート96-040)、及び、患
者規則導入方法(PRIM)(Friedman, J.、及び、Fi
sher, N. I. に依る「高次元データにおけるバンプ・ハ
ンティング(1997年10月)」、(「統計及び計算
法」に掲載))。このような戦略の各々において、分析
されるべきデータが、先ず、任意タイプのデータベース
内に格納され、そしてデータ分析システムが、データ分
析を容易にする特殊データ構造を用いたディスクに、格
納されたデータをコピーする。
【0004】SLIQ 分類アルゴリズムは、高い出力
値を持った入力データのローカル・グループを見付け
る。それは、連続データよりも絶対的データの方と一緒
に良好に働く。即ち、SLIQアルゴリズムは、連続よ
りむしろ絶対的データの高い出力値を備えた多次元入力
データの連続グループを見付ける可能性が高い。このた
め、連続データを分析する必要のある時に、SLIQア
ルゴリズムを線形回帰分析と一緒に一対にする。
【0005】本発明の基礎であるPRIMアルゴリズム
は、特に、出力変数の高い平均に対応した一組の入力変
数の多次元空間内で領域を決定する問題に取り組んでい
る。更に、PRIMによって生成される領域は、二つの
入力変数に対して矩形であり、又は、(更に一般的に
は)二つ以上の入力変数に対して超(ハイパー)矩形で
あるので、容易に解釈可能である。(なお、この出願の
他の部分に対して、用語「超矩形」と「ボックス」とは
互換可能に用いられていることに留意されたい。)ここ
で、同じ出力に対してSLIQ及びPRIMアルゴリズ
ムによって与えられた結果の比較を、図1に関して説明
する。
【0006】図1で示された点は、入力変数が入院患者
に対する滞在期間長さ及び年齢である場合、及び、出力
変数が患者滞在期間に対する料金である場合の点であ
り、そして塗りつぶされた点が高い値の点であり、及
び、塗りつぶされていない点が低い値の点である。最も
高い料金を持った滞在期間長さ及び(又は)年齢の領域
を見付ける目的を与えられると、PRIMアルゴリズム
は単一超矩形102に戻るのに対し、SLIQアルゴリ
ズムは小さくてばらばらの領域104a,104bに戻
る。PRIMの超矩形領域102の記述(例えば、50
<年令<70、及び、2≦滞在期間長さ≦4)は、入力
変数が既知であると共に、出力変数が未知である場合
に、予測申込用に利用可能である。特に、入院申込に対
して、高料金(又は高コスト)の患者を使って内部的に
コストを低減し、又は、外部的に支払人(又は保険会
社)と更に有利な契約を交渉可能にする。SLIQアル
ゴリズムからの出力と比較されるように、PRIMのよ
り簡単な出力によって、この申込は単純化される。本発
明はPRIMに基づくので、ここで、この方法を更に詳
細に説明する。
【0007】PRIMの背後の考えは、単一超矩形内に
全ての入力データの点を取り囲み、それから、全部の点
のうちユーザ規定%が、超矩形の内部に残るまで、低い
値の点を取り囲んだ超矩形において連続で小さなストリ
ップ(細片)を連続して剥ぎ取ることである。これらの
点は、主として高い値の点であると推定されている。P
RIMは、そっくりそのままメインメモリ(即ち、実行
中のプログラムにアクセス可能なRAM)内へコピー可
能である一つの小さなデータ組に適用され得るが、より
大きいデータ組を扱うことができない。PRIMは連続
データに対して次のステップを含んでいる: 1)全てのデータ組をメインメモリ内へコピーする; 2)超矩形のうち隣接する小さなストリップの幅である
剥ぎ取り部分(α)を定義する。各ストリップは、超矩
形の周囲に沿った点のうち1%〜5%の間で好まれた初
期点の規定%を利用することによって、形成される; 3)超矩形の周囲に沿って点のα%を取ることによっ
て、超矩形の縁に沿ったストリップを形成する; 4)超矩形の各ストリップに対してコスト属性の平均値
を算出する。各属性に対して、データを分類し、最高点
のα%と最低点のα%とに対してコスト属性の平均値を
見付ける。これは各属性に関して繰り返される; 5)最低平均コスト値を持ったストリップを投げ、ステ
ップ3)に戻り、そして超矩形によって囲まれたまま残
った点の個数がユーザ規定%の初期点に等しくなるまで
繰り返す(残った点は、最高平均出力値を持った点のユ
ーザ規定%になるだろう)。
【0008】不連続データに関するステップは、多次元
ストリップの代りにヒストグラムを使用したことを除い
て、既に述べたステップと同じである。例えば、もし入
力変数の1つが医師IDであるならば、各ストリップは
既定医師ID用のヒストグラム・ビンに対応するだろ
う。ここで、小さなデータ組に対してPRIMを実行す
る方法が、図2に関して説明されるだろう。
【0009】図2を参照すると、不連続属性を実行する
従来技術のPRIMによって使用されたデータ構造の一
つの実例と、データの関係表とが示されている。データ
の関係表は連続及び不連続な属性を含んでいる。不連続
属性、即ち医師IDを処理するために、ヒストグラム
は、全ての個別的医師IDと予測コストとを含んで生成
されている。予測コストは、それぞれの医師IDと一緒
に各々の記録に関するコストを合計し、医師IDと一緒
に各々の記録の総計でその合計を割り算することによっ
て算出される。図2で表示されたように、医師IDの
A,B,C及びDが予測コストと一緒に示されている。
医師IDのAは最低予測コスト($100.00)を所
有し、それ故に剥ぎ取り不連続属性として選択される。
【0010】結果として、不連続属性に関するPRIM
計算は、上述されたように、連続属性に関するPRIM
計算にぴったりである。しかしながら、不連続属性に対
して、ステップ4)は、明確な不連続属性値と予測コス
トとを含めた各々の不連続属性用のヒストグラムを形成
することを含んでいる。ステップ5)は、最低平均値を
備えた連続属性と最低平均値を備えた不連続属性とを比
較して、除去されるべき剥ぎ取り属性を決定することを
含んでいる。
【0011】
【発明が解決しようとする課題】上述のPRIM実行
は、各々の剥ぎ取りステップのために、ある時刻で一
度、各属性に対してデータの関係表を分類しなければな
らない。更に、データの関係表が問いただされて、各々
の剥ぎ取りステップに対してそれぞれの不連続属性用の
予測コストを決定しなければならい。これらのタスク
は、データの関係表がメインメモリ内に格納されるべき
ことを必要としている。不都合にも、従来システムの記
憶限界は、大型ディスク常駐データ・セットがメインメ
モリ内に完全に格納されるのを妨げている。従って、大
型ディスク常駐データ・セットに適応可能であるPRI
Mの実行を必要としている。同様に、並列プロセッサ上
での実行用に並列化され得るPRIMの実行を必要とし
ている。
【0012】
【課題を解決するための手段】本発明は、大型ディスク
常駐データ・セットを分析する方法を提供することによ
って、識別問題を克服している。大型ディスク常駐デー
タ・セットを備えたコンピュータシステムでは、患者規
則導入法(PRIM)を用いたディスク常駐データ・セ
ットを分析する方法が開示されている。その方法におい
て、関係データ表が先ず受け取られる。関係データ表は
連続属性、不連続属性、二次元パラメータ(メタ・パラ
メータ)、及び、コスト属性を含んでいる。コスト属性
は、入力としての連続属性値と不連続属性値とに基づた
コスト出力値を表示している。次に、連続属性値と不連
続属性値とによって定義される多次元空間を囲んだ超矩
形が形成されている。連続属性値と不連続属性値とは多
次元空間内の点として表示されている。ひとたび超矩形
が形成されると、PRIMが剥ぎ取り段階と貼り付け段
階とで完了にされる。それから、超矩形内で囲まれた点
の総数が二次元パラメータに等しくなるまで、複数の点
からのコスト出力値の平均に基づき超矩形の縁に沿って
複数の点が除去される(剥がされる)。次に、超矩形内
によって囲まれた多次元空間全体でのコスト出力値の合
計が変化するまで、超矩形から除去された不連続属性値
と連続属性値とが超矩形の縁に沿って加えられる(剥が
される)。複数のプロセッサを備えた並列アーキテクチ
ャ・コンピュータシステムを利用する本発明の更なる態
様では、超矩形によって囲まれた複数の点の全体でのコ
スト属性平均値の算出が、コスト低減と一対全ブロード
キャストとを用いた複数のプロセッサを横切って並列に
実行される。
【0013】本発明は公知技術以上に多くの利点を提供
している。本発明は、データ・セットをメインメモリに
ロードする必要なしに、大型ディスク常駐データ・セッ
トを分析する能力を包含している。更に、本発明を並列
コンピュータ・アーキテクチャ、又は、対称的マルチプ
ロセッサ・アーキテクチャで実行して性能を向上でき
る。その上、本発明におけるメモリ必要条件は、最大化
又は最小化されるように求められたコスト属性のサイズ
によってのみ制限される。
【0014】図面を参照して、以下の詳細な説明と、添
付した特許請求の範囲とを読むことで本発明の追加的な
利点と特徴とが容易に明白になるだろう。
【0015】
【発明の実施の形態】本発明は、概して一組の入力変数
に基づいた幾らかの出力変数のうち高い値の予測を伴っ
たデータ分析に関する。特に、本発明は、患者規則導入
法(PRIM)を用いた大型ディスク常駐データ・セッ
トの分析に関する。大型ディスク常駐データ・セット用
のPRIM方法は、超矩形を生成する二つの段階を含ん
でいる。これらの段階は、剥ぎ取り段階と貼り付け段階
とである。関係データ表としてデータが入力されたと仮
定する。関係データ表は、Ac個の連続属性と、Ad個の
不連続属性と、一つのコスト属性又は出力値とを含んで
いる。一つのコスト属性又は出力値は、入力としてAc
個の連続属性とAd個の不連続属性とに基づいている。
本考察を簡素化するために、一般に、コスト属性という
用語を使って、入力としての連続属性と不連続属性とに
基づいた出力値を意味する。換言すれば、コスト出力値
は、入力として連続属性値と不連続属性値とに基づいた
出力である。β0は、ユーザによって与えられた二次元
パラメータである。それは、超矩形内に存在する点のう
ち最小個数を表す。
【0016】本発明の典型的な一実施の形態を図3及び
図4に関して説明する。図3は、本発明の一実施の形態
に依るコンピュータシステム10を示している。コンピ
ュータシステムは、バス14に結合されたプロセッサ
(CPU)12を含んでいる。ランダムアクセス・メモ
リ(RAM)16及びハードディスク・メモリ(DIS
K)18もバス14に結合され、プロセッサによってア
クセス可能である。ハードディスク18は、後述される
ように、本発明に必要なプログラムとデータとを格納す
るように構成されている。任意のユーザ・インタフェー
ス20は未加工データの入力用に設けられている。一実
施の形態において、入力/出力装置は、キーボード、マ
ウス、及びモニタを含んでいる。任意のネットワーク・
インタフェース(NETWORK I/F)21も同様
に設けられている。未加工データは、様々な種類の方法
で、例えばユーザ・インタフェース20又はネットワー
ク・インタフェース21を介して入力され得る。
【0017】ハードディスク18は、コンピュータシス
テム10内にプログラム及びデータを格納するように構
成されている。RAM及びハードディスクを含んだメモ
リは三つの主要成分に分割されている:通信手順22、
制御手順28、及びデータ48である。通信手順は、大
型ディスク常駐データ・セットを識別するルーチン2
4,26を含んでいる。制御手順は、本発明に依るデー
タ分析機能を実行するルーチン30〜46を含んでい
る。データ部分は、関係データ表50におけるAc個の
連続属性のリストと一つの不連続属性のリストとに対す
るインデックスを作り、コスト・リストと二次元パラメ
ータ58とをメインメモリ(RAM)16内に格納す
る。これらのルーチンを更に詳細に以下説明する。
【0018】本発明の動作を図4のフローチャートに関
して説明する。本発明の一実施の形態に依る動作のステ
ップ100のステップ102において、二次元パラメー
タ及び関係データ表を受け取る。上述したように、関係
データ表はAc個の連続型属性、不連続属性、及びコス
ト属性を含んでいる。コスト属性は、入力として連続属
性値と不連続属性値とに基づいたコスト出力値を表して
いる。属性とは、本来、数行又は組(tuple)である。
その数行又は組は、属性を分離した時に、組を識別する
ためインデックスもまた含んだ関係データ表を形成して
いる。ステップ110において、超矩形は、連続属性値
と不連続属性値とによって定義された多次元空間を囲む
ことによって形成されている。多次元空間を形成するた
めに、連続属性値と不連続属性値とは多次元空間内の点
として表示されている。ステップ130及び200にお
いて、複数の点からコスト出力値の平均に基づき、超矩
形の縁に沿って複数の点が除去される(剥がされる)。
超矩形内で囲まれた点の総数が二次元パラメータに等し
くなるまで、点は繰り返して除去される。最終的に、ス
テップ290及びステップ300において、超矩形に囲
まれた多次元空間全体でのコスト出力値の合計が変化す
るまで、除去された不連続属性値の点と連続属性値の点
とが超矩形の縁に沿って加えられる(貼り付けられ
る)。
【0019】図5は、本発明の更なる一実施の形態に依
るステップ110の超矩形を形成するための追加的方法
のステップを示している。図5は関係データ表の垂直分
割を示している。その垂直分割は、従来システムによっ
て必要とされるように、大型ディスク常駐データ・セッ
トをメインメモリ16内にロードする必要なしに、大型
ディスク常駐データ・セットの分析を可能にしている。
データはAc+2個のリスト内で分離されている。ステ
ップ112において、一つのリストを各々の連続属性用
に生成して、連続属性値を含んだAc個の連続属性リス
トを形成する。ステップ114において、Ad個の不連
続属性値と連続属性値とを含んだ一つの不連続属性リス
トを生成する。ステップ116において、コスト出力値
を含んだコスト属性リストが生成され、そしてメインメ
モリ内に格納される。ステップ118において、Ac
の連続属性リスト、不連続属性リスト、及びコスト属性
リストのそれぞれにラベルを加える。ラベルは、それぞ
れの属性値が関係データ表内で属する組のインデックス
である。インデックスによって連続属性値と不連続属性
値とが各々の組とコスト出力値とを参照することを可能
にする。
【0020】ステップ120において、コスト・リスト
にラベルが加えられる。ラベルはコスト・フラッグであ
る。そのコスト・フラッグは、コスト出力値を含む組が
超矩形内に囲まれているか否かを示している。最初に全
ての点が超矩形内に囲まれているので、コスト・フラグ
は、組が超矩形内に囲まれたことを示す1に初期設定さ
れている。最終的にステップ122において、コスト・
リストに更なるラベルが加えられる。ラベルは、超矩形
内に囲まれていない組における点の個数のコストカウン
タである。最初に全ての点が超矩形内に取り囲まれてい
るので、コストカウンタは1に初期設定されている。コ
ストカウンタは貼り付け手順42で用いられる。
【0021】図6は、本発明の更なる一実施の形態に依
るステップ200の剥ぎ取り手順36用の追加方法のス
テップを示している。ステップ210において、最低平
均コスト出力値を備えた超矩形の縁に沿って、複数の点
で囲まれた不連続属性値が見付けられる。ステップ22
0において、最低平均コスト出力値を備えた超矩形の縁
に沿って、複数の点で囲まれた連続属性値が見付けられ
る。ステップ240において、ステップ210で決定さ
れた最低平均コスト出力値が、ステップ220で決定さ
れた最低平均コスト出力値と比較されて、最低平均コス
ト出力値を備えた属性を決定する。ステップ250にお
いて、ステップ240で決定された属性を含んだ組のう
ち、全ての連続属性値点と不連続属性値点とが超矩形か
ら除去される(剥がされる)。ステップ270におい
て、超矩形内の点の総数がβ0に等しくなるまで、ステ
ップ210〜ステップ250が繰り返される。
【0022】最終的にステップ280において、全コス
ト出力が算出される。全コスト出力は、超矩形によって
囲まれた多次元空間全体でのコスト出力の合計である。
上述の剥ぎ取り手順が、超矩形によって囲まれた点の個
数を最大にするけれども、超矩形で囲まれた点の個数を
最小にすることも可能である。更に、ステップ200の
不連続属性値は、例えば、各々の不連続属性に対して複
数の不連続ヒストグラムを用いて決定される。各ヒスト
グラムは、それぞれ異なった不連続属性値と、不連続属
性値を含む各組に対するコスト出力値の平均とを含んで
いる。平均コスト出力値は、不連続属性値のインデック
スを使用し、マッチング・インデックスとゼロに等しい
コスト・フラグとを備えたコスト・リスト内で各コスト
出力値を合計することによって算出される。次に、その
合計がコスト出力値の総数で割り算され、それぞれの不
連続属性値に対して平均コスト出力値を形成する。それ
から、最低平均コスト出力値を備えた不連続属性値が、
各不連続ヒストグラムを検査することによって、容易に
選択される。
【0023】図7は、本発明の更なる一実施の形態に依
るステップ220の最低平均コスト出力値の算出を最適
化する追加方法のステップを示している。初めに、各連
続属性リストは、始動ポインタを各連続属性リスト内の
第1行へ向けた状態で増加順序に分類されている。ステ
ップ222において、第2連続属性リストは、Ac個の
連続属性のリストの各々に関して生成される。第2連続
属性リストは、終了ポインタを各第2連続属性リスト内
の第1行へ向けた状態で減少順序に分類されている。ス
テップ224において、始動カットオフ値は、不連続属
性値を含んだ組の総数に基づいたAc個の連続属性リス
トのそれぞれにマークされ、その不連続属性値はステッ
プ210内で決定され、超矩形内で囲まれている。ステ
ップ226において、終了カットオフ値は、不連続属性
値を含んだ組の総数に基づかれた第2連続属性リストの
それぞれにマークされ、その不連続属性値は、ステップ
210内で決定され、超矩形内に囲まれている。
【0024】ステップ228において、始動コスト平均
値が、Ac個のコスト属性リストの各々に対して始動ポ
インタとカットオフ値との間で、各連続出力値に関して
決定される。ステップ230において、終了コスト平均
値が、第2コスト属性リストの各々に対してカットオフ
値と終了ポインタとの間で、各連続出力値に関して決定
される。ステップ232において、それぞれ連続属性と
平均コスト出力値とを含んだAc 個の連続ヒストグラム
が生成される。平均コスト出力値は、始動コスト平均値
と終了コスト平均値とのうち小さい方である。最終的
に、ステップ234において、各連続ヒストグラムに対
する平均コスト出力値が比較されて、最低平均コスト出
力値を備えた連続属性値を決定する。
【0025】図8は、本発明の更なる一実施の形態に依
るステップ250の剥ぎ取り手順36用の追加方法のス
テップを示している。このプロセスを最適化するため
に、割当コードに基づいて不連続属性リストが分類さ
れ、それによってその不連続属性に従った不連続属性値
をグループ化している。ステップ252において、ステ
ップ240で決定された属性が連続属性であり、始動コ
スト平均値が終了コスト平均値(ステップ254)より
も小さい時に、コスト・フラグは、ステップ256での
始動ポインタと始動カットオフ値との間で、各連続属性
値に対してゼロに設定される。連続属性値のインデック
スを使ってコスト・フラグを参照及び修正する。ステッ
プ258において、始動ポインタを使って始動カットオ
フ値に等しく設定する。ステップ254において、終了
コスト平均値が始動コスト平均値よりも小さい時に、コ
スト・フラグは、終了カットオフ値とステップ260で
の終了ポインタとの間で、各連続属性値に対してゼロに
設定される。連続属性値のインデックスを使ってコスト
・フラグを参照及び修正する。ステップ262におい
て、終了ポインタは、終了カットオフ値に等しく設定さ
れる。ステップ252において、ステップ240内で決
定された属性が不連続属性である時に、コスト・フラグ
は、ステップ240内で決定された属性に等しい各不連
続属性値に対して、ゼロに設定される。不連続属性値の
インデックスを使ってコスト・フラグを参照及び修正す
る。
【0026】図9は、本発明の更なる一実施の形態に依
るステップ300における貼り付け手順42を実行する
追加方法のステップを示している。ステップ310にお
いて、ゼロに設定されたコスト・フラグを持つ各組に対
し、コストカウンタは、超矩形で取り囲まれなかった組
に属する各点に関して増加(インクレメント)される。
コストカウンタを使って、ある点が超矩形の内側か外側
かを決定する。ステップ320において、最高平均コス
ト出力値を持った超矩形で囲まれた点の外側で、不連続
属性値が決定される。ステップ330において、最高平
均コスト出力値を持った超矩形で囲まれた点の外側で、
連続属性値が決定される。ステップ350において、ス
テップ320で決定された最高平均コスト出力値をステ
ップ330で決定された最高平均コスト出力値と比較し
て、最高平均コスト出力値を持った属性を見付ける。最
終的にステップ360において、全ての連続及び不連続
属性値の点に対するコストカウンタが減少(デクリメン
ト)される。その全ての連続及び不連続属性値の点は、
ステップ350で決定された属性を含む組に属してい
る。ゼロに等しいコストカウンタを持つ属性は、超矩形
内に囲まれている。もしそうでなければ、その属性は超
矩形の範囲外である。要するに、コストカウンタを増加
させることによって属性が超矩形から除去されるのに対
し、ゼロに等しくなるようコストカウンタを減少させる
ことによって属性が超矩形に加えられる。ステップ37
0において、超矩形で囲まれた複数の点全体でのコスト
出力値の合計が全コスト出力より小さくなるまで、ステ
ップ310〜ステップ360が繰り返される。この貼り
付け手順は、高い値の点の表示を介してより多くを保証
している。既に述べたように、ステップ320の最高平
均コスト出力値は、複数の不連続ヒストグラムを用いて
算出されている。
【0027】図10は、本発明の更なる一実施の形態に
依るステップ330の最高平均コスト出力値の算出を最
適化する追加方法のステップを示している。ステップ3
32において、Ac個のコスト属性リストの第1行と始
動・ポインタとの間で連続属性値が、減少順序に分類さ
れている。ステップ334において、始動・カットオフ
値はAc個の連続属性リストの各々にマークされる。そ
のAc個の連続属性リストは、ステップ320で決定さ
れ、超矩形内に囲まれた不連続属性値を含んだ組に基づ
いている。ステップ336において、終了・カットオフ
値は第2連続属性リストの各々にマークされ、その第2
連続属性リストは、ステップ320で決定され、超矩形
内に囲まれた不連続属性値を含んだ組に基づいている。
【0028】ステップ338において、始動・コスト平
均値は、Ac個のコスト属性リストの各々に関して始動
・ポインタとカットオフ値との間で、各連続出力値に対
して決定される。ステップ340において、終了・コス
ト平均値は、第2コスト属性リストの各々に関してカッ
トオフ値と終了・ポインタとの間で、各連続出力値に対
して決定される。ステップ342において、各々が連続
属性と平均コスト出力値とを含んだAc個の連続ヒスト
グラムが生成される。平均コスト出力値は始動・コスト
平均値及び終了・コスト平均値よりも大きい。最終的
に、ステップ344において、各連続ヒストグラムに関
する平均コスト出力値が比較されて、最高平均コスト出
力値を持った連続属性値を決定する。
【0029】図11は、本発明の更なる一実施の形態に
依るステップ360の貼り付け手順42に関する追加方
法のステップを示している。このプロセスを最適化する
ために、不連続属性リストは、割り当てられたコードに
基づいて分類され、それによって、その不連続属性に従
った不連続属性値をグループ化している。ステップ36
2において、ステップ350で決定された属性が連続属
性であり、そして始動コスト平均値が終了コスト平均値
(ステップ364)よりも小さい時に、始動ポインタと
ステップ366での始動カットオフ値との間で、各連続
属性値に関するコストカウンタを減少させる。連続属性
値のインデックスを用いてコストカウンタを参照及び修
正する。ステップ368において、始動ポインタは、始
動カットオフ値に等しくなるように設定される。ステッ
プ364において、終了コスト平均値が始動コスト平均
値よりも小さい時に、終了カットオフ値とステップ37
0での終了ポインタとの間で、各連続属性値に関するコ
ストカウンタを減少させる。連続属性値のインデックス
を用いてコストカウンタを参照及び修正する。ステップ
372において、終了ポインタは終了カットオフ値に等
しくなるように設定される。ステップ362において、
ステップ350で決定された属性が不連続属性である時
に、ステップ350で決定された属性に等しい各不連続
属性値に対してコストカウンタを減少させる。不連続属
性値のインデックスを用いてコストカウンタを参照及び
修正する。
【0030】本発明の更なる一実施の形態を、図12及
び図13に関して説明する。図12は、本発明の一実施
の形態に依る並列アーキテクチャコンピュータシステム
400を示している。コンピュータシステムは、バス4
14に結合された複数のプロセッサ412A〜412N
を含んでいる。各プロセッサ412用のランダムアクセ
ス・メモリ(RAM)416と、ハードディスクメモリ
(DISK)418とはバス414にも結合され、複数
のプロセッサ412によってアクセス可能である。ハー
ドディスク418は、後述されるように、本発明にとっ
て必要なプログラム及びデータを格納するように構成さ
れている。未加工データ入力するために、任意のユーザ
インタフェース420が設けられている。一実施の形態
において、入力/出力装置は、キーボード、マウス、及
びモニタを含んでいる。任意のネットワーク・インタフ
ェース(NETWORK I/F)421もまた設けら
れている。未加工データは、様々な種類の方法で、例え
ば、ユーザ・インタフェース420又はネットワーク・
インタフェース421を介して入力可能であることを理
解されたい。
【0031】ハードディスク418は、コンピュータシ
ステム10内にプログラム及びデータを格納するように
構成されている。RAM及びハードディスクを含んだメ
モリは3つの主要成分に分割されている:通信手順42
2、制御手順432、及びデータ452である。通信手
順は、大型ディスク常駐データ・セットを識別し、複数
のプロセッサの間に通信を提供するルーチン424〜4
30を含んでいる。制御手順は、本発明のデータ分析機
能を実行するルーチン434〜450を含んでいる。デ
ータ部分は、関係データ表454のAc個の連続属性リ
ストと不連続属性リストとに対してインデックスを作成
し、そしてメインメモリ(RAM)416内にコスト・
リストと二次元パラメータ462とを格納している。こ
れらのルーチンを以下詳細に説明する。
【0032】本発明の動作を、図13のフローチャート
に関して説明する。本発明の更なる一実施の形態に依る
動作のステップ500のステップ502において、二次
元パラメータ及び関係データ表が受け取られる。上述の
ように、関係データ表はAc個の連続属性、不連続属
性、及びコスト属性を含んでいる。コスト属性は、入力
としての連続属性値と不連続属性値とに基づいたコスト
出力値を表示している。ステップ504において、超矩
形は、多次元空間で囲むことによって形成され、その多
次元空間は、連続属性値及び不連続属性値によって定義
された多次元空間で囲まれている。ステップ506にお
いて、データはAc+2個のリストに分離される。連続
属性値を含んだAc個の連続属性リストと、Ad個の不連
続属性及び不連続属性値を含んだ一つの不連続属性リス
トとを形成するように、各連続属性に対して一つのリス
トを生成する。コスト出力値を含んだコスト属性リスト
はメインメモリ内に格納されている。Ac個の連続属性
リストの各々、不連続属性リスト、及びコスト属性リス
トもまたラベルを含んでいる。ラベルは、それぞれの属
性値が関係データ表内で属する組のインデックスであ
る。そのインデックスによって、連続属性値及び不連続
属性値がそれぞれの組とコスト出力値とを参照可能とな
る。リストも同様に一つのコストカウンタのラベルを含
んでいる。コストカウンタは、既に述べたように、超矩
形内に取り囲まれなかった組における点の個数の総数で
ある。
【0033】ステップ508において、Ac個の連続属
性リストは、コスト属性リストの各行内で連続属性値に
基づいた複数のプロセッサの間に、並列に分類される。
ステップ510において、属性リストは、図14で示さ
れるように、複数のプロセッサを横切るストライプイン
グである(縞状に配列されている)。ステップ512及
びステップ520において、超矩形の縁に沿った複数の
点が、コスト出力値の平均に基づいて、簡約化(コスト
削減)と、複数のプロセッサを備えた一対全ブロードキ
ャストとを使用した複数の点から除去される(剥がされ
る)。当該点は、超矩形内に囲まれた点の総数が二次元
パラメータに等しくなるまで、繰り返して除去される。
最終的にステップ550及びステップ600において、
超矩形によって囲まれた多次元空間全体でのコスト出力
値の合計が、簡約化と、複数のプロセッサを備えた一対
全ブロードキャストとを使って変化するまで、除去され
た不連続属性値の点と、連続属性値の点とが、超空間の
縁に沿って加えられる。
【0034】連続属性用の点における正確な割合を得る
ために、ある同期化ステップを必要とすることもあり得
る。これは、超矩形の内部にもはや存在しない属性リス
ト内で、任意の連続属性値の存在する可能性に依る。並
列コンピュータアーキテクチャの技術分野における当業
者にとって、複数のプロセッサ間の通信及び同期化に関
する詳細は明白であろう。それ故に、本発明の適切な理
解に必要な事項以外はここで記述しないこととする。し
かしながら、全てのプロセッサに関する簡約化ステップ
が実行されて、剥ぎ取り段階の間に特定属性に対する平
均値を得ることができる。剥ぎ取り用に最良属性を選択
することができる。剥ぎ取りを実行した後で、剥ぎ取ら
れたトランザクションIDが各プロセッサに転送される
ので、トランザクションIDがそのメモリ常駐コスト属
性リスト用のタグを更新できる。全てのブロードキャス
トに対して一つのブロードキャストの反対として実行さ
れた従来の簡約化は、並列計算の分野においてよく知ら
れている。(並列計算入門:Vipin Kumar, Ananth Gram
a, Anshul Gupta, 及び, George Karypis著におけるア
ルゴリズムの分析と設計、3章、§3.2)。
【0035】図15は、本発明の更なる一実施の形態に
依るステップ520の剥ぎ取り手順440用の追加方法
のステップを示している。ステップ522において、最
低平均コスト出力値を有する超矩形の縁に沿って、複数
の点で囲まれた不連続属性値が、プロセッサ間の簡約化
を用いて見付けられる。ステップ524において、最低
平均コスト出力値を有する超矩形の縁に沿って、複数の
点で囲まれた連続属性値が、簡約化を用いて見付けられ
る。ステップ526において、ステップ522で決定さ
れた最低平均コスト出力値が、ステップ524で決定さ
れた最低平均コスト出力値と比較されて、最低平均コス
ト出力値を持った属性を決定する。ステップ528にお
いて、ステップ526で決定された属性を含んだ組のう
ち、全ての連続属性値の点と全ての不連続属性値の点と
が、プロセッサの間で一対全ブロードキャストを用いた
超矩形から除去される(剥がされる)。ステップ530
において、超矩形内の点の総数がβ0に等しくなるま
で、ステップ522〜ステップ528が繰り返される。
【0036】最終的に、ステップ532において、全コ
スト出力が算出される。全コスト出力は、超矩形によっ
て囲まれた多次元空間全体でのコスト出力値の合計であ
る。上述の剥ぎ取り手順は、超矩形によって囲まれた点
の個数を最大化するけれども、超矩形で囲まれた点の個
数を同様に最小化することもできる。上述したように、
ステップ520の最低平均コスト出力値は、複数の不連
続ヒストグラムを用いて算出定可能である。
【0037】図16は、本発明の更なる一実施の形態に
依るステップ600の貼り付け手順440を実行するた
めの追加方法のステップを示している。ステップ602
において、ゼロ設定されたコスト・フラグを備えた各組
に対して、超矩形で囲まれなった組に属する各点に関す
るコストカウンタを増加する。ステップ604におい
て、最高平均コスト出力値を有する超矩形で囲まれた点
の範囲外の不連続属性値が、簡約化と、プロセッサ間で
の一対全ブロードキャストとを用いて決定される。ステ
ップ606において、最高平均コスト出力値を有する超
矩形で囲まれた点の範囲外の連続属性値が、簡約化と、
プロセッサ間での一対全ブロードキャストとを使用して
決定される。ステップ608において、ステップ604
で決定された最高平均コスト出力値が、ステップ606
で決定された最高平均コスト出力値と比較されて、最高
平均コスト出力値を備えた属性を見付ける。最終的に、
ステップ610において、ステップ608で決定された
属性を含んだ組に属する全ての連続属性値の点と全ての
不連続属性値の点とに関するコストカウンタが、プロセ
ッサ間での一対全ブロードキャストを使用して減少され
る。ゼロに等しいコストカウンタを持つ属性が超矩形内
で囲まれている。ステップ612において、超矩形で囲
まれた複数の点全体でのコスト出力値の合計が全コスト
出力よりも小さくなるまで、ステップ602〜ステップ
610が繰り返される。この貼り付け手順は高い値の点
の表示を介してより多くを保証している。既に述べたよ
うに、ステップ604の最高平均コスト出力値は複数の
不連続ヒストグラムを用いて算出されている。
【0038】本発明の更なる一実施の形態を、図17及
び図18に関して説明することとする。図17は、本発
明の一実施の形態に依る対称的マルチプロセッサ・コン
ピュータシステム700を示している。対称的マルチプ
ロセッサ(SMP)712はバス714に結合されてい
る。ランダムアクセスメモリ(RAM)716と共用ハ
ードディスクメモリ(SHARED DISK)717
とはバス714にも結合されている。共用ディスク71
7は、対称的マルチプロセッサ712によってアクセス
可能な複数の部分に分割されている。以下に説明するよ
うに、メインメモリ(RAM)716は本発明に必要な
プログラムとデータとを格納するように構成されてい
る。任意のユーザ・インタフェース720は、未加工デ
ータ入力のために設けられている。一実施の形態におい
て、入力/出力装置はキーボード、マウス、及びモニタ
を含んでいる。任意のネットワーク・インタフェース
(NETWORK I/F)721もまた設けられてい
る。未加工データが種々異なる方法で、例えばユーザ・
インタフェース720又はネットワーク・インタフェー
ス721を介して、入力可能であることを理解された
い。
【0039】ハードディスク(DISK)718は、コ
ンピュータシステム700内にプログラム及びデータを
格納するように構成されている。RAM及びハードディ
スクを含んだメモリは3つの主要成分に分割されてい
る:通信手順722、制御手順732、及び、データ7
52である。通信手順は、大型ディスク常駐データ・セ
ットを識別し、そして通信を対称的マルチプロセッサ7
12に設けるためのルーチン724〜730を含んでい
る。制御手順は、本発明のデータ分析機能を実行するル
ーチン735〜754を含んでいる。データ部分は、関
係データ表754のうちAc個の連続属性リストと一つ
の不連続属性リストとに対してインデックスを作成し、
そしてメインメモリ(RAM)716内にコストリスト
と二次元パラメータ762とを格納している。これらの
ルーチンを以下詳細に説明する。
【0040】本発明の動作を、図18のフローチャート
に関して説明する。本発明の更なる一実施の形態に依る
動作のステップ800のステップ802において、二次
元パラメータと関係データ表とを受け取る。上述したよ
うに、関係データ表はAc 個の連続属性、不連続属性、
及びコスト属性を含んでいる。コスト属性は、入力とし
ての連続属性値と不連続属性値とに基づいたコスト出力
値を表示している。ステップ804において、超矩形
は、連続属性値と不連続属性値とで形成された多次元空
間を囲むことによって、定義される。ステップ806に
おいて、データは、Ac+2個のリストに分離される。
1つのリストは各々の連続属性用に生成されて、Ac
の連続属性リストと一つの不連続属性とを形成する。A
c 個の連続属性リストは連続属性値を含み、そして一つ
の不連続属性値は、Ad 個の不連続属性と不連続属性値
とを含んでいる。コスト出力値を含んだ一つのコスト属
性リストは、メインメモリ内に格納されている。Ac
の連続属性リストのそれぞれ、不連続属性リスト、及び
コスト属性リストもまたはラベルを含んでいる。ラベル
は、それぞれの属性値が関係データ表内に属した組のイ
ンデックスである。インデックスによって、連続属性値
及び不連続属性値がそれぞれの組とコスト出力値とを参
照可能にしている。リストもまた一つのコストカウンタ
のラベルを含んでいる。コストカウンタは、既に述べた
ように、超矩形内に囲まれなかった組における点の個数
の総数である。
【0041】ステップ808において、Ac 個の連続属
性リストは、コスト属性リストの各行の中で連続属性値
に基づいた複数の共有ディスク部の間に、並列に分類さ
れる。ステップ810において、属性リストは、図14
に示すように、複数の共有ディスク部を横切ったストラ
イプである。ステップ812及びステップ820におい
て、超矩形の縁に沿って複数の点が、簡約化と、対称的
マルチプロセッサ内で一対全ブロードキャストとを使用
した複数の点から、コスト出力値の平均に基づいて、除
去される(剥がされる)。当該点は、超矩形に囲まれた
点の総数が二次元パラメータに等しくなるまで、繰り返
して除去される。最終的にステップ850及びステップ
900において、超矩形によって囲まれた多次元空間全
体でのコスト出力値の合計が、簡約化と、対称的マルチ
プロセッサ内で一対全ブロードキャストとを使用して変
化するまで、除去された不連続属性値の値と、連続属性
値の点とが、超矩形の縁に沿って加えられる(貼り付け
られる)。
【0042】図19は、本発明の更なる一実施の形態に
依るステップ820の剥ぎ取り手順740用の追加方法
のステップを示している。ステップ822において、最
低平均コスト出力値を持つ超矩形の縁に沿って複数の点
の内部で囲まれた不連続属性値が、対称的マルチプロセ
ッサ内での簡約化を使用して、見付けられる。ステップ
824において、最低平均コスト出力値を持つ超矩形の
縁に沿って複数の点で囲まれた連続属性値が、簡約化を
用いて見付けられる。ステップ826において、ステッ
プ822で決定された最低平均コスト出力値が、ステッ
プ824で決定された最低平均コスト出力値と比較さ
れ、最低平均コスト出力値を有する属性を決定する。ス
テップ828において、ステップ826で決定された属
性を含んだ組のうち、全ての連続属性値の点と全ての不
連続属性値の点とが、対称的マルチプロセッサ内で一対
全ブロードキャストを用いて、超矩形から除去される
(剥がされる)。ステップ830において、超矩形内の
点の総数がβ0に等しくなるまで、ステップ822〜ス
テップ828が繰り返される。最終的に、ステップ83
2において、全コスト出力が上述のように算出される。
上述されたように、ステップ820の最低平均コスト出
力値は、複数の不連続ヒストグラムを用いて計算可能で
ある。
【0043】図20は、本発明の更なる一実施の形態に
依るステップ900の貼り付け手順746を実行する追
加方法のステップを示している。ステップ902におい
て、ゼロ設定されたコスト・フラグを備えた各組に対し
て、対称的マルチプロセッサでの一対全ブロードキャス
トを使って、超矩形内に囲まれなかった組に属する各点
に対するコストカウンタを増加させる。ステップ904
において、最高平均コスト出力値を持つ超矩形内に囲ま
れた点の範囲外に不連続属性値が、簡約化と、対称的マ
ルチプロセッサ内での一対全ブロードキャストとを用い
て決定される。ステップ906において、最高平均コス
ト出力値を持つ超矩形で囲まれた点の範囲外に連続属性
値が、簡約化と、対称的マルチプロセッサ内での一対全
ブロードキャストを使用して決定される。ステップ90
8において、ステップ904で決定された最高平均コス
ト出力値が、ステップ906で決定された最高平均コス
ト出力値と比較されて、最高平均コスト出力値を持つ属
性を見付ける。最終的に、ステップ910において、ス
テップ908で決定された属性を含んだ組に属する全て
の連続属性値の点と全ての不連続属性値の点と対するコ
ストカウンタが、対称的マルチプロセッサ内での一対全
ブロードキャストを使用して減少される。ゼロに等しい
コストカウンタを持つ属性が、超矩形内に囲まれてい
る。ステップ912において、超矩形によって囲まれた
複数の点全体でのコスト出力値の合計が、全コスト出力
よりも小さくなるまで、ステップ902〜ステップ91
0が繰り返される。この貼り付け手順は、高い値の点の
表示を介してより多くを保証している。上述したよう
に、ステップ904の最高平均コスト出力値は複数の不
連続ヒストグラムを用いて算出されている。
【0044】特定の構成に関して典型的実施の形態を説
明した。当該技術分野における当業者は、特許請求項の
範囲内にとどまる限り、種々の変更及び変形が可能であ
ることを理解するだろう。理解されることは、本発明の
様々な実施の形態における非常に多くの特徴及び利点
が、本発明の様々な実施の形態における構造及び機能に
ついての詳細と共に、先の記載で説明されたけれども、
本発明の開示が例示に過ぎず、変形が詳細に、特に、添
付された特許請求の範囲で表現された用語の幅広い一般
的な意味によって十分な程度に示された本発明の原理内
での構造と部材の配列とに関してなされるだろう。
【0045】例えば、特許請求の範囲から逸脱すること
なく、従来のコンピュータを備えた本発明を実用するこ
とは本発明の意図に含まれる。更に、本発明を教示する
ことは、入力値の多次元空間全体での幾らかの出力値を
最大化することに、限定されるものではない。本発明
は、特許請求の範囲から逸脱することなく、多次元空間
全体でのある入力値を最小化することによって、実行可
能である。
【0046】本発明は、公知技術よりも多くの利点を提
供している。本発明は、データ・セットをメインメモリ
にロードする必要なしに、大型ディスク常駐データ・セ
ットを分析する能力を含んでいる。更に、本発明は、並
列コンピュータアーキテクチャ又は対称的マルチプロセ
ッサ・アーキテクチャで利用されて、性能を向上でき
る。その上、本発明のメモリ要件は、最大化又は最小化
されるために、探し求められたコスト属性のサイズによ
ってのみ制限される。
【0047】典型的な実施の形態と最良の態様とを開示
したけれども、特許請求の範囲によって定義された範囲
内にとどまる限り、開示された実施の形態に対して変更
及び変形を行うことが可能である。
【0048】
【発明の効果】以上説明したように、本発明は、データ
・セットをメインメモリにロードする必要なしに、大型
ディスク常駐データ・セットを分析する能力を含んでい
る。更に、本発明は、並列コンピュータアーキテクチャ
又は対称的マルチプロセッサ・アーキテクチャで利用さ
れて、性能を向上できる。その上、本発明のメモリ要件
は、最大化又は最小化されるために、探し求められたコ
スト属性のサイズによってのみ制限される。
【図面の簡単な説明】
【図1】従来のSLIQと比較されるように、本発明の
方法を使って決定された超矩形を表示するプロットを示
す図である。
【図2】小さなデータ・セットの分析のため患者規則導
入法によって用いられたデータ構造を示す図である。
【図3】本発明の一実施の形態に依るコンピュータシス
テムを示す図である。
【図4】本発明の一実施の形態に依る本発明の動作を示
すフローチャートである。
【図5】本発明の更なる一実施の形態に依る超矩形を定
義する追加的方法のステップを示す図である。
【図6】本発明の更なる一実施の形態に依る剥ぎ取り手
順に関する追加的方法のステップを示す図である。
【図7】本発明の更なる一実施の形態に依る最低平均コ
スト出力値の算出を最適化する追加的方法のステップを
示す図である。
【図8】本発明の更なる一実施の形態に依る剥ぎ取り手
順に関する追加的方法のステップを示す図である。
【図9】本発明の更なる一実施の形態に依る貼り付け手
順を実行する追加的方法のステップを示す図である。
【図10】本発明の更なる一実施の形態に依る最高平均
コスト出力値の算出を最適化する追加的方法のステップ
を示す図である。
【図11】本発明の更なる一実施の形態に依る貼り付け
手順に関する追加的方法のステップを示す図である。
【図12】本発明の一実施の形態に依る並列コンピュー
タ・アーキテクチャを示す図である。
【図13】並列コンピュータ・アーキテクチャにおける
患者規則導入法の動作を示すフローチャートである。
【図14】本発明の一実施の形態に依るストライピング
(縞状に配列)を用いた複数のプロセッサ間でのデータ
再配分を示す図である。
【図15】本発明の更なる一実施の形態に依る剥ぎ取り
手順を実行する追加的方法のステップを示す図である。
【図16】本発明の更なる一実施の形態に依る貼り付け
手順を実行する追加的方法のステップを示す図である。
【図17】本発明の一実施の形態に依る対称的マルチプ
ロセッサ・コンピュータシステムを示す図である。
【図18】対称的マルチプロセッサ・コンピュータアー
キテクチャにおける患者規則導入法の動作を示すフロー
チャートである。
【図19】本発明の更なる一実施の形態に依る剥ぎ取り
手順を実行する追加的方法のステップを示す図である。
【図20】本発明の更なる一実施の形態に依る貼り付け
手順を実行する追加的方法のステップを示す図である。
【符号の説明】
10 コンピュータシステム 12 プロセッサ 14 バス 16 ランダムアクセス・メモリ 18 ハードディスク・メモリ 20 ユーザ・インタフェース 21 ネットワーク・インタフェース 22 通信手順 24 データベース入出力 26 ユーザ入出力 28 制御手順 30 初期化手順 32 データ区分け手順 34 データ格納手順 35 超矩形手順 36 剥ぎ取り手順 38 ヒストグラム生成手順 40 超矩形手順 42 張り付け手順 44 ヒストグラム生成手順 46 超矩形手順 48 データ 50 関係データ表 52 連続属性 54 不連続属性 56 コスト属性 58 二次元パラメータ 102 超矩形領域 104a 小さくてばらばらな領域 104b 小さくてばらばらな領域 400 並列アーキテクチャ・コンピュータ 412A,…,412N プロセッサ 414 バス 416A,…,416N ランダムアクセス・メモリ 418 ハードディスク・メモリ 420 ユーザ・インタフェース 421 ネットワーク・インタフェース 422 通信手順 424 データベース入出力 426 ユーザ入出力 428 簡約化手順 430 一対全ブロードキャスト手順 432 制御手順 434 初期化手順 435 データ分配手順 436 データ格納手順 438 超矩形手順 440 剥ぎ取り手順 442 ヒストグラム生成手順 444 超矩形手順 446 張り付け手順 448 ヒストグラム生成手順 450 超矩形手順 452 データ 454 関係データ表 456 連続属性 458 不連続属性 460 コスト属性 462 二次元パラメータ 700 対称的マルチプロセッサ・コンピュータシス
テム 712 対称的マルチプロセッサ 714 バス 716 ランダムアクセス・メモリ 717 共有ハードディスク・メモリ 718 ハードディスク 720 ユーザ・インタフェース 721 ネットワーク・インタフェース 722 通信手順 724 データベース入出力 726 ユーザ入出力 728 簡約化手順 730 一対全ブロードキャスト手順 732 制御手順 734 初期化手順 735 データ分配手順 736 データ格納手順 738 超矩形手順 740 剥ぎ取り手順 742 ヒストグラム生成手順 744 超矩形手順 746 貼り付け手順 748 ヒストグラム生成手順 750 超矩形手順 752 データ 754 関係データ表 756 連続属性 758 不連続属性 760 コスト属性 762 二次元パラメータ
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06F 19/00 130 G06F 19/00 130 (54)【発明の名称】 コンピュータシステム内、並列アーキテクチャ・コンピュータ内、及び、対称的マルチプロセッ サ・アーキテクチャ・コンピュータ内で患者導入規則法を用いて大型ディスク常駐データ・セッ トを分析する方法

Claims (19)

    【特許請求の範囲】
  1. 【請求項1】 大型ディスク常駐データ・セットを有す
    るコンピュータシステム内で、患者規則導入法(PRI
    M)を用いて前記ディスク常駐データ・セットを分析す
    る方法であって、 前記方法が、 (a)連続属性、不連続属性、及び、コスト属性を備え
    た関係データ表と、二次元パラメータとを受け取り、前
    記コスト属性が入力として連続属性値及び不連続属性値
    に基づいたコスト出力値を表示するステップと、 (b)前記連続属性値と前記不連続属性値とによって定
    義された多次元空間を囲む超矩形を形成し、前記連続属
    性値と前記不連続属性値とを前記多次元空間内で点とし
    て表示するステップと、 (c)前記コスト出力値の平均に基づいた前記超矩形に
    沿って複数の点を、前記超矩形内に囲まれた前記点の総
    数が前記二次元パラメータに等しくなるまで、前記複数
    の点から除去するステップと、 (d)前記超矩形によって囲まれた前記多次元空間全体
    での前記コスト出力値の合計が変化するまで、前記超矩
    形の縁に沿って除去された不連続属性値の点と、前記連
    続属性値の点とを加えるステップとを有することを特徴
    とするコンピュータシステム内で患者導入規則法を用い
    て大型ディスク常駐データ・セットを分析する方法。
  2. 【請求項2】 請求項1記載の方法において、 前記連続属性がAc 個の連続属性であり、前記不連続属
    性がAd 個の不連続属性であり、前記二次元パラメータ
    がβ0 であり、 ステップ(b)が、 (b)(i)前記データをAc +2個のリストに分離
    し、各連続属性に対してリストを生成して、各々の連続
    属性が前記連続属性値を含んだAc 個の連続属性リスト
    と、前記Ad 個の不連続属性及び前記不連続属性値を含
    んだ不連続属性リストと、前記コスト出力値を含んだコ
    スト属性リストとを形成するようにするステップと、 (b)(ii)前記Ac 個の連続属性リストのそれぞれ
    と、前記不連続属性リストと、前記コスト属性リストと
    にラベルを加え、前記ラベルが、前記関係データ表内で
    各々の属性値を含む組のインデックスであるようにする
    ステップと、 (b)(iii)前記Ac 個の連続属性リストの各行内
    に、一つの連続属性値に基づいた前記Ac 個の連続属性
    リストを分類するステップと、 (b)(iv)前記コスト出力値を含んだ前記組が前記
    超矩形内に囲まれるか否かを表示すると共に、初期値が
    1に設定されるコスト・フラグであるラベルを、前記コ
    スト・リストに加えるステップとを更に有することを特
    徴とするコンピュータシステム内で患者導入規則法を用
    いて大型ディスク常駐データ・セットを分析する方法。
  3. 【請求項3】 請求項2記載の方法において、 ステップ(c)が、 (c)(i)最低平均コスト出力値を持つ前記超矩形の
    縁に沿って前記複数の点内に囲まれた前記不連続属性値
    を決定するステップと、 (c)(ii)最低平均コスト出力値を持つ前記超矩形
    の縁に沿って前記複数の点内に囲まれた前記連続属性値
    を決定するステップと、 (c)(iii)ステップ(c)(i)で決定された最
    低平均コスト出力値と、ステップ(c)(ii)で決定
    された最低平均コスト出力値とを比較して、前記最低平
    均コスト出力値を持つ属性を決定するステップと、 (c)(iv)ステップ(c)(iii)で決定された
    前記属性を含む前記組における全ての連続属性値の点と
    全ての不連続属性値の点とを、前記超矩形から除去する
    ステップと、 (c)(v)前記超矩形内の前記点の総数がβ0に等し
    くなるまで、ステップ(c)(i)からステップ(c)
    (iv)を繰り返すステップとを更に有することを特徴
    とするコンピュータシステム内で患者導入規則法を用い
    て大型ディスク常駐データ・セットを分析する方法。
  4. 【請求項4】 請求項3記載の方法において、 ステップ(c)(i)が、 1)Ad 個の不連続ヒストグラムと、前記不連続属性値
    を含んだ各不連続属性に対して1と、前記不連続属性値
    を含んだ各組に対して前記コスト出力値の平均とを生成
    するステップと、 2)各不連続属性値に対して前記平均のコスト出力値を
    比較して、前記最低平均コスト出力値を持つ前記不連続
    属性値を決定するステップとを更に有することを特徴と
    する患者導入規則法を用いてコンピュータシステム内で
    大型ディスク常駐データ・セットを分析する方法。
  5. 【請求項5】 請求項4記載の方法において、 ステップ1)が、一つのコードを前記不連続属性リスト
    に割り当て、ステップ(c)を最適化するため前記割り
    当てたコードに基づいて前記不連続属性リストを分類
    し、前記不連続属性値がその不連続属性に従って一緒に
    基礎となるようにするステップを更に含むことを特徴と
    するコンピュータシステム内で患者導入規則法を用いて
    大型ディスク常駐データ・セットを分析する方法。
  6. 【請求項6】 請求項3記載の方法において、 各連続属性リストが、始動ポインタを各連続属性リスト
    内の第1行に向けた状態で増加順序に分類され、第2連
    続属性リストが、終了ポインタを各第2連続属性リスト
    内の第1行に向けた状態で減少順序に分類され、 ステップ(c)(ii)が、 1)ステップ(c)(i)で決定され、前記超矩形内に
    囲まれた不連続属性値を含んだ組の総数に基づいたAc
    個の連続属性リストの各々内に、始動カットオフ値をマ
    ークするステップと、 2)ステップ(c)(i)で決定され、前記超矩形内に
    囲まれた不連続属性値を含んだ組の前記総数に基づいた
    前記第2連続属性リストの各々内に、終了カットオフ値
    をマークするステップと、 3)前記Ac 個の連続属性リストの各々に対して前記始
    動ポインタと前記カットオフ値との間で、各連続出力値
    に関する始動コスト平均値を決定するステップと、 4)前記第2コスト属性の各々に対して前記カットオフ
    値と前記終了ポインタとの間で、各連続出力値に関する
    終了コスト平均値を決定するステップと、 5)前記連続属性及び前記平均コスト出力値をそれぞれ
    含むAc 個の連続ヒストグラムを生成し、前記連続属性
    及び前記平均コスト出力値が、前記始動コスト平均値と
    前記終了コスト平均値とのうち小さい方であるようにす
    るステップと、 6)各連続ヒストグラムに対して前記平均コスト出力値
    を比較して、前記最低平均コスト出力値を持つ前記連続
    属性値を決定するステップとを更に含むことを特徴とす
    るコンピュータシステム内で患者導入規則法を用いて大
    型ディスク常駐データ・セットを分析する方法。
  7. 【請求項7】 請求項6記載の方法において、 前記不連続属性リストが、割り当てられたコードに基づ
    いて分類され、それによってその不連続属性に従った前
    記不連続属性をグループ化し、 ステップ(c)(iv)が、 ステップ(c)(iii)で決定された前記属性が連続
    属性である場合に、 1)前記始動コスト平均値が前記終了コスト平均値より
    も小さい時に、前記連続属性値の前記インデックスを使
    用した前記始動ポインタと前記始動カットオフ値との間
    で、各連続属性値に対して前記コスト・フラグをゼロに
    等しく設定して、前記コスト・フラグを参照するステッ
    プと、 2)前記始動ポインタを前記始動カットオフ値に等しく
    設定するステップと、 3)前記終了コスト平均値が前記始動コスト平均値より
    も小さい時に、前記連続属性値の前記インデックスを使
    用した前記終了カットオフ値と前記終了ポインタの間で
    各連続属性値に対して前記コスト・フラグをゼロに等し
    く設定するステップと、 4)前記終了ポインタを前記終了カットオフ値に等しく
    設定するステップと、 ステップ(c)(iii)で決定された前記属性が不連
    続属性である場合に、 5)前記不連続属性値の前記インデックスを使用して、
    ステップ(c)(iii)で決定された前記属性に等し
    い各不連続属性値に関する前記コスト・フラグをゼロに
    等しく設定し、前記コスト・フラグを参照するステップ
    とを更に含むことを特徴とするコンピュータシステム内
    で患者導入規則法を用いて大型ディスク常駐データ・セ
    ットを分析する方法。
  8. 【請求項8】 請求項2記載の方法において、 全コスト出力が、ステップ(c)に従う超矩形によって
    囲まれた多次元空間全体での前記コスト出力値の合計で
    あり、前記コスト属性リストがコストカウンタを含み、 ステップ(d)が、 (d)(i)ゼロに設定された前記コスト・フラグを持
    つ各組に対して、前記超矩形に取り囲まれなかった組に
    属する各点に関して前記コストカウンタを増加するステ
    ップと、 (d)(ii)最高平均コスト出力値を持つ前記超矩形
    に囲まれた点の範囲外で前記不連続属性値を決定するス
    テップと、 (d)(iii)最高平均コスト出力値を持つ前記超矩
    形に囲まれた点の範囲外で前記連続属性値を決定するス
    テップと、 (d)(iv)ステップ(d)(ii)で決定された前
    記最高平均コスト出力値とステップ(d)(iii)で
    決定された前記最高平均コスト出力値とを比較して、前
    記最高平均コスト出力値を持つ属性を決定するステップ
    と、 (d)(v)ステップ(d)(iv)で決定された前記
    属性を含んだ前記組に属する全ての連続属性値の点と全
    ての不連続属性値の点とに対して前記コストカウンタを
    減少させ、ゼロに等しい前記コストカウンタを持つ前記
    属性が前記超矩形内に囲まれるようにするステップと、 (d)(vi)前記超矩形に囲まれた前記複数の点全体
    での前記コスト出力値の合計が前記全コスト出力よりも
    小さくなるまで、ステップ(d)(i)からステップ
    (d)(v)を繰り返すステップとを更に含むことを特
    徴とするコンピュータシステム内で患者導入規則法を用
    いて大型ディスク常駐データ・セットを分析する方法。
  9. 【請求項9】 請求項8記載の方法において、 ステップ(d)(ii)が、 1)Ad 個の不連続ヒストグラム、前記不連続属性値を
    含んだ各不連続属性に対して1、及び、前記不連続属性
    値を含んだ各組に対して前記コスト出力値の平均を生成
    するステップと、 2)各不連続属性値に対して前記平均コスト出力値を比
    較して、前記最高平均コスト出力値を持つ前記不連続属
    性値を決定するステップとを更に含むことを特徴とする
    コンピュータシステム内で患者導入規則法を用いて大型
    ディスク常駐データ・セットを分析する方法。
  10. 【請求項10】 請求項8記載の方法において、 前記Ac 個の連続属性リストが増加順序に分類され、そ
    の各々が始動ポインタと終了ポインタとを含み、両ポイ
    ンタの間の前記連続属性リストが、前記超矩形内に囲ま
    れるようにし、 ステップ(d)(iii)が、 1)前記Ac 個の連続属性リスト内の前記連続属性リス
    トを、前記Ac 個の連続属性リスト内の第1行と前記始
    動ポインタとの間で減少順序に分類するステップと、 2)ステップ(d)(ii)で決定され、前記超矩形内
    に囲まれた前記不連続属性値を含む組の総数に基づいた
    c 個の連続属性リストの各々に、始動カットオフ値を
    マークするステップと、 3)ステップ(d)(ii)で決定され、前記超矩形内
    に囲まれた前記不連続属性値を含む組の総数に基づいた
    c 個の連続属性リストの各々に、終了カットオフ値を
    マークするステップと、 4)前記Ac 個の連続属性リストの各々に関して前記始
    動ポインタと前記カットオフ値との間で、各連続出力値
    に対する始動コスト平均値を決定するステップと、 5)前記Ac 個の連続属性リストの各々に関して前記終
    了ポインタと前記カットオフ値との間で、各連続出力値
    に対する終了コスト平均値を決定するステップと、 6)前記連続属性及び前記平均コスト出力値をそれぞれ
    含むAc 個の連続ヒストグラムを生成し、前記平均コス
    ト出力値が前記始動コスト平均値と前記終了コスト平均
    値とのうち大きい方であるようにするステップと、 7)各連続ヒストグラム用の前記平均コスト出力値を比
    較して、前記最高平均コスト出力値を持つ前記連続属性
    値を決定するステップとを更に含むことを特徴とするコ
    ンピュータシステム内で患者導入規則法を用いて大型デ
    ィスク常駐データ・セットを分析する方法。
  11. 【請求項11】 請求項10記載の方法において、 前記不連続属性リストが、割り当てられたコードに基づ
    いて分類され、それによってその不連続属性に従った前
    記不連続属性値をグループ化し、 ステップ(d)(v)が、ステップ(d)(iv)で決
    定された前記属性が連続属性である場合に、 1)前記始動コスト平均値が前記終了コスト平均値より
    も小さい時、前記連続属性値のインデックスを使用した
    前記始動カットオフ値と前記始動ポインタとの間で、各
    連続属性値に関する前記コストカウンタを減少させて、
    前記コストカウンタを参照するステップと、 2)前記始動ポインタを始動カットオフ値に等しく設定
    するステップと、ステップ(d)(iv)で決定された
    前記属性が不連続属性である場合に、 3)ステップ(d)(iv)で決定された前記属性に等
    しい各不連続属性値に関する前記コストカウンタを減少
    させ、前記不連続属性値の前記インデックスを使用して
    前記コストカウンタを参照するステップとを更に有する
    ことを特徴とするコンピュータシステム内で患者導入規
    則法を用いて大型ディスク常駐データ・セットを分析す
    る方法。
  12. 【請求項12】 大型ディスク常駐データ・セットを有
    する並列アーキテクチャ・コンピュータシステム内で、
    患者規則導入法(PRIM)を用いて前記ディスク常駐
    データ・セットを並列に分析する方法であって、 前記方法が、 (a)Ac 個の連続属性、Ad 個の分連続属性、二次元
    パラメータβ0 、及び、コスト属性から成るデータの関
    係表を受け取り、前記コスト属性が入力としての連続属
    性値と不連続属性値とに基づいたコスト出力値を表示す
    るステップと、 (b)前記連続属性値と前記不連続属性値とによって定
    義された多次元空間を囲んだ超矩形を形成し、前記連続
    属性値と前記不連続属性値とが多次元空間内の点として
    表示されるようにするステップと、 (c)前記データをAc +2個のリストに分離し、各連
    続属性に関して1つのリストを生成して、前記連続属性
    値を含んだAc 個の連続属性リストと、Ad 個の不連続
    属性及び不連続属性値を含んだ不連続属性リストと、前
    記コスト出力値を含んだコスト属性リストとを形成する
    ようにするステップと、 (d)前記Ac 個の連続属性リストの各行内で一つの連
    続属性値に基づいた複数のプロセッサ間に並列にAc
    の連続属性リストを分類するステップと、 (e)前記コスト属性リストのコピーをそれぞれ含んだ
    複数のプロセッサを横切って前記Ac 個の連続属性リス
    トと前記不連続属性リストとをストライピングするステ
    ップと、 (f)簡約化と、前記コスト出力値の平均に基づいた一
    対全ブロードキャストとを使って、前記超矩形の縁に沿
    って複数の点を、前記超矩形内に囲まれた前記点の総数
    が前記二次元パラメータに等しくなるまで前記複数の点
    から除去するステップと、 (g)簡約化と、一対全ブロードキャストとを用いた前
    記超矩形によって囲まれた前記超矩形の縁に沿って、除
    去された不連続属性値の点、及び前記連続属性値の点
    を、前記超矩形によって囲まれた多次元空間全体での前
    記コスト出力値の合計が変化するまで、加えるステップ
    とを更に含むことを特徴とする並列アーキテクチャ・コ
    ンピュータシステム内で患者導入規則法を用いて大型デ
    ィスク常駐データ・セットを並列に分析する方法。
  13. 【請求項13】 請求項12記載の方法であって、 ステップ(c)が、 (c)(i)前記各属性が前記関係データ表内で属する
    組のインデックスであるようなラベルを、前記Ac 個の
    連続属性リストの各々と前記不連続属性リストと前記コ
    スト属性リストとに加えるステップと、 (c)(ii)前記出力値を含む前記組が前記超矩形内
    に囲まれたか否かを表示し、初期値を1に設定するコス
    ト・フラグであるようなラベルを、前記コストリストに
    加えるステップとを更に有することを特徴とする並列ア
    ーキテクチャ・コンピュータシステム内で患者導入規則
    法を用いて大型ディスク常駐データ・セットを並列に分
    析する方法。
  14. 【請求項14】 請求項13記載の方法において、 ステップ(f)が、 (f)(i)簡約化を使用して、最低平均コスト出力値
    を持つ前記超矩形の縁に沿って複数の点内に囲まれた前
    記不連続属性値を決定するステップと、 (f)(ii)簡約化を使用して、最低平均コスト出力
    値を持つ前記超矩形の縁に沿って複数の点内に囲まれた
    前記連続属性値を決定するステップと、 (f)(iii)ステップ(f)(i)で決定された前
    記最低平均コスト出力値と、ステップ(f)(ii)で
    決定された前記最低平均コスト出力値とを比較して、前
    記最低平均コスト出力値を持つ属性を決定するステップ
    と、 (f)(iv)前記属性の前記インデックスを使用し
    て、前記コスト・フラグをゼロに設定することによって
    前記超矩形から、ステップ(c)(iii)で決定され
    た前記属性を含む前記組のうち全ての連続属性値の点と
    全ての不連続属性値の点とを除去して、一対全ブロード
    キャストを使った前記複数のプロセッサの各々内に含ま
    れた前記コスト・リスト内の前記コスト・フラグを参照
    するステップと、 (f)(v)前記超矩形内の点の前記総数がβ0 に等し
    くなるまで、ステップ(f)(i)から(f)(iv)
    を繰り返すステップとを更に有することを特徴とする並
    列アーキテクチャ・コンピュータシステム内で患者導入
    規則法を用いて大型ディスク常駐データ・セットを並列
    に分析する方法。
  15. 【請求項15】 請求項14記載の方法において、 全コスト出力が、ステップ(f)に従う前記超矩形によ
    って囲まれた多次元空間全体での前記コスト出力値の合
    計であり、前記コスト属性リストがコストカウンタを含
    み、 ステップ(g)が、 (g)(i)ゼロに設定された前記コスト・フラグを持
    つ各組に対して、前記複数のプロセッサの各々の間に、
    前記超矩形内に取り囲まれなかった前記組に属する各点
    に関する前記コストカウンタを増加させるステップと、 (g)(ii)簡約化を用いて、最高平均コスト出力値
    を持つ前記超矩形で囲まれた点の範囲外で前記不連続属
    性値を決定するステップと、 (g)(iii)簡約化を用いて、最高平均コスト出力
    値を持つ前記超矩形に囲まれた点の範囲外で前記連続属
    性値を決定するステップと、 (g)(iv)ステップ(g)(ii)で決定された前
    記最高平均コスト出力値とステップ(g)(iii)で
    決定された前記最高平均コスト出力値とを比較し、どの
    属性が前記最高平均コスト出力値を持つかを決定するス
    テップと、 (g)(v)ステップ(g)(iv)で決定された前記
    属性を含む前記組に属する全ての連続属性値の点と全て
    の不連続属性値の点とに関する前記コストカウンタを減
    少させ、前記属性の前記インデックスを使って、一対全
    ブロードキャストを用いた前記複数のプロセッサの各々
    内に含んだ前記コスト・リスト内の前記コスト・フラグ
    を参照し、ゼロに設定された前記コストカウンタを持つ
    属性が前記超矩形内に囲まれるようにするステップと、 (g)(vi)前記超矩形内に囲まれた前記複数の点全
    体での前記コスト出力値の合計が前記全コスト出力より
    も少なくなるまで、ステップ(g)(i)からステップ
    (g)(v)を繰り返すステップとを更に有することを
    特徴とする並列アーキテクチャ・コンピュータシステム
    内で患者導入規則法を用いて大型ディスク常駐データ・
    セットを並列に分析する方法。
  16. 【請求項16】 大型ディスク常駐データ・セットを有
    する対称的マルチプロセッサ・アーキテクチャ・コンピ
    ュータシステム内で、患者規則導入法(PRIM)を使
    用して、前記ディスク常駐データ・セットを並列に分析
    する方法であって、 前記方法が、 (a)Ac 個の連続属性、Ad 個の不連続属性、二次元
    パラメータβ0 、及び、コスト属性を受け取って、前記
    コスト属性が、入力として連続属性値及び不連続属性値
    に基づいたコスト出力値を表示するステップと、 (b)前記連続属性値と前記不連続属性値とによって定
    義された多次元空間を囲む超矩形を形成し、前記連続属
    性値と前記不連続属性値とが多次元空間内で点として表
    示されるようにするステップと、 (c)前記データをAc +2個のリストに分離し、各連
    続属性に対してリストを生成し、前記連続属性値を含ん
    だAc 個の連続属性リストと、Ad 個の不連続属性及び
    不連続属性値を含んだ不連続属性リストと、前記コスト
    出力値を含んだコスト属性リストとを形成するようにす
    るステップと、 (d)Ac 個の連続属性リストの各行内に、連続属性値
    に基づいた前記Ac 個の連続属性リストを並行に分類す
    るステップと、 (e)共有ディスクにおける複数の部分の全体でAc
    の連続属性リストと前記不連続属性リストとをストライ
    ピングし、前記共有ディスクの各部分が前記コスト属性
    リストのコピーを含ませるようにするステップと、 (f)前記超矩形内に囲まれた前記点の総数が二次元パ
    ラメータに等しくなるまで、簡約化と、前記コスト出力
    値の平均に基づいた一対全ブロードキャストとを用い
    て、前記超矩形の縁に沿って複数の点を、前記複数の点
    から除去するステップと、 (g)前記超矩形によって囲まれた前記多次元空間全体
    での前記コスト出力値の合計が変化するまで、簡約化
    と、一対全ブロードキャストとを用いて、前記超矩形の
    前記縁に沿って、除去された不連続属性値の点と連続属
    性値の点とを加えるステップとを有することを特徴とす
    る対称的マルチプロセッサ・アーキテクチャ・コンピュ
    ータ内で患者導入規則法を用いて大型ディスク常駐デー
    タ・セットを並列に分析する方法。
  17. 【請求項17】 請求項16記載の方法において、 ステップ(c)が、 (c)(i)前記Ac 個の連続属性リストの各々と、前
    記不連続属性リストと、前記コスト属性リストとに、前
    記各々の属性が前記関係データ表内に属する組のインデ
    ックスであるようなラベルを加えるステップと、 (c)(ii)前記出力値を含んだ前記組が前記超矩形
    内に囲まれたか否かを表示し、最初に1に設定されるコ
    スト・フラグであるようなラベルに、前記コスト・リス
    トを加えるステップとを更に有することを特徴とする対
    称的マルチプロセッサ・アーキテクチャ・コンピュータ
    内で患者導入規則法を用いて大型ディスク常駐データ・
    セットを並列に分析する方法。
  18. 【請求項18】 請求項17記載の方法において、 ステップ(f)が、 (f)(i)簡約化を使用して、最低平均コスト出力値
    を持つ前記超矩形の縁に沿って、前記複数の点内で囲ま
    れた前記不連続属性値を決定するステップと、 (f)(ii)簡約化を使用して、最低平均コスト出力
    値を持つ前記超矩形の縁に沿って、前記複数の点内で囲
    まれた前記連続属性値を決定するステップと、 (f)(iii)ステップ(f)(i)で決定された前
    記最低平均コスト出力値とステップ(f)(ii)で決
    定された前記最低平均コスト出力値とを比較して、前記
    最低平均コスト出力値を持つ属性を決定するステップ
    と、 (f)(iv)前記属性の前記インデックスを使用して
    前記コスト・フラグをゼロに設定することによって前記
    超矩形から、ステップ(f)(iii)で決定された前
    記属性を含む前記組のうち全ての連続属性値の点と全て
    の不連続属性値の点とを除去し、前記一対全ブロードキ
    ャストを用いた前記複数のプロセッサの各々内に含まれ
    た前記コストリスト内の前記コスト・フラグを参照する
    ステップと、 (f)(v)前記超矩形内の点の前記総数がβ0 に等し
    くなるまで、ステップ(f)(i)からステップ(f)
    (iv)を繰り返すステップとを更に有することを特徴
    とする対称的マルチプロセッサ・アーキテクチャ・コン
    ピュータ内で患者導入規則法を用いて大型ディスク常駐
    データ・セットを並列に分析する方法。
  19. 【請求項19】 請求項18記載の方法において、 全コスト出力が、ステップ(f)に従う前記超矩形によ
    って囲まれた前記多次元空間全体での前記出力値の合計
    であり、前記コスト属性リストがコストカウンタを含
    み、 ステップ(g)が、 (g)(i)ゼロに設定された前記コスト・フラグを持
    つ各組に対して、前記共有ディスクにおける前記複数の
    部分の各々の間で、前記超矩形で取り囲まれなかった組
    に属する各点に対して前記コストカウンタを増加させる
    ステップと、 (g)(ii)簡約化を用いて、最高平均コスト出力値
    を持つ前記超矩形によって囲まれた点の範囲外で前記不
    連続属性値を決定するステップと、 (g)(iii)簡約化を用いて、最高平均コスト出力
    値を持つ前記超矩形によって囲まれた点の範囲外で前記
    連続属性値を決定するステップと、 (g)(iv)ステップ(g)(ii)で決定された前
    記最高平均コスト出力値とステップ(g)(iii)で
    決定された前記最高平均コスト出力値とを比較し、どの
    属性が前記最高平均コスト出力値を持つかを決定するス
    テップと、 (g)(v)ステップ(g)(iv)で決定された前記
    属性を含む組に属する全ての連続属性値の点と前記不連
    続属性値の点とに対して前記コストカウンタを減少さ
    せ、前記属性の前記インデックスを用いて、前記一対全
    ブロードキャストを用いた前記複数のプロセッサの各々
    内に含む前記コスト・リスト内の前記コスト・フラグを
    参照し、ゼロに等しい前記コストカウンタを持つ属性が
    前記超矩形内で囲まれるようにするステップと、 (g)(vi)前記超矩形によって囲まれた前記複数の
    点全体での前記コスト出力値の合計が前記全コスト出力
    よりも小さくなるまで、ステップ(g)(i)からステ
    ップ(g)(v)を繰り返すステップとを更に有するこ
    とを特徴とする対称的マルチプロセッサ・アーキテクチ
    ャ・コンピュータ内で患者導入規則法を用いて大型ディ
    スク常駐データ・セットを並列に分析する方法。
JP2000387496A 1999-12-22 2000-12-20 コンピュータシステム内、並列アーキテクチャ・コンピュータ内、及び、対称的マルチプロセッサ・アーキテクチャ・コンピュータ内で患者導入規則法を用いて大型ディスク常駐データ・セットを分析する方法 Pending JP2001249995A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/470,444 US7269586B1 (en) 1999-12-22 1999-12-22 Patient rule induction method on large disk resident data sets and parallelization thereof
US09/470444 1999-12-22

Publications (1)

Publication Number Publication Date
JP2001249995A true JP2001249995A (ja) 2001-09-14

Family

ID=23867661

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000387496A Pending JP2001249995A (ja) 1999-12-22 2000-12-20 コンピュータシステム内、並列アーキテクチャ・コンピュータ内、及び、対称的マルチプロセッサ・アーキテクチャ・コンピュータ内で患者導入規則法を用いて大型ディスク常駐データ・セットを分析する方法

Country Status (2)

Country Link
US (1) US7269586B1 (ja)
JP (1) JP2001249995A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9436512B2 (en) * 2011-12-22 2016-09-06 Board Of Supervisors Of Louisana State University And Agricultural And Mechanical College Energy efficient job scheduling in heterogeneous chip multiprocessors based on dynamic program behavior using prim model

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE500122C2 (sv) * 1992-08-27 1994-04-18 Rudolf Valentin Sillen Förfarande och anordning för individuellt styrd, adaptiv medicinering
US5813019A (en) 1995-07-06 1998-09-22 Sun Microsystems, Inc. Token-based computer program editor with program comment management
US5787274A (en) * 1995-11-29 1998-07-28 International Business Machines Corporation Data mining method and system for generating a decision tree classifier for data records based on a minimum description length (MDL) and presorting of records
US5778345A (en) * 1996-01-16 1998-07-07 Mccartney; Michael J. Health data processing system
US5960435A (en) * 1997-03-11 1999-09-28 Silicon Graphics, Inc. Method, system, and computer program product for computing histogram aggregations
US5991728A (en) * 1997-04-30 1999-11-23 Deroyal Industries, Inc. Method and system for the tracking and profiling of supply usage in a health care environment
US6307965B1 (en) * 1998-04-30 2001-10-23 International Business Machines Corporation System and method for detecting clusters of information
US6229918B1 (en) * 1998-10-20 2001-05-08 Microsoft Corporation System and method for automatically detecting clusters of data points within a data space
US6563952B1 (en) * 1999-10-18 2003-05-13 Hitachi America, Ltd. Method and apparatus for classification of high dimensional data

Also Published As

Publication number Publication date
US7269586B1 (en) 2007-09-11

Similar Documents

Publication Publication Date Title
Pham Optimization of texture feature extraction algorithm
Mejía-Roa et al. NMF-mGPU: non-negative matrix factorization on multi-GPU systems
Marçais et al. Sketching and sublinear data structures in genomics
Le et al. A pure array structure and parallel strategy for high-utility sequential pattern mining
Jamel et al. A survey and systematic categorization of parallel k-means and fuzzy-c-means algorithms
Lee et al. Optimization of GPU-based sparse matrix multiplication for large sparse networks
Fichte et al. An improved GPU-based SAT model counter
Chen Efficient and scalable graph pattern mining on {GPUs}
Goenka et al. SegAlign: A scalable GPU-based whole genome aligner
Pandey et al. Trust: Triangle counting reloaded on GPUs
Sethi et al. Parallel high average-utility itemset mining using better search space division approach
Perdacher et al. Cache-oblivious high-performance similarity join
Li et al. SW-Tandem: a highly efficient tool for large-scale peptide identification with parallel spectrum dot product on Sunway TaihuLight
Guedes et al. Anteater: A service-oriented architecture for high-performance data mining
CN106599122B (zh) 一种基于垂直分解的并行频繁闭序列挖掘方法
Ben HajKacem et al. STiMR k-means: an efficient clustering method for big data
Dash et al. pPOP: Fast yet accurate parallel hierarchical clustering using partitioning
Wang et al. Mic-kmeans: a maximum information coefficient based high-dimensional clustering algorithm
JP2001249995A (ja) コンピュータシステム内、並列アーキテクチャ・コンピュータ内、及び、対称的マルチプロセッサ・アーキテクチャ・コンピュータ内で患者導入規則法を用いて大型ディスク常駐データ・セットを分析する方法
Martin et al. Multi-temperate logical data warehouse design for large-scale healthcare data
Jing et al. Efficient parallel algorithm for computing rough set approximation on GPU
Satish et al. Mapreduce based parallel suffix tree construction for human genome
Zaslavsky et al. Visualization of large influenza virus sequence datasets using adaptively aggregated trees with sampling-based subscale representation
Lee et al. A parallel algorithm for mining multiple partial periodic patterns
Wang et al. Extreme learning machine for large-scale graph classification based on mapreduce