JP2001249995A

JP2001249995A - コンピュータシステム内、並列アーキテクチャ・コンピュータ内、及び、対称的マルチプロセッサ・アーキテクチャ・コンピュータ内で患者導入規則法を用いて大型ディスク常駐データ・セットを分析する方法

Info

Publication number: JP2001249995A
Application number: JP2000387496A
Authority: JP
Inventors: Suribasutaba Anuragu; アヌラグ・スリバスタバ; Sai Bineeto; ビネート・サイ
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1999-12-22
Filing date: 2000-12-20
Publication date: 2001-09-14
Also published as: US7269586B1

Abstract

(57)【要約】【課題】本発明は、コンピュータシステム内で患者規
則導入法（ＰＲＩＭ）を用いた大型ディスク常駐データ
・セットの分析に関する。【解決手段】ＰＲＩＭ内では、連続属性５２、不連続
属性５４、物質パラメータ、及びコスト属性５６を含ん
だ関係データ表５０を最初に受け取る。コスト属性５６
は、入力として連続及び不連続属性値に基づくコスト出
力値を表す。連続及び不連続属性値で定義された多次元
空間を囲む超矩形が形成される。連続及び不連続属性値
は多次元空間内の点として表示される。超矩形内の点の
総数が二次元パラメータ５８に等しくなるまで、超矩形
の縁に沿って複数の点が、コスト出力値の平均に基づく
その複数の点から除去される。超矩形で囲まれた多次元
空間全体でのコスト出力値の合計が変化するまで、除去
された不連続及び連続属性値は超矩形の縁に沿って加え
られる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、概して１組の入力
変数に基づいた幾らかの出力変数のうち高い値の予測を
伴うデータ分析に関する。特に、本発明は、患者規則導
入法（Patient Rule Induction Method, ＰＲＩＭ）を
用いた大型ディスク常駐データ・セットの分析に関す
る。

【０００２】

【従来の技術】データ分析における一般的な問題は、１
組の入力変数に基づいた幾らかの出力変数のうち高い値
の予測を伴っている。例えば、病院は、患者年齢と滞在
期間長さとのどのような組合わせが高コストの病院滞在
期間に関係されるのかを、収集された患者データから決
定したいだろう。このデータ分析問題の複雑さに付加さ
れていることは、対象の変数が異なるタイプのものであ
り、連続／数値的（年齢、コスト、又は、滞在期間長さ
のような順序データ）、絶対的（医者のような非順序デ
ータ）、及び、不連続（手順リスクのような順序不連続
データ）を含むことである。

【０００３】上述の問題に類似するデータ分析問題を解
決するため従来技術に依る多くの戦略があり、その戦略
は、ＳＬＩＱ分類アルゴリズム（M. Mehta, R. Agrawa
l, 及びJ. Rissanenに依る「ＳＬＩＱ:データ・マイニ
ング用高速スケーラブルクラシファイア」、１９９６年
３月、フランスのアビニョンに於いて、データベース工
学発展に関する第５回インテル会議録）、ＳＰＥＣ（An
urag Srivastava, Vineet Singh, Eui-Hong (Sam) Han,
及びVipin Kumarに依る「データ・マイニング用の効率
的スケーラブル並列クラシファイア（１９９６年）」、
１９９６年、ミネアポリス、ミネソタ大学、コンピュー
タ・サイエンス部門、技術レポート96-040）、及び、患
者規則導入方法（ＰＲＩＭ）（Friedman, J.、及び、Fi
sher, N. I. に依る「高次元データにおけるバンプ・ハ
ンティング（１９９７年１０月）」、（「統計及び計算
法」に掲載））。このような戦略の各々において、分析
されるべきデータが、先ず、任意タイプのデータベース
内に格納され、そしてデータ分析システムが、データ分
析を容易にする特殊データ構造を用いたディスクに、格
納されたデータをコピーする。

【０００４】ＳＬＩＱ分類アルゴリズムは、高い出力
値を持った入力データのローカル・グループを見付け
る。それは、連続データよりも絶対的データの方と一緒
に良好に働く。即ち、ＳＬＩＱアルゴリズムは、連続よ
りむしろ絶対的データの高い出力値を備えた多次元入力
データの連続グループを見付ける可能性が高い。このた
め、連続データを分析する必要のある時に、ＳＬＩＱア
ルゴリズムを線形回帰分析と一緒に一対にする。

【０００５】本発明の基礎であるＰＲＩＭアルゴリズム
は、特に、出力変数の高い平均に対応した一組の入力変
数の多次元空間内で領域を決定する問題に取り組んでい
る。更に、ＰＲＩＭによって生成される領域は、二つの
入力変数に対して矩形であり、又は、（更に一般的に
は）二つ以上の入力変数に対して超（ハイパー）矩形で
あるので、容易に解釈可能である。（なお、この出願の
他の部分に対して、用語「超矩形」と「ボックス」とは
互換可能に用いられていることに留意されたい。）ここ
で、同じ出力に対してＳＬＩＱ及びＰＲＩＭアルゴリズ
ムによって与えられた結果の比較を、図１に関して説明
する。

【０００６】図１で示された点は、入力変数が入院患者
に対する滞在期間長さ及び年齢である場合、及び、出力
変数が患者滞在期間に対する料金である場合の点であ
り、そして塗りつぶされた点が高い値の点であり、及
び、塗りつぶされていない点が低い値の点である。最も
高い料金を持った滞在期間長さ及び（又は）年齢の領域
を見付ける目的を与えられると、ＰＲＩＭアルゴリズム
は単一超矩形１０２に戻るのに対し、ＳＬＩＱアルゴリ
ズムは小さくてばらばらの領域１０４ａ，１０４ｂに戻
る。ＰＲＩＭの超矩形領域１０２の記述（例えば、５０
＜年令＜７０、及び、２≦滞在期間長さ≦４）は、入力
変数が既知であると共に、出力変数が未知である場合
に、予測申込用に利用可能である。特に、入院申込に対
して、高料金（又は高コスト）の患者を使って内部的に
コストを低減し、又は、外部的に支払人（又は保険会
社）と更に有利な契約を交渉可能にする。ＳＬＩＱアル
ゴリズムからの出力と比較されるように、ＰＲＩＭのよ
り簡単な出力によって、この申込は単純化される。本発
明はＰＲＩＭに基づくので、ここで、この方法を更に詳
細に説明する。

【０００７】ＰＲＩＭの背後の考えは、単一超矩形内に
全ての入力データの点を取り囲み、それから、全部の点
のうちユーザ規定％が、超矩形の内部に残るまで、低い
値の点を取り囲んだ超矩形において連続で小さなストリ
ップ（細片）を連続して剥ぎ取ることである。これらの
点は、主として高い値の点であると推定されている。Ｐ
ＲＩＭは、そっくりそのままメインメモリ（即ち、実行
中のプログラムにアクセス可能なＲＡＭ）内へコピー可
能である一つの小さなデータ組に適用され得るが、より
大きいデータ組を扱うことができない。ＰＲＩＭは連続
データに対して次のステップを含んでいる：１）全てのデータ組をメインメモリ内へコピーする；２）超矩形のうち隣接する小さなストリップの幅である
剥ぎ取り部分（α）を定義する。各ストリップは、超矩
形の周囲に沿った点のうち１％〜５％の間で好まれた初
期点の規定％を利用することによって、形成される；３）超矩形の周囲に沿って点のα％を取ることによっ
て、超矩形の縁に沿ったストリップを形成する；４）超矩形の各ストリップに対してコスト属性の平均値
を算出する。各属性に対して、データを分類し、最高点
のα％と最低点のα％とに対してコスト属性の平均値を
見付ける。これは各属性に関して繰り返される；５）最低平均コスト値を持ったストリップを投げ、ステ
ップ３）に戻り、そして超矩形によって囲まれたまま残
った点の個数がユーザ規定％の初期点に等しくなるまで
繰り返す（残った点は、最高平均出力値を持った点のユ
ーザ規定％になるだろう）。

【０００８】不連続データに関するステップは、多次元
ストリップの代りにヒストグラムを使用したことを除い
て、既に述べたステップと同じである。例えば、もし入
力変数の１つが医師ＩＤであるならば、各ストリップは
既定医師ＩＤ用のヒストグラム・ビンに対応するだろ
う。ここで、小さなデータ組に対してＰＲＩＭを実行す
る方法が、図２に関して説明されるだろう。

【０００９】図２を参照すると、不連続属性を実行する
従来技術のＰＲＩＭによって使用されたデータ構造の一
つの実例と、データの関係表とが示されている。データ
の関係表は連続及び不連続な属性を含んでいる。不連続
属性、即ち医師ＩＤを処理するために、ヒストグラム
は、全ての個別的医師ＩＤと予測コストとを含んで生成
されている。予測コストは、それぞれの医師ＩＤと一緒
に各々の記録に関するコストを合計し、医師ＩＤと一緒
に各々の記録の総計でその合計を割り算することによっ
て算出される。図２で表示されたように、医師ＩＤの
Ａ，Ｂ，Ｃ及びＤが予測コストと一緒に示されている。
医師ＩＤのＡは最低予測コスト（＄１００．００）を所
有し、それ故に剥ぎ取り不連続属性として選択される。

【００１０】結果として、不連続属性に関するＰＲＩＭ
計算は、上述されたように、連続属性に関するＰＲＩＭ
計算にぴったりである。しかしながら、不連続属性に対
して、ステップ４）は、明確な不連続属性値と予測コス
トとを含めた各々の不連続属性用のヒストグラムを形成
することを含んでいる。ステップ５）は、最低平均値を
備えた連続属性と最低平均値を備えた不連続属性とを比
較して、除去されるべき剥ぎ取り属性を決定することを
含んでいる。

【００１１】

【発明が解決しようとする課題】上述のＰＲＩＭ実行
は、各々の剥ぎ取りステップのために、ある時刻で一
度、各属性に対してデータの関係表を分類しなければな
らない。更に、データの関係表が問いただされて、各々
の剥ぎ取りステップに対してそれぞれの不連続属性用の
予測コストを決定しなければならい。これらのタスク
は、データの関係表がメインメモリ内に格納されるべき
ことを必要としている。不都合にも、従来システムの記
憶限界は、大型ディスク常駐データ・セットがメインメ
モリ内に完全に格納されるのを妨げている。従って、大
型ディスク常駐データ・セットに適応可能であるＰＲＩ
Ｍの実行を必要としている。同様に、並列プロセッサ上
での実行用に並列化され得るＰＲＩＭの実行を必要とし
ている。

【００１２】

【課題を解決するための手段】本発明は、大型ディスク
常駐データ・セットを分析する方法を提供することによ
って、識別問題を克服している。大型ディスク常駐デー
タ・セットを備えたコンピュータシステムでは、患者規
則導入法（ＰＲＩＭ）を用いたディスク常駐データ・セ
ットを分析する方法が開示されている。その方法におい
て、関係データ表が先ず受け取られる。関係データ表は
連続属性、不連続属性、二次元パラメータ（メタ・パラ
メータ）、及び、コスト属性を含んでいる。コスト属性
は、入力としての連続属性値と不連続属性値とに基づた
コスト出力値を表示している。次に、連続属性値と不連
続属性値とによって定義される多次元空間を囲んだ超矩
形が形成されている。連続属性値と不連続属性値とは多
次元空間内の点として表示されている。ひとたび超矩形
が形成されると、ＰＲＩＭが剥ぎ取り段階と貼り付け段
階とで完了にされる。それから、超矩形内で囲まれた点
の総数が二次元パラメータに等しくなるまで、複数の点
からのコスト出力値の平均に基づき超矩形の縁に沿って
複数の点が除去される（剥がされる）。次に、超矩形内
によって囲まれた多次元空間全体でのコスト出力値の合
計が変化するまで、超矩形から除去された不連続属性値
と連続属性値とが超矩形の縁に沿って加えられる（剥が
される）。複数のプロセッサを備えた並列アーキテクチ
ャ・コンピュータシステムを利用する本発明の更なる態
様では、超矩形によって囲まれた複数の点の全体でのコ
スト属性平均値の算出が、コスト低減と一対全ブロード
キャストとを用いた複数のプロセッサを横切って並列に
実行される。

【００１３】本発明は公知技術以上に多くの利点を提供
している。本発明は、データ・セットをメインメモリに
ロードする必要なしに、大型ディスク常駐データ・セッ
トを分析する能力を包含している。更に、本発明を並列
コンピュータ・アーキテクチャ、又は、対称的マルチプ
ロセッサ・アーキテクチャで実行して性能を向上でき
る。その上、本発明におけるメモリ必要条件は、最大化
又は最小化されるように求められたコスト属性のサイズ
によってのみ制限される。

【００１４】図面を参照して、以下の詳細な説明と、添
付した特許請求の範囲とを読むことで本発明の追加的な
利点と特徴とが容易に明白になるだろう。

【００１５】

【発明の実施の形態】本発明は、概して一組の入力変数
に基づいた幾らかの出力変数のうち高い値の予測を伴っ
たデータ分析に関する。特に、本発明は、患者規則導入
法（ＰＲＩＭ）を用いた大型ディスク常駐データ・セッ
トの分析に関する。大型ディスク常駐データ・セット用
のＰＲＩＭ方法は、超矩形を生成する二つの段階を含ん
でいる。これらの段階は、剥ぎ取り段階と貼り付け段階
とである。関係データ表としてデータが入力されたと仮
定する。関係データ表は、Ａ_c個の連続属性と、Ａ_d個の
不連続属性と、一つのコスト属性又は出力値とを含んで
いる。一つのコスト属性又は出力値は、入力としてＡ_c
個の連続属性とＡ_d個の不連続属性とに基づいている。
本考察を簡素化するために、一般に、コスト属性という
用語を使って、入力としての連続属性と不連続属性とに
基づいた出力値を意味する。換言すれば、コスト出力値
は、入力として連続属性値と不連続属性値とに基づいた
出力である。β₀は、ユーザによって与えられた二次元
パラメータである。それは、超矩形内に存在する点のう
ち最小個数を表す。

【００１６】本発明の典型的な一実施の形態を図３及び
図４に関して説明する。図３は、本発明の一実施の形態
に依るコンピュータシステム１０を示している。コンピ
ュータシステムは、バス１４に結合されたプロセッサ
（ＣＰＵ）１２を含んでいる。ランダムアクセス・メモ
リ（ＲＡＭ）１６及びハードディスク・メモリ（ＤＩＳ
Ｋ）１８もバス１４に結合され、プロセッサによってア
クセス可能である。ハードディスク１８は、後述される
ように、本発明に必要なプログラムとデータとを格納す
るように構成されている。任意のユーザ・インタフェー
ス２０は未加工データの入力用に設けられている。一実
施の形態において、入力／出力装置は、キーボード、マ
ウス、及びモニタを含んでいる。任意のネットワーク・
インタフェース（ＮＥＴＷＯＲＫＩ／Ｆ）２１も同様
に設けられている。未加工データは、様々な種類の方法
で、例えばユーザ・インタフェース２０又はネットワー
ク・インタフェース２１を介して入力され得る。

【００１７】ハードディスク１８は、コンピュータシス
テム１０内にプログラム及びデータを格納するように構
成されている。ＲＡＭ及びハードディスクを含んだメモ
リは三つの主要成分に分割されている：通信手順２２、
制御手順２８、及びデータ４８である。通信手順は、大
型ディスク常駐データ・セットを識別するルーチン２
４，２６を含んでいる。制御手順は、本発明に依るデー
タ分析機能を実行するルーチン３０〜４６を含んでい
る。データ部分は、関係データ表５０におけるＡ_c個の
連続属性のリストと一つの不連続属性のリストとに対す
るインデックスを作り、コスト・リストと二次元パラメ
ータ５８とをメインメモリ（ＲＡＭ）１６内に格納す
る。これらのルーチンを更に詳細に以下説明する。

【００１８】本発明の動作を図４のフローチャートに関
して説明する。本発明の一実施の形態に依る動作のステ
ップ１００のステップ１０２において、二次元パラメー
タ及び関係データ表を受け取る。上述したように、関係
データ表はＡ_c個の連続型属性、不連続属性、及びコス
ト属性を含んでいる。コスト属性は、入力として連続属
性値と不連続属性値とに基づいたコスト出力値を表して
いる。属性とは、本来、数行又は組（tuple）である。
その数行又は組は、属性を分離した時に、組を識別する
ためインデックスもまた含んだ関係データ表を形成して
いる。ステップ１１０において、超矩形は、連続属性値
と不連続属性値とによって定義された多次元空間を囲む
ことによって形成されている。多次元空間を形成するた
めに、連続属性値と不連続属性値とは多次元空間内の点
として表示されている。ステップ１３０及び２００にお
いて、複数の点からコスト出力値の平均に基づき、超矩
形の縁に沿って複数の点が除去される（剥がされる）。
超矩形内で囲まれた点の総数が二次元パラメータに等し
くなるまで、点は繰り返して除去される。最終的に、ス
テップ２９０及びステップ３００において、超矩形に囲
まれた多次元空間全体でのコスト出力値の合計が変化す
るまで、除去された不連続属性値の点と連続属性値の点
とが超矩形の縁に沿って加えられる（貼り付けられ
る）。

【００１９】図５は、本発明の更なる一実施の形態に依
るステップ１１０の超矩形を形成するための追加的方法
のステップを示している。図５は関係データ表の垂直分
割を示している。その垂直分割は、従来システムによっ
て必要とされるように、大型ディスク常駐データ・セッ
トをメインメモリ１６内にロードする必要なしに、大型
ディスク常駐データ・セットの分析を可能にしている。
データはＡ_c＋２個のリスト内で分離されている。ステ
ップ１１２において、一つのリストを各々の連続属性用
に生成して、連続属性値を含んだＡ_c個の連続属性リス
トを形成する。ステップ１１４において、Ａ_d個の不連
続属性値と連続属性値とを含んだ一つの不連続属性リス
トを生成する。ステップ１１６において、コスト出力値
を含んだコスト属性リストが生成され、そしてメインメ
モリ内に格納される。ステップ１１８において、Ａ_c個
の連続属性リスト、不連続属性リスト、及びコスト属性
リストのそれぞれにラベルを加える。ラベルは、それぞ
れの属性値が関係データ表内で属する組のインデックス
である。インデックスによって連続属性値と不連続属性
値とが各々の組とコスト出力値とを参照することを可能
にする。

【００２０】ステップ１２０において、コスト・リスト
にラベルが加えられる。ラベルはコスト・フラッグであ
る。そのコスト・フラッグは、コスト出力値を含む組が
超矩形内に囲まれているか否かを示している。最初に全
ての点が超矩形内に囲まれているので、コスト・フラグ
は、組が超矩形内に囲まれたことを示す１に初期設定さ
れている。最終的にステップ１２２において、コスト・
リストに更なるラベルが加えられる。ラベルは、超矩形
内に囲まれていない組における点の個数のコストカウン
タである。最初に全ての点が超矩形内に取り囲まれてい
るので、コストカウンタは１に初期設定されている。コ
ストカウンタは貼り付け手順４２で用いられる。

【００２１】図６は、本発明の更なる一実施の形態に依
るステップ２００の剥ぎ取り手順３６用の追加方法のス
テップを示している。ステップ２１０において、最低平
均コスト出力値を備えた超矩形の縁に沿って、複数の点
で囲まれた不連続属性値が見付けられる。ステップ２２
０において、最低平均コスト出力値を備えた超矩形の縁
に沿って、複数の点で囲まれた連続属性値が見付けられ
る。ステップ２４０において、ステップ２１０で決定さ
れた最低平均コスト出力値が、ステップ２２０で決定さ
れた最低平均コスト出力値と比較されて、最低平均コス
ト出力値を備えた属性を決定する。ステップ２５０にお
いて、ステップ２４０で決定された属性を含んだ組のう
ち、全ての連続属性値点と不連続属性値点とが超矩形か
ら除去される（剥がされる）。ステップ２７０におい
て、超矩形内の点の総数がβ₀に等しくなるまで、ステ
ップ２１０〜ステップ２５０が繰り返される。

【００２２】最終的にステップ２８０において、全コス
ト出力が算出される。全コスト出力は、超矩形によって
囲まれた多次元空間全体でのコスト出力の合計である。
上述の剥ぎ取り手順が、超矩形によって囲まれた点の個
数を最大にするけれども、超矩形で囲まれた点の個数を
最小にすることも可能である。更に、ステップ２００の
不連続属性値は、例えば、各々の不連続属性に対して複
数の不連続ヒストグラムを用いて決定される。各ヒスト
グラムは、それぞれ異なった不連続属性値と、不連続属
性値を含む各組に対するコスト出力値の平均とを含んで
いる。平均コスト出力値は、不連続属性値のインデック
スを使用し、マッチング・インデックスとゼロに等しい
コスト・フラグとを備えたコスト・リスト内で各コスト
出力値を合計することによって算出される。次に、その
合計がコスト出力値の総数で割り算され、それぞれの不
連続属性値に対して平均コスト出力値を形成する。それ
から、最低平均コスト出力値を備えた不連続属性値が、
各不連続ヒストグラムを検査することによって、容易に
選択される。

【００２３】図７は、本発明の更なる一実施の形態に依
るステップ２２０の最低平均コスト出力値の算出を最適
化する追加方法のステップを示している。初めに、各連
続属性リストは、始動ポインタを各連続属性リスト内の
第１行へ向けた状態で増加順序に分類されている。ステ
ップ２２２において、第２連続属性リストは、Ａ_c個の
連続属性のリストの各々に関して生成される。第２連続
属性リストは、終了ポインタを各第２連続属性リスト内
の第１行へ向けた状態で減少順序に分類されている。ス
テップ２２４において、始動カットオフ値は、不連続属
性値を含んだ組の総数に基づいたＡ_c個の連続属性リス
トのそれぞれにマークされ、その不連続属性値はステッ
プ２１０内で決定され、超矩形内で囲まれている。ステ
ップ２２６において、終了カットオフ値は、不連続属性
値を含んだ組の総数に基づかれた第２連続属性リストの
それぞれにマークされ、その不連続属性値は、ステップ
２１０内で決定され、超矩形内に囲まれている。

【００２４】ステップ２２８において、始動コスト平均
値が、Ａ_c個のコスト属性リストの各々に対して始動ポ
インタとカットオフ値との間で、各連続出力値に関して
決定される。ステップ２３０において、終了コスト平均
値が、第２コスト属性リストの各々に対してカットオフ
値と終了ポインタとの間で、各連続出力値に関して決定
される。ステップ２３２において、それぞれ連続属性と
平均コスト出力値とを含んだＡ_c 個の連続ヒストグラム
が生成される。平均コスト出力値は、始動コスト平均値
と終了コスト平均値とのうち小さい方である。最終的
に、ステップ２３４において、各連続ヒストグラムに対
する平均コスト出力値が比較されて、最低平均コスト出
力値を備えた連続属性値を決定する。

【００２５】図８は、本発明の更なる一実施の形態に依
るステップ２５０の剥ぎ取り手順３６用の追加方法のス
テップを示している。このプロセスを最適化するため
に、割当コードに基づいて不連続属性リストが分類さ
れ、それによってその不連続属性に従った不連続属性値
をグループ化している。ステップ２５２において、ステ
ップ２４０で決定された属性が連続属性であり、始動コ
スト平均値が終了コスト平均値（ステップ２５４）より
も小さい時に、コスト・フラグは、ステップ２５６での
始動ポインタと始動カットオフ値との間で、各連続属性
値に対してゼロに設定される。連続属性値のインデック
スを使ってコスト・フラグを参照及び修正する。ステッ
プ２５８において、始動ポインタを使って始動カットオ
フ値に等しく設定する。ステップ２５４において、終了
コスト平均値が始動コスト平均値よりも小さい時に、コ
スト・フラグは、終了カットオフ値とステップ２６０で
の終了ポインタとの間で、各連続属性値に対してゼロに
設定される。連続属性値のインデックスを使ってコスト
・フラグを参照及び修正する。ステップ２６２におい
て、終了ポインタは、終了カットオフ値に等しく設定さ
れる。ステップ２５２において、ステップ２４０内で決
定された属性が不連続属性である時に、コスト・フラグ
は、ステップ２４０内で決定された属性に等しい各不連
続属性値に対して、ゼロに設定される。不連続属性値の
インデックスを使ってコスト・フラグを参照及び修正す
る。

【００２６】図９は、本発明の更なる一実施の形態に依
るステップ３００における貼り付け手順４２を実行する
追加方法のステップを示している。ステップ３１０にお
いて、ゼロに設定されたコスト・フラグを持つ各組に対
し、コストカウンタは、超矩形で取り囲まれなかった組
に属する各点に関して増加（インクレメント）される。
コストカウンタを使って、ある点が超矩形の内側か外側
かを決定する。ステップ３２０において、最高平均コス
ト出力値を持った超矩形で囲まれた点の外側で、不連続
属性値が決定される。ステップ３３０において、最高平
均コスト出力値を持った超矩形で囲まれた点の外側で、
連続属性値が決定される。ステップ３５０において、ス
テップ３２０で決定された最高平均コスト出力値をステ
ップ３３０で決定された最高平均コスト出力値と比較し
て、最高平均コスト出力値を持った属性を見付ける。最
終的にステップ３６０において、全ての連続及び不連続
属性値の点に対するコストカウンタが減少（デクリメン
ト）される。その全ての連続及び不連続属性値の点は、
ステップ３５０で決定された属性を含む組に属してい
る。ゼロに等しいコストカウンタを持つ属性は、超矩形
内に囲まれている。もしそうでなければ、その属性は超
矩形の範囲外である。要するに、コストカウンタを増加
させることによって属性が超矩形から除去されるのに対
し、ゼロに等しくなるようコストカウンタを減少させる
ことによって属性が超矩形に加えられる。ステップ３７
０において、超矩形で囲まれた複数の点全体でのコスト
出力値の合計が全コスト出力より小さくなるまで、ステ
ップ３１０〜ステップ３６０が繰り返される。この貼り
付け手順は、高い値の点の表示を介してより多くを保証
している。既に述べたように、ステップ３２０の最高平
均コスト出力値は、複数の不連続ヒストグラムを用いて
算出されている。

【００２７】図１０は、本発明の更なる一実施の形態に
依るステップ３３０の最高平均コスト出力値の算出を最
適化する追加方法のステップを示している。ステップ３
３２において、Ａ_c個のコスト属性リストの第１行と始
動・ポインタとの間で連続属性値が、減少順序に分類さ
れている。ステップ３３４において、始動・カットオフ
値はＡ_c個の連続属性リストの各々にマークされる。そ
のＡ_c個の連続属性リストは、ステップ３２０で決定さ
れ、超矩形内に囲まれた不連続属性値を含んだ組に基づ
いている。ステップ３３６において、終了・カットオフ
値は第２連続属性リストの各々にマークされ、その第２
連続属性リストは、ステップ３２０で決定され、超矩形
内に囲まれた不連続属性値を含んだ組に基づいている。

【００２８】ステップ３３８において、始動・コスト平
均値は、Ａ_c個のコスト属性リストの各々に関して始動
・ポインタとカットオフ値との間で、各連続出力値に対
して決定される。ステップ３４０において、終了・コス
ト平均値は、第２コスト属性リストの各々に関してカッ
トオフ値と終了・ポインタとの間で、各連続出力値に対
して決定される。ステップ３４２において、各々が連続
属性と平均コスト出力値とを含んだＡ_c個の連続ヒスト
グラムが生成される。平均コスト出力値は始動・コスト
平均値及び終了・コスト平均値よりも大きい。最終的
に、ステップ３４４において、各連続ヒストグラムに関
する平均コスト出力値が比較されて、最高平均コスト出
力値を持った連続属性値を決定する。

【００２９】図１１は、本発明の更なる一実施の形態に
依るステップ３６０の貼り付け手順４２に関する追加方
法のステップを示している。このプロセスを最適化する
ために、不連続属性リストは、割り当てられたコードに
基づいて分類され、それによって、その不連続属性に従
った不連続属性値をグループ化している。ステップ３６
２において、ステップ３５０で決定された属性が連続属
性であり、そして始動コスト平均値が終了コスト平均値
（ステップ３６４）よりも小さい時に、始動ポインタと
ステップ３６６での始動カットオフ値との間で、各連続
属性値に関するコストカウンタを減少させる。連続属性
値のインデックスを用いてコストカウンタを参照及び修
正する。ステップ３６８において、始動ポインタは、始
動カットオフ値に等しくなるように設定される。ステッ
プ３６４において、終了コスト平均値が始動コスト平均
値よりも小さい時に、終了カットオフ値とステップ３７
０での終了ポインタとの間で、各連続属性値に関するコ
ストカウンタを減少させる。連続属性値のインデックス
を用いてコストカウンタを参照及び修正する。ステップ
３７２において、終了ポインタは終了カットオフ値に等
しくなるように設定される。ステップ３６２において、
ステップ３５０で決定された属性が不連続属性である時
に、ステップ３５０で決定された属性に等しい各不連続
属性値に対してコストカウンタを減少させる。不連続属
性値のインデックスを用いてコストカウンタを参照及び
修正する。

【００３０】本発明の更なる一実施の形態を、図１２及
び図１３に関して説明する。図１２は、本発明の一実施
の形態に依る並列アーキテクチャコンピュータシステム
４００を示している。コンピュータシステムは、バス４
１４に結合された複数のプロセッサ４１２Ａ〜４１２Ｎ
を含んでいる。各プロセッサ４１２用のランダムアクセ
ス・メモリ（ＲＡＭ）４１６と、ハードディスクメモリ
（ＤＩＳＫ）４１８とはバス４１４にも結合され、複数
のプロセッサ４１２によってアクセス可能である。ハー
ドディスク４１８は、後述されるように、本発明にとっ
て必要なプログラム及びデータを格納するように構成さ
れている。未加工データ入力するために、任意のユーザ
インタフェース４２０が設けられている。一実施の形態
において、入力／出力装置は、キーボード、マウス、及
びモニタを含んでいる。任意のネットワーク・インタフ
ェース（ＮＥＴＷＯＲＫＩ／Ｆ）４２１もまた設けら
れている。未加工データは、様々な種類の方法で、例え
ば、ユーザ・インタフェース４２０又はネットワーク・
インタフェース４２１を介して入力可能であることを理
解されたい。

【００３１】ハードディスク４１８は、コンピュータシ
ステム１０内にプログラム及びデータを格納するように
構成されている。ＲＡＭ及びハードディスクを含んだメ
モリは３つの主要成分に分割されている：通信手順４２
２、制御手順４３２、及びデータ４５２である。通信手
順は、大型ディスク常駐データ・セットを識別し、複数
のプロセッサの間に通信を提供するルーチン４２４〜４
３０を含んでいる。制御手順は、本発明のデータ分析機
能を実行するルーチン４３４〜４５０を含んでいる。デ
ータ部分は、関係データ表４５４のＡ_c個の連続属性リ
ストと不連続属性リストとに対してインデックスを作成
し、そしてメインメモリ（ＲＡＭ）４１６内にコスト・
リストと二次元パラメータ４６２とを格納している。こ
れらのルーチンを以下詳細に説明する。

【００３２】本発明の動作を、図１３のフローチャート
に関して説明する。本発明の更なる一実施の形態に依る
動作のステップ５００のステップ５０２において、二次
元パラメータ及び関係データ表が受け取られる。上述の
ように、関係データ表はＡ_c個の連続属性、不連続属
性、及びコスト属性を含んでいる。コスト属性は、入力
としての連続属性値と不連続属性値とに基づいたコスト
出力値を表示している。ステップ５０４において、超矩
形は、多次元空間で囲むことによって形成され、その多
次元空間は、連続属性値及び不連続属性値によって定義
された多次元空間で囲まれている。ステップ５０６にお
いて、データはＡ_c＋２個のリストに分離される。連続
属性値を含んだＡ_c個の連続属性リストと、Ａ_d個の不連
続属性及び不連続属性値を含んだ一つの不連続属性リス
トとを形成するように、各連続属性に対して一つのリス
トを生成する。コスト出力値を含んだコスト属性リスト
はメインメモリ内に格納されている。Ａ_c個の連続属性
リストの各々、不連続属性リスト、及びコスト属性リス
トもまたラベルを含んでいる。ラベルは、それぞれの属
性値が関係データ表内で属する組のインデックスであ
る。そのインデックスによって、連続属性値及び不連続
属性値がそれぞれの組とコスト出力値とを参照可能とな
る。リストも同様に一つのコストカウンタのラベルを含
んでいる。コストカウンタは、既に述べたように、超矩
形内に取り囲まれなかった組における点の個数の総数で
ある。

【００３３】ステップ５０８において、Ａ_c個の連続属
性リストは、コスト属性リストの各行内で連続属性値に
基づいた複数のプロセッサの間に、並列に分類される。
ステップ５１０において、属性リストは、図１４で示さ
れるように、複数のプロセッサを横切るストライプイン
グである（縞状に配列されている）。ステップ５１２及
びステップ５２０において、超矩形の縁に沿った複数の
点が、コスト出力値の平均に基づいて、簡約化（コスト
削減）と、複数のプロセッサを備えた一対全ブロードキ
ャストとを使用した複数の点から除去される（剥がされ
る）。当該点は、超矩形内に囲まれた点の総数が二次元
パラメータに等しくなるまで、繰り返して除去される。
最終的にステップ５５０及びステップ６００において、
超矩形によって囲まれた多次元空間全体でのコスト出力
値の合計が、簡約化と、複数のプロセッサを備えた一対
全ブロードキャストとを使って変化するまで、除去され
た不連続属性値の点と、連続属性値の点とが、超空間の
縁に沿って加えられる。

【００３４】連続属性用の点における正確な割合を得る
ために、ある同期化ステップを必要とすることもあり得
る。これは、超矩形の内部にもはや存在しない属性リス
ト内で、任意の連続属性値の存在する可能性に依る。並
列コンピュータアーキテクチャの技術分野における当業
者にとって、複数のプロセッサ間の通信及び同期化に関
する詳細は明白であろう。それ故に、本発明の適切な理
解に必要な事項以外はここで記述しないこととする。し
かしながら、全てのプロセッサに関する簡約化ステップ
が実行されて、剥ぎ取り段階の間に特定属性に対する平
均値を得ることができる。剥ぎ取り用に最良属性を選択
することができる。剥ぎ取りを実行した後で、剥ぎ取ら
れたトランザクションＩＤが各プロセッサに転送される
ので、トランザクションＩＤがそのメモリ常駐コスト属
性リスト用のタグを更新できる。全てのブロードキャス
トに対して一つのブロードキャストの反対として実行さ
れた従来の簡約化は、並列計算の分野においてよく知ら
れている。（並列計算入門：Vipin Kumar, Ananth Gram
a, Anshul Gupta, 及び, George Karypis著におけるア
ルゴリズムの分析と設計、３章、§３．２）。

【００３５】図１５は、本発明の更なる一実施の形態に
依るステップ５２０の剥ぎ取り手順４４０用の追加方法
のステップを示している。ステップ５２２において、最
低平均コスト出力値を有する超矩形の縁に沿って、複数
の点で囲まれた不連続属性値が、プロセッサ間の簡約化
を用いて見付けられる。ステップ５２４において、最低
平均コスト出力値を有する超矩形の縁に沿って、複数の
点で囲まれた連続属性値が、簡約化を用いて見付けられ
る。ステップ５２６において、ステップ５２２で決定さ
れた最低平均コスト出力値が、ステップ５２４で決定さ
れた最低平均コスト出力値と比較されて、最低平均コス
ト出力値を持った属性を決定する。ステップ５２８にお
いて、ステップ５２６で決定された属性を含んだ組のう
ち、全ての連続属性値の点と全ての不連続属性値の点と
が、プロセッサの間で一対全ブロードキャストを用いた
超矩形から除去される（剥がされる）。ステップ５３０
において、超矩形内の点の総数がβ₀に等しくなるま
で、ステップ５２２〜ステップ５２８が繰り返される。

【００３６】最終的に、ステップ５３２において、全コ
スト出力が算出される。全コスト出力は、超矩形によっ
て囲まれた多次元空間全体でのコスト出力値の合計であ
る。上述の剥ぎ取り手順は、超矩形によって囲まれた点
の個数を最大化するけれども、超矩形で囲まれた点の個
数を同様に最小化することもできる。上述したように、
ステップ５２０の最低平均コスト出力値は、複数の不連
続ヒストグラムを用いて算出定可能である。

【００３７】図１６は、本発明の更なる一実施の形態に
依るステップ６００の貼り付け手順４４０を実行するた
めの追加方法のステップを示している。ステップ６０２
において、ゼロ設定されたコスト・フラグを備えた各組
に対して、超矩形で囲まれなった組に属する各点に関す
るコストカウンタを増加する。ステップ６０４におい
て、最高平均コスト出力値を有する超矩形で囲まれた点
の範囲外の不連続属性値が、簡約化と、プロセッサ間で
の一対全ブロードキャストとを用いて決定される。ステ
ップ６０６において、最高平均コスト出力値を有する超
矩形で囲まれた点の範囲外の連続属性値が、簡約化と、
プロセッサ間での一対全ブロードキャストとを使用して
決定される。ステップ６０８において、ステップ６０４
で決定された最高平均コスト出力値が、ステップ６０６
で決定された最高平均コスト出力値と比較されて、最高
平均コスト出力値を備えた属性を見付ける。最終的に、
ステップ６１０において、ステップ６０８で決定された
属性を含んだ組に属する全ての連続属性値の点と全ての
不連続属性値の点とに関するコストカウンタが、プロセ
ッサ間での一対全ブロードキャストを使用して減少され
る。ゼロに等しいコストカウンタを持つ属性が超矩形内
で囲まれている。ステップ６１２において、超矩形で囲
まれた複数の点全体でのコスト出力値の合計が全コスト
出力よりも小さくなるまで、ステップ６０２〜ステップ
６１０が繰り返される。この貼り付け手順は高い値の点
の表示を介してより多くを保証している。既に述べたよ
うに、ステップ６０４の最高平均コスト出力値は複数の
不連続ヒストグラムを用いて算出されている。

【００３８】本発明の更なる一実施の形態を、図１７及
び図１８に関して説明することとする。図１７は、本発
明の一実施の形態に依る対称的マルチプロセッサ・コン
ピュータシステム７００を示している。対称的マルチプ
ロセッサ（ＳＭＰ）７１２はバス７１４に結合されてい
る。ランダムアクセスメモリ（ＲＡＭ）７１６と共用ハ
ードディスクメモリ（ＳＨＡＲＥＤＤＩＳＫ）７１７
とはバス７１４にも結合されている。共用ディスク７１
７は、対称的マルチプロセッサ７１２によってアクセス
可能な複数の部分に分割されている。以下に説明するよ
うに、メインメモリ（ＲＡＭ）７１６は本発明に必要な
プログラムとデータとを格納するように構成されてい
る。任意のユーザ・インタフェース７２０は、未加工デ
ータ入力のために設けられている。一実施の形態におい
て、入力／出力装置はキーボード、マウス、及びモニタ
を含んでいる。任意のネットワーク・インタフェース
（ＮＥＴＷＯＲＫＩ／Ｆ）７２１もまた設けられてい
る。未加工データが種々異なる方法で、例えばユーザ・
インタフェース７２０又はネットワーク・インタフェー
ス７２１を介して、入力可能であることを理解された
い。

【００３９】ハードディスク（ＤＩＳＫ）７１８は、コ
ンピュータシステム７００内にプログラム及びデータを
格納するように構成されている。ＲＡＭ及びハードディ
スクを含んだメモリは３つの主要成分に分割されてい
る：通信手順７２２、制御手順７３２、及び、データ７
５２である。通信手順は、大型ディスク常駐データ・セ
ットを識別し、そして通信を対称的マルチプロセッサ７
１２に設けるためのルーチン７２４〜７３０を含んでい
る。制御手順は、本発明のデータ分析機能を実行するル
ーチン７３５〜７５４を含んでいる。データ部分は、関
係データ表７５４のうちＡ_c個の連続属性リストと一つ
の不連続属性リストとに対してインデックスを作成し、
そしてメインメモリ（ＲＡＭ）７１６内にコストリスト
と二次元パラメータ７６２とを格納している。これらの
ルーチンを以下詳細に説明する。

【００４０】本発明の動作を、図１８のフローチャート
に関して説明する。本発明の更なる一実施の形態に依る
動作のステップ８００のステップ８０２において、二次
元パラメータと関係データ表とを受け取る。上述したよ
うに、関係データ表はＡ_c個の連続属性、不連続属性、
及びコスト属性を含んでいる。コスト属性は、入力とし
ての連続属性値と不連続属性値とに基づいたコスト出力
値を表示している。ステップ８０４において、超矩形
は、連続属性値と不連続属性値とで形成された多次元空
間を囲むことによって、定義される。ステップ８０６に
おいて、データは、Ａ_c＋２個のリストに分離される。
１つのリストは各々の連続属性用に生成されて、Ａ_c個
の連続属性リストと一つの不連続属性とを形成する。Ａ
_c個の連続属性リストは連続属性値を含み、そして一つ
の不連続属性値は、Ａ_d個の不連続属性と不連続属性値
とを含んでいる。コスト出力値を含んだ一つのコスト属
性リストは、メインメモリ内に格納されている。Ａ_c個
の連続属性リストのそれぞれ、不連続属性リスト、及び
コスト属性リストもまたはラベルを含んでいる。ラベル
は、それぞれの属性値が関係データ表内に属した組のイ
ンデックスである。インデックスによって、連続属性値
及び不連続属性値がそれぞれの組とコスト出力値とを参
照可能にしている。リストもまた一つのコストカウンタ
のラベルを含んでいる。コストカウンタは、既に述べた
ように、超矩形内に囲まれなかった組における点の個数
の総数である。

【００４１】ステップ８０８において、Ａ_c個の連続属
性リストは、コスト属性リストの各行の中で連続属性値
に基づいた複数の共有ディスク部の間に、並列に分類さ
れる。ステップ８１０において、属性リストは、図１４
に示すように、複数の共有ディスク部を横切ったストラ
イプである。ステップ８１２及びステップ８２０におい
て、超矩形の縁に沿って複数の点が、簡約化と、対称的
マルチプロセッサ内で一対全ブロードキャストとを使用
した複数の点から、コスト出力値の平均に基づいて、除
去される（剥がされる）。当該点は、超矩形に囲まれた
点の総数が二次元パラメータに等しくなるまで、繰り返
して除去される。最終的にステップ８５０及びステップ
９００において、超矩形によって囲まれた多次元空間全
体でのコスト出力値の合計が、簡約化と、対称的マルチ
プロセッサ内で一対全ブロードキャストとを使用して変
化するまで、除去された不連続属性値の値と、連続属性
値の点とが、超矩形の縁に沿って加えられる（貼り付け
られる）。

【００４２】図１９は、本発明の更なる一実施の形態に
依るステップ８２０の剥ぎ取り手順７４０用の追加方法
のステップを示している。ステップ８２２において、最
低平均コスト出力値を持つ超矩形の縁に沿って複数の点
の内部で囲まれた不連続属性値が、対称的マルチプロセ
ッサ内での簡約化を使用して、見付けられる。ステップ
８２４において、最低平均コスト出力値を持つ超矩形の
縁に沿って複数の点で囲まれた連続属性値が、簡約化を
用いて見付けられる。ステップ８２６において、ステッ
プ８２２で決定された最低平均コスト出力値が、ステッ
プ８２４で決定された最低平均コスト出力値と比較さ
れ、最低平均コスト出力値を有する属性を決定する。ス
テップ８２８において、ステップ８２６で決定された属
性を含んだ組のうち、全ての連続属性値の点と全ての不
連続属性値の点とが、対称的マルチプロセッサ内で一対
全ブロードキャストを用いて、超矩形から除去される
（剥がされる）。ステップ８３０において、超矩形内の
点の総数がβ₀に等しくなるまで、ステップ８２２〜ス
テップ８２８が繰り返される。最終的に、ステップ８３
２において、全コスト出力が上述のように算出される。
上述されたように、ステップ８２０の最低平均コスト出
力値は、複数の不連続ヒストグラムを用いて計算可能で
ある。

【００４３】図２０は、本発明の更なる一実施の形態に
依るステップ９００の貼り付け手順７４６を実行する追
加方法のステップを示している。ステップ９０２におい
て、ゼロ設定されたコスト・フラグを備えた各組に対し
て、対称的マルチプロセッサでの一対全ブロードキャス
トを使って、超矩形内に囲まれなかった組に属する各点
に対するコストカウンタを増加させる。ステップ９０４
において、最高平均コスト出力値を持つ超矩形内に囲ま
れた点の範囲外に不連続属性値が、簡約化と、対称的マ
ルチプロセッサ内での一対全ブロードキャストとを用い
て決定される。ステップ９０６において、最高平均コス
ト出力値を持つ超矩形で囲まれた点の範囲外に連続属性
値が、簡約化と、対称的マルチプロセッサ内での一対全
ブロードキャストを使用して決定される。ステップ９０
８において、ステップ９０４で決定された最高平均コス
ト出力値が、ステップ９０６で決定された最高平均コス
ト出力値と比較されて、最高平均コスト出力値を持つ属
性を見付ける。最終的に、ステップ９１０において、ス
テップ９０８で決定された属性を含んだ組に属する全て
の連続属性値の点と全ての不連続属性値の点と対するコ
ストカウンタが、対称的マルチプロセッサ内での一対全
ブロードキャストを使用して減少される。ゼロに等しい
コストカウンタを持つ属性が、超矩形内に囲まれてい
る。ステップ９１２において、超矩形によって囲まれた
複数の点全体でのコスト出力値の合計が、全コスト出力
よりも小さくなるまで、ステップ９０２〜ステップ９１
０が繰り返される。この貼り付け手順は、高い値の点の
表示を介してより多くを保証している。上述したよう
に、ステップ９０４の最高平均コスト出力値は複数の不
連続ヒストグラムを用いて算出されている。

【００４４】特定の構成に関して典型的実施の形態を説
明した。当該技術分野における当業者は、特許請求項の
範囲内にとどまる限り、種々の変更及び変形が可能であ
ることを理解するだろう。理解されることは、本発明の
様々な実施の形態における非常に多くの特徴及び利点
が、本発明の様々な実施の形態における構造及び機能に
ついての詳細と共に、先の記載で説明されたけれども、
本発明の開示が例示に過ぎず、変形が詳細に、特に、添
付された特許請求の範囲で表現された用語の幅広い一般
的な意味によって十分な程度に示された本発明の原理内
での構造と部材の配列とに関してなされるだろう。

【００４５】例えば、特許請求の範囲から逸脱すること
なく、従来のコンピュータを備えた本発明を実用するこ
とは本発明の意図に含まれる。更に、本発明を教示する
ことは、入力値の多次元空間全体での幾らかの出力値を
最大化することに、限定されるものではない。本発明
は、特許請求の範囲から逸脱することなく、多次元空間
全体でのある入力値を最小化することによって、実行可
能である。

【００４６】本発明は、公知技術よりも多くの利点を提
供している。本発明は、データ・セットをメインメモリ
にロードする必要なしに、大型ディスク常駐データ・セ
ットを分析する能力を含んでいる。更に、本発明は、並
列コンピュータアーキテクチャ又は対称的マルチプロセ
ッサ・アーキテクチャで利用されて、性能を向上でき
る。その上、本発明のメモリ要件は、最大化又は最小化
されるために、探し求められたコスト属性のサイズによ
ってのみ制限される。

【００４７】典型的な実施の形態と最良の態様とを開示
したけれども、特許請求の範囲によって定義された範囲
内にとどまる限り、開示された実施の形態に対して変更
及び変形を行うことが可能である。

【００４８】

【発明の効果】以上説明したように、本発明は、データ
・セットをメインメモリにロードする必要なしに、大型
ディスク常駐データ・セットを分析する能力を含んでい
る。更に、本発明は、並列コンピュータアーキテクチャ
又は対称的マルチプロセッサ・アーキテクチャで利用さ
れて、性能を向上できる。その上、本発明のメモリ要件
は、最大化又は最小化されるために、探し求められたコ
スト属性のサイズによってのみ制限される。

【図面の簡単な説明】

【図１】従来のＳＬＩＱと比較されるように、本発明の
方法を使って決定された超矩形を表示するプロットを示
す図である。

【図２】小さなデータ・セットの分析のため患者規則導
入法によって用いられたデータ構造を示す図である。

【図３】本発明の一実施の形態に依るコンピュータシス
テムを示す図である。

【図４】本発明の一実施の形態に依る本発明の動作を示
すフローチャートである。

【図５】本発明の更なる一実施の形態に依る超矩形を定
義する追加的方法のステップを示す図である。

【図６】本発明の更なる一実施の形態に依る剥ぎ取り手
順に関する追加的方法のステップを示す図である。

【図７】本発明の更なる一実施の形態に依る最低平均コ
スト出力値の算出を最適化する追加的方法のステップを
示す図である。

【図８】本発明の更なる一実施の形態に依る剥ぎ取り手
順に関する追加的方法のステップを示す図である。

【図９】本発明の更なる一実施の形態に依る貼り付け手
順を実行する追加的方法のステップを示す図である。

【図１０】本発明の更なる一実施の形態に依る最高平均
コスト出力値の算出を最適化する追加的方法のステップ
を示す図である。

【図１１】本発明の更なる一実施の形態に依る貼り付け
手順に関する追加的方法のステップを示す図である。

【図１２】本発明の一実施の形態に依る並列コンピュー
タ・アーキテクチャを示す図である。

【図１３】並列コンピュータ・アーキテクチャにおける
患者規則導入法の動作を示すフローチャートである。

【図１４】本発明の一実施の形態に依るストライピング
（縞状に配列）を用いた複数のプロセッサ間でのデータ
再配分を示す図である。

【図１５】本発明の更なる一実施の形態に依る剥ぎ取り
手順を実行する追加的方法のステップを示す図である。

【図１６】本発明の更なる一実施の形態に依る貼り付け
手順を実行する追加的方法のステップを示す図である。

【図１７】本発明の一実施の形態に依る対称的マルチプ
ロセッサ・コンピュータシステムを示す図である。

【図１８】対称的マルチプロセッサ・コンピュータアー
キテクチャにおける患者規則導入法の動作を示すフロー
チャートである。

【図１９】本発明の更なる一実施の形態に依る剥ぎ取り
手順を実行する追加的方法のステップを示す図である。

【図２０】本発明の更なる一実施の形態に依る貼り付け
手順を実行する追加的方法のステップを示す図である。

【符号の説明】

１０コンピュータシステム１２プロセッサ１４バス１６ランダムアクセス・メモリ１８ハードディスク・メモリ２０ユーザ・インタフェース２１ネットワーク・インタフェース２２通信手順２４データベース入出力２６ユーザ入出力２８制御手順３０初期化手順３２データ区分け手順３４データ格納手順３５超矩形手順３６剥ぎ取り手順３８ヒストグラム生成手順４０超矩形手順４２張り付け手順４４ヒストグラム生成手順４６超矩形手順４８データ５０関係データ表５２連続属性５４不連続属性５６コスト属性５８二次元パラメータ１０２超矩形領域１０４ａ小さくてばらばらな領域１０４ｂ小さくてばらばらな領域４００並列アーキテクチャ・コンピュータ４１２Ａ，…，４１２Ｎプロセッサ４１４バス４１６Ａ，…，４１６Ｎランダムアクセス・メモリ４１８ハードディスク・メモリ４２０ユーザ・インタフェース４２１ネットワーク・インタフェース４２２通信手順４２４データベース入出力４２６ユーザ入出力４２８簡約化手順４３０一対全ブロードキャスト手順４３２制御手順４３４初期化手順４３５データ分配手順４３６データ格納手順４３８超矩形手順４４０剥ぎ取り手順４４２ヒストグラム生成手順４４４超矩形手順４４６張り付け手順４４８ヒストグラム生成手順４５０超矩形手順４５２データ４５４関係データ表４５６連続属性４５８不連続属性４６０コスト属性４６２二次元パラメータ７００対称的マルチプロセッサ・コンピュータシス
テム７１２対称的マルチプロセッサ７１４バス７１６ランダムアクセス・メモリ７１７共有ハードディスク・メモリ７１８ハードディスク７２０ユーザ・インタフェース７２１ネットワーク・インタフェース７２２通信手順７２４データベース入出力７２６ユーザ入出力７２８簡約化手順７３０一対全ブロードキャスト手順７３２制御手順７３４初期化手順７３５データ分配手順７３６データ格納手順７３８超矩形手順７４０剥ぎ取り手順７４２ヒストグラム生成手順７４４超矩形手順７４６貼り付け手順７４８ヒストグラム生成手順７５０超矩形手順７５２データ７５４関係データ表７５６連続属性７５８不連続属性７６０コスト属性７６２二次元パラメータ

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ０６Ｆ 19/00 １３０Ｇ０６Ｆ 19/00 １３０ (54)【発明の名称】コンピュータシステム内、並列アーキテクチャ・コンピュータ内、及び、対称的マルチプロセッサ・アーキテクチャ・コンピュータ内で患者導入規則法を用いて大型ディスク常駐データ・セットを分析する方法

Claims

【特許請求の範囲】

【請求項１】大型ディスク常駐データ・セットを有す
るコンピュータシステム内で、患者規則導入法（ＰＲＩ
Ｍ）を用いて前記ディスク常駐データ・セットを分析す
る方法であって、前記方法が、（ａ）連続属性、不連続属性、及び、コスト属性を備え
た関係データ表と、二次元パラメータとを受け取り、前
記コスト属性が入力として連続属性値及び不連続属性値
に基づいたコスト出力値を表示するステップと、（ｂ）前記連続属性値と前記不連続属性値とによって定
義された多次元空間を囲む超矩形を形成し、前記連続属
性値と前記不連続属性値とを前記多次元空間内で点とし
て表示するステップと、（ｃ）前記コスト出力値の平均に基づいた前記超矩形に
沿って複数の点を、前記超矩形内に囲まれた前記点の総
数が前記二次元パラメータに等しくなるまで、前記複数
の点から除去するステップと、（ｄ）前記超矩形によって囲まれた前記多次元空間全体
での前記コスト出力値の合計が変化するまで、前記超矩
形の縁に沿って除去された不連続属性値の点と、前記連
続属性値の点とを加えるステップとを有することを特徴
とするコンピュータシステム内で患者導入規則法を用い
て大型ディスク常駐データ・セットを分析する方法。
【請求項２】請求項１記載の方法において、前記連続属性がＡ_c個の連続属性であり、前記不連続属
性がＡ_d個の不連続属性であり、前記二次元パラメータ
がβ₀であり、ステップ（ｂ）が、（ｂ）（ｉ）前記データをＡ_c＋２個のリストに分離
し、各連続属性に対してリストを生成して、各々の連続
属性が前記連続属性値を含んだＡ_c個の連続属性リスト
と、前記Ａ_d個の不連続属性及び前記不連続属性値を含
んだ不連続属性リストと、前記コスト出力値を含んだコ
スト属性リストとを形成するようにするステップと、（ｂ）（ｉｉ）前記Ａ_c個の連続属性リストのそれぞれ
と、前記不連続属性リストと、前記コスト属性リストと
にラベルを加え、前記ラベルが、前記関係データ表内で
各々の属性値を含む組のインデックスであるようにする
ステップと、（ｂ）（ｉｉｉ）前記Ａ_c個の連続属性リストの各行内
に、一つの連続属性値に基づいた前記Ａ_c個の連続属性
リストを分類するステップと、（ｂ）（ｉｖ）前記コスト出力値を含んだ前記組が前記
超矩形内に囲まれるか否かを表示すると共に、初期値が
１に設定されるコスト・フラグであるラベルを、前記コ
スト・リストに加えるステップとを更に有することを特
徴とするコンピュータシステム内で患者導入規則法を用
いて大型ディスク常駐データ・セットを分析する方法。
【請求項３】請求項２記載の方法において、ステップ（ｃ）が、（ｃ）（ｉ）最低平均コスト出力値を持つ前記超矩形の
縁に沿って前記複数の点内に囲まれた前記不連続属性値
を決定するステップと、（ｃ）（ｉｉ）最低平均コスト出力値を持つ前記超矩形
の縁に沿って前記複数の点内に囲まれた前記連続属性値
を決定するステップと、（ｃ）（ｉｉｉ）ステップ（ｃ）（ｉ）で決定された最
低平均コスト出力値と、ステップ（ｃ）（ｉｉ）で決定
された最低平均コスト出力値とを比較して、前記最低平
均コスト出力値を持つ属性を決定するステップと、（ｃ）（ｉｖ）ステップ（ｃ）（ｉｉｉ）で決定された
前記属性を含む前記組における全ての連続属性値の点と
全ての不連続属性値の点とを、前記超矩形から除去する
ステップと、（ｃ）（ｖ）前記超矩形内の前記点の総数がβ₀に等し
くなるまで、ステップ（ｃ）（ｉ）からステップ（ｃ）
（ｉｖ）を繰り返すステップとを更に有することを特徴
とするコンピュータシステム内で患者導入規則法を用い
て大型ディスク常駐データ・セットを分析する方法。
【請求項４】請求項３記載の方法において、ステップ（ｃ）（ｉ）が、１）Ａ_d個の不連続ヒストグラムと、前記不連続属性値
を含んだ各不連続属性に対して１と、前記不連続属性値
を含んだ各組に対して前記コスト出力値の平均とを生成
するステップと、２）各不連続属性値に対して前記平均のコスト出力値を
比較して、前記最低平均コスト出力値を持つ前記不連続
属性値を決定するステップとを更に有することを特徴と
する患者導入規則法を用いてコンピュータシステム内で
大型ディスク常駐データ・セットを分析する方法。
【請求項５】請求項４記載の方法において、ステップ１）が、一つのコードを前記不連続属性リスト
に割り当て、ステップ（ｃ）を最適化するため前記割り
当てたコードに基づいて前記不連続属性リストを分類
し、前記不連続属性値がその不連続属性に従って一緒に
基礎となるようにするステップを更に含むことを特徴と
するコンピュータシステム内で患者導入規則法を用いて
大型ディスク常駐データ・セットを分析する方法。
【請求項６】請求項３記載の方法において、各連続属性リストが、始動ポインタを各連続属性リスト
内の第１行に向けた状態で増加順序に分類され、第２連
続属性リストが、終了ポインタを各第２連続属性リスト
内の第１行に向けた状態で減少順序に分類され、ステップ（ｃ）（ｉｉ）が、１）ステップ（ｃ）（ｉ）で決定され、前記超矩形内に
囲まれた不連続属性値を含んだ組の総数に基づいたＡ_c
個の連続属性リストの各々内に、始動カットオフ値をマ
ークするステップと、２）ステップ（ｃ）（ｉ）で決定され、前記超矩形内に
囲まれた不連続属性値を含んだ組の前記総数に基づいた
前記第２連続属性リストの各々内に、終了カットオフ値
をマークするステップと、３）前記Ａ_c個の連続属性リストの各々に対して前記始
動ポインタと前記カットオフ値との間で、各連続出力値
に関する始動コスト平均値を決定するステップと、４）前記第２コスト属性の各々に対して前記カットオフ
値と前記終了ポインタとの間で、各連続出力値に関する
終了コスト平均値を決定するステップと、５）前記連続属性及び前記平均コスト出力値をそれぞれ
含むＡ_c個の連続ヒストグラムを生成し、前記連続属性
及び前記平均コスト出力値が、前記始動コスト平均値と
前記終了コスト平均値とのうち小さい方であるようにす
るステップと、６）各連続ヒストグラムに対して前記平均コスト出力値
を比較して、前記最低平均コスト出力値を持つ前記連続
属性値を決定するステップとを更に含むことを特徴とす
るコンピュータシステム内で患者導入規則法を用いて大
型ディスク常駐データ・セットを分析する方法。
【請求項７】請求項６記載の方法において、前記不連続属性リストが、割り当てられたコードに基づ
いて分類され、それによってその不連続属性に従った前
記不連続属性をグループ化し、ステップ（ｃ）（ｉｖ）が、ステップ（ｃ）（ｉｉｉ）で決定された前記属性が連続
属性である場合に、１）前記始動コスト平均値が前記終了コスト平均値より
も小さい時に、前記連続属性値の前記インデックスを使
用した前記始動ポインタと前記始動カットオフ値との間
で、各連続属性値に対して前記コスト・フラグをゼロに
等しく設定して、前記コスト・フラグを参照するステッ
プと、２）前記始動ポインタを前記始動カットオフ値に等しく
設定するステップと、３）前記終了コスト平均値が前記始動コスト平均値より
も小さい時に、前記連続属性値の前記インデックスを使
用した前記終了カットオフ値と前記終了ポインタの間で
各連続属性値に対して前記コスト・フラグをゼロに等し
く設定するステップと、４）前記終了ポインタを前記終了カットオフ値に等しく
設定するステップと、ステップ（ｃ）（ｉｉｉ）で決定された前記属性が不連
続属性である場合に、５）前記不連続属性値の前記インデックスを使用して、
ステップ（ｃ）（ｉｉｉ）で決定された前記属性に等し
い各不連続属性値に関する前記コスト・フラグをゼロに
等しく設定し、前記コスト・フラグを参照するステップ
とを更に含むことを特徴とするコンピュータシステム内
で患者導入規則法を用いて大型ディスク常駐データ・セ
ットを分析する方法。
【請求項８】請求項２記載の方法において、全コスト出力が、ステップ（ｃ）に従う超矩形によって
囲まれた多次元空間全体での前記コスト出力値の合計で
あり、前記コスト属性リストがコストカウンタを含み、ステップ（ｄ）が、（ｄ）（ｉ）ゼロに設定された前記コスト・フラグを持
つ各組に対して、前記超矩形に取り囲まれなかった組に
属する各点に関して前記コストカウンタを増加するステ
ップと、（ｄ）（ｉｉ）最高平均コスト出力値を持つ前記超矩形
に囲まれた点の範囲外で前記不連続属性値を決定するス
テップと、（ｄ）（ｉｉｉ）最高平均コスト出力値を持つ前記超矩
形に囲まれた点の範囲外で前記連続属性値を決定するス
テップと、（ｄ）（ｉｖ）ステップ（ｄ）（ｉｉ）で決定された前
記最高平均コスト出力値とステップ（ｄ）（ｉｉｉ）で
決定された前記最高平均コスト出力値とを比較して、前
記最高平均コスト出力値を持つ属性を決定するステップ
と、（ｄ）（ｖ）ステップ（ｄ）（ｉｖ）で決定された前記
属性を含んだ前記組に属する全ての連続属性値の点と全
ての不連続属性値の点とに対して前記コストカウンタを
減少させ、ゼロに等しい前記コストカウンタを持つ前記
属性が前記超矩形内に囲まれるようにするステップと、（ｄ）（ｖｉ）前記超矩形に囲まれた前記複数の点全体
での前記コスト出力値の合計が前記全コスト出力よりも
小さくなるまで、ステップ（ｄ）（ｉ）からステップ
（ｄ）（ｖ）を繰り返すステップとを更に含むことを特
徴とするコンピュータシステム内で患者導入規則法を用
いて大型ディスク常駐データ・セットを分析する方法。
【請求項９】請求項８記載の方法において、ステップ（ｄ）（ｉｉ）が、１）Ａ_d個の不連続ヒストグラム、前記不連続属性値を
含んだ各不連続属性に対して１、及び、前記不連続属性
値を含んだ各組に対して前記コスト出力値の平均を生成
するステップと、２）各不連続属性値に対して前記平均コスト出力値を比
較して、前記最高平均コスト出力値を持つ前記不連続属
性値を決定するステップとを更に含むことを特徴とする
コンピュータシステム内で患者導入規則法を用いて大型
ディスク常駐データ・セットを分析する方法。
【請求項１０】請求項８記載の方法において、前記Ａ_c個の連続属性リストが増加順序に分類され、そ
の各々が始動ポインタと終了ポインタとを含み、両ポイ
ンタの間の前記連続属性リストが、前記超矩形内に囲ま
れるようにし、ステップ（ｄ）（ｉｉｉ）が、１）前記Ａ_c個の連続属性リスト内の前記連続属性リス
トを、前記Ａ_c個の連続属性リスト内の第１行と前記始
動ポインタとの間で減少順序に分類するステップと、２）ステップ（ｄ）（ｉｉ）で決定され、前記超矩形内
に囲まれた前記不連続属性値を含む組の総数に基づいた
Ａ_c個の連続属性リストの各々に、始動カットオフ値を
マークするステップと、３）ステップ（ｄ）（ｉｉ）で決定され、前記超矩形内
に囲まれた前記不連続属性値を含む組の総数に基づいた
Ａ_c個の連続属性リストの各々に、終了カットオフ値を
マークするステップと、４）前記Ａ_c個の連続属性リストの各々に関して前記始
動ポインタと前記カットオフ値との間で、各連続出力値
に対する始動コスト平均値を決定するステップと、５）前記Ａ_c個の連続属性リストの各々に関して前記終
了ポインタと前記カットオフ値との間で、各連続出力値
に対する終了コスト平均値を決定するステップと、６）前記連続属性及び前記平均コスト出力値をそれぞれ
含むＡ_c個の連続ヒストグラムを生成し、前記平均コス
ト出力値が前記始動コスト平均値と前記終了コスト平均
値とのうち大きい方であるようにするステップと、７）各連続ヒストグラム用の前記平均コスト出力値を比
較して、前記最高平均コスト出力値を持つ前記連続属性
値を決定するステップとを更に含むことを特徴とするコ
ンピュータシステム内で患者導入規則法を用いて大型デ
ィスク常駐データ・セットを分析する方法。
【請求項１１】請求項１０記載の方法において、前記不連続属性リストが、割り当てられたコードに基づ
いて分類され、それによってその不連続属性に従った前
記不連続属性値をグループ化し、ステップ（ｄ）（ｖ）が、ステップ（ｄ）（ｉｖ）で決
定された前記属性が連続属性である場合に、１）前記始動コスト平均値が前記終了コスト平均値より
も小さい時、前記連続属性値のインデックスを使用した
前記始動カットオフ値と前記始動ポインタとの間で、各
連続属性値に関する前記コストカウンタを減少させて、
前記コストカウンタを参照するステップと、２）前記始動ポインタを始動カットオフ値に等しく設定
するステップと、ステップ（ｄ）（ｉｖ）で決定された
前記属性が不連続属性である場合に、３）ステップ（ｄ）（ｉｖ）で決定された前記属性に等
しい各不連続属性値に関する前記コストカウンタを減少
させ、前記不連続属性値の前記インデックスを使用して
前記コストカウンタを参照するステップとを更に有する
ことを特徴とするコンピュータシステム内で患者導入規
則法を用いて大型ディスク常駐データ・セットを分析す
る方法。
【請求項１２】大型ディスク常駐データ・セットを有
する並列アーキテクチャ・コンピュータシステム内で、
患者規則導入法（ＰＲＩＭ）を用いて前記ディスク常駐
データ・セットを並列に分析する方法であって、前記方法が、（ａ）Ａ_c個の連続属性、Ａ_d個の分連続属性、二次元
パラメータβ₀、及び、コスト属性から成るデータの関
係表を受け取り、前記コスト属性が入力としての連続属
性値と不連続属性値とに基づいたコスト出力値を表示す
るステップと、（ｂ）前記連続属性値と前記不連続属性値とによって定
義された多次元空間を囲んだ超矩形を形成し、前記連続
属性値と前記不連続属性値とが多次元空間内の点として
表示されるようにするステップと、（ｃ）前記データをＡ_c＋２個のリストに分離し、各連
続属性に関して１つのリストを生成して、前記連続属性
値を含んだＡ_c個の連続属性リストと、Ａ_d個の不連続
属性及び不連続属性値を含んだ不連続属性リストと、前
記コスト出力値を含んだコスト属性リストとを形成する
ようにするステップと、（ｄ）前記Ａ_c個の連続属性リストの各行内で一つの連
続属性値に基づいた複数のプロセッサ間に並列にＡ_c個
の連続属性リストを分類するステップと、（ｅ）前記コスト属性リストのコピーをそれぞれ含んだ
複数のプロセッサを横切って前記Ａ_c個の連続属性リス
トと前記不連続属性リストとをストライピングするステ
ップと、（ｆ）簡約化と、前記コスト出力値の平均に基づいた一
対全ブロードキャストとを使って、前記超矩形の縁に沿
って複数の点を、前記超矩形内に囲まれた前記点の総数
が前記二次元パラメータに等しくなるまで前記複数の点
から除去するステップと、（ｇ）簡約化と、一対全ブロードキャストとを用いた前
記超矩形によって囲まれた前記超矩形の縁に沿って、除
去された不連続属性値の点、及び前記連続属性値の点
を、前記超矩形によって囲まれた多次元空間全体での前
記コスト出力値の合計が変化するまで、加えるステップ
とを更に含むことを特徴とする並列アーキテクチャ・コ
ンピュータシステム内で患者導入規則法を用いて大型デ
ィスク常駐データ・セットを並列に分析する方法。
【請求項１３】請求項１２記載の方法であって、ステップ（ｃ）が、（ｃ）（ｉ）前記各属性が前記関係データ表内で属する
組のインデックスであるようなラベルを、前記Ａ_c個の
連続属性リストの各々と前記不連続属性リストと前記コ
スト属性リストとに加えるステップと、（ｃ）（ｉｉ）前記出力値を含む前記組が前記超矩形内
に囲まれたか否かを表示し、初期値を１に設定するコス
ト・フラグであるようなラベルを、前記コストリストに
加えるステップとを更に有することを特徴とする並列ア
ーキテクチャ・コンピュータシステム内で患者導入規則
法を用いて大型ディスク常駐データ・セットを並列に分
析する方法。
【請求項１４】請求項１３記載の方法において、ステップ（ｆ）が、（ｆ）（ｉ）簡約化を使用して、最低平均コスト出力値
を持つ前記超矩形の縁に沿って複数の点内に囲まれた前
記不連続属性値を決定するステップと、（ｆ）（ｉｉ）簡約化を使用して、最低平均コスト出力
値を持つ前記超矩形の縁に沿って複数の点内に囲まれた
前記連続属性値を決定するステップと、（ｆ）（ｉｉｉ）ステップ（ｆ）（ｉ）で決定された前
記最低平均コスト出力値と、ステップ（ｆ）（ｉｉ）で
決定された前記最低平均コスト出力値とを比較して、前
記最低平均コスト出力値を持つ属性を決定するステップ
と、（ｆ）（ｉｖ）前記属性の前記インデックスを使用し
て、前記コスト・フラグをゼロに設定することによって
前記超矩形から、ステップ（ｃ）（ｉｉｉ）で決定され
た前記属性を含む前記組のうち全ての連続属性値の点と
全ての不連続属性値の点とを除去して、一対全ブロード
キャストを使った前記複数のプロセッサの各々内に含ま
れた前記コスト・リスト内の前記コスト・フラグを参照
するステップと、（ｆ）（ｖ）前記超矩形内の点の前記総数がβ₀に等し
くなるまで、ステップ（ｆ）（ｉ）から（ｆ）（ｉｖ）
を繰り返すステップとを更に有することを特徴とする並
列アーキテクチャ・コンピュータシステム内で患者導入
規則法を用いて大型ディスク常駐データ・セットを並列
に分析する方法。
【請求項１５】請求項１４記載の方法において、全コスト出力が、ステップ（ｆ）に従う前記超矩形によ
って囲まれた多次元空間全体での前記コスト出力値の合
計であり、前記コスト属性リストがコストカウンタを含
み、ステップ（ｇ）が、（ｇ）（ｉ）ゼロに設定された前記コスト・フラグを持
つ各組に対して、前記複数のプロセッサの各々の間に、
前記超矩形内に取り囲まれなかった前記組に属する各点
に関する前記コストカウンタを増加させるステップと、（ｇ）（ｉｉ）簡約化を用いて、最高平均コスト出力値
を持つ前記超矩形で囲まれた点の範囲外で前記不連続属
性値を決定するステップと、（ｇ）（ｉｉｉ）簡約化を用いて、最高平均コスト出力
値を持つ前記超矩形に囲まれた点の範囲外で前記連続属
性値を決定するステップと、（ｇ）（ｉｖ）ステップ（ｇ）（ｉｉ）で決定された前
記最高平均コスト出力値とステップ（ｇ）（ｉｉｉ）で
決定された前記最高平均コスト出力値とを比較し、どの
属性が前記最高平均コスト出力値を持つかを決定するス
テップと、（ｇ）（ｖ）ステップ（ｇ）（ｉｖ）で決定された前記
属性を含む前記組に属する全ての連続属性値の点と全て
の不連続属性値の点とに関する前記コストカウンタを減
少させ、前記属性の前記インデックスを使って、一対全
ブロードキャストを用いた前記複数のプロセッサの各々
内に含んだ前記コスト・リスト内の前記コスト・フラグ
を参照し、ゼロに設定された前記コストカウンタを持つ
属性が前記超矩形内に囲まれるようにするステップと、（ｇ）（ｖｉ）前記超矩形内に囲まれた前記複数の点全
体での前記コスト出力値の合計が前記全コスト出力より
も少なくなるまで、ステップ（ｇ）（ｉ）からステップ
（ｇ）（ｖ）を繰り返すステップとを更に有することを
特徴とする並列アーキテクチャ・コンピュータシステム
内で患者導入規則法を用いて大型ディスク常駐データ・
セットを並列に分析する方法。
【請求項１６】大型ディスク常駐データ・セットを有
する対称的マルチプロセッサ・アーキテクチャ・コンピ
ュータシステム内で、患者規則導入法（ＰＲＩＭ）を使
用して、前記ディスク常駐データ・セットを並列に分析
する方法であって、前記方法が、（ａ）Ａ_c個の連続属性、Ａ_d個の不連続属性、二次元
パラメータβ₀、及び、コスト属性を受け取って、前記
コスト属性が、入力として連続属性値及び不連続属性値
に基づいたコスト出力値を表示するステップと、（ｂ）前記連続属性値と前記不連続属性値とによって定
義された多次元空間を囲む超矩形を形成し、前記連続属
性値と前記不連続属性値とが多次元空間内で点として表
示されるようにするステップと、（ｃ）前記データをＡ_c＋２個のリストに分離し、各連
続属性に対してリストを生成し、前記連続属性値を含ん
だＡ_c個の連続属性リストと、Ａ_d個の不連続属性及び
不連続属性値を含んだ不連続属性リストと、前記コスト
出力値を含んだコスト属性リストとを形成するようにす
るステップと、（ｄ）Ａ_c個の連続属性リストの各行内に、連続属性値
に基づいた前記Ａ_c個の連続属性リストを並行に分類す
るステップと、（ｅ）共有ディスクにおける複数の部分の全体でＡ_c個
の連続属性リストと前記不連続属性リストとをストライ
ピングし、前記共有ディスクの各部分が前記コスト属性
リストのコピーを含ませるようにするステップと、（ｆ）前記超矩形内に囲まれた前記点の総数が二次元パ
ラメータに等しくなるまで、簡約化と、前記コスト出力
値の平均に基づいた一対全ブロードキャストとを用い
て、前記超矩形の縁に沿って複数の点を、前記複数の点
から除去するステップと、（ｇ）前記超矩形によって囲まれた前記多次元空間全体
での前記コスト出力値の合計が変化するまで、簡約化
と、一対全ブロードキャストとを用いて、前記超矩形の
前記縁に沿って、除去された不連続属性値の点と連続属
性値の点とを加えるステップとを有することを特徴とす
る対称的マルチプロセッサ・アーキテクチャ・コンピュ
ータ内で患者導入規則法を用いて大型ディスク常駐デー
タ・セットを並列に分析する方法。
【請求項１７】請求項１６記載の方法において、ステップ（ｃ）が、（ｃ）（ｉ）前記Ａ_c個の連続属性リストの各々と、前
記不連続属性リストと、前記コスト属性リストとに、前
記各々の属性が前記関係データ表内に属する組のインデ
ックスであるようなラベルを加えるステップと、（ｃ）（ｉｉ）前記出力値を含んだ前記組が前記超矩形
内に囲まれたか否かを表示し、最初に１に設定されるコ
スト・フラグであるようなラベルに、前記コスト・リス
トを加えるステップとを更に有することを特徴とする対
称的マルチプロセッサ・アーキテクチャ・コンピュータ
内で患者導入規則法を用いて大型ディスク常駐データ・
セットを並列に分析する方法。
【請求項１８】請求項１７記載の方法において、ステップ（ｆ）が、（ｆ）（ｉ）簡約化を使用して、最低平均コスト出力値
を持つ前記超矩形の縁に沿って、前記複数の点内で囲ま
れた前記不連続属性値を決定するステップと、（ｆ）（ｉｉ）簡約化を使用して、最低平均コスト出力
値を持つ前記超矩形の縁に沿って、前記複数の点内で囲
まれた前記連続属性値を決定するステップと、（ｆ）（ｉｉｉ）ステップ（ｆ）（ｉ）で決定された前
記最低平均コスト出力値とステップ（ｆ）（ｉｉ）で決
定された前記最低平均コスト出力値とを比較して、前記
最低平均コスト出力値を持つ属性を決定するステップ
と、（ｆ）（ｉｖ）前記属性の前記インデックスを使用して
前記コスト・フラグをゼロに設定することによって前記
超矩形から、ステップ（ｆ）（ｉｉｉ）で決定された前
記属性を含む前記組のうち全ての連続属性値の点と全て
の不連続属性値の点とを除去し、前記一対全ブロードキ
ャストを用いた前記複数のプロセッサの各々内に含まれ
た前記コストリスト内の前記コスト・フラグを参照する
ステップと、（ｆ）（ｖ）前記超矩形内の点の前記総数がβ₀に等し
くなるまで、ステップ（ｆ）（ｉ）からステップ（ｆ）
（ｉｖ）を繰り返すステップとを更に有することを特徴
とする対称的マルチプロセッサ・アーキテクチャ・コン
ピュータ内で患者導入規則法を用いて大型ディスク常駐
データ・セットを並列に分析する方法。
【請求項１９】請求項１８記載の方法において、全コスト出力が、ステップ（ｆ）に従う前記超矩形によ
って囲まれた前記多次元空間全体での前記出力値の合計
であり、前記コスト属性リストがコストカウンタを含
み、ステップ（ｇ）が、（ｇ）（ｉ）ゼロに設定された前記コスト・フラグを持
つ各組に対して、前記共有ディスクにおける前記複数の
部分の各々の間で、前記超矩形で取り囲まれなかった組
に属する各点に対して前記コストカウンタを増加させる
ステップと、（ｇ）（ｉｉ）簡約化を用いて、最高平均コスト出力値
を持つ前記超矩形によって囲まれた点の範囲外で前記不
連続属性値を決定するステップと、（ｇ）（ｉｉｉ）簡約化を用いて、最高平均コスト出力
値を持つ前記超矩形によって囲まれた点の範囲外で前記
連続属性値を決定するステップと、（ｇ）（ｉｖ）ステップ（ｇ）（ｉｉ）で決定された前
記最高平均コスト出力値とステップ（ｇ）（ｉｉｉ）で
決定された前記最高平均コスト出力値とを比較し、どの
属性が前記最高平均コスト出力値を持つかを決定するス
テップと、（ｇ）（ｖ）ステップ（ｇ）（ｉｖ）で決定された前記
属性を含む組に属する全ての連続属性値の点と前記不連
続属性値の点とに対して前記コストカウンタを減少さ
せ、前記属性の前記インデックスを用いて、前記一対全
ブロードキャストを用いた前記複数のプロセッサの各々
内に含む前記コスト・リスト内の前記コスト・フラグを
参照し、ゼロに等しい前記コストカウンタを持つ属性が
前記超矩形内で囲まれるようにするステップと、（ｇ）（ｖｉ）前記超矩形によって囲まれた前記複数の
点全体での前記コスト出力値の合計が前記全コスト出力
よりも小さくなるまで、ステップ（ｇ）（ｉ）からステ
ップ（ｇ）（ｖ）を繰り返すステップとを更に有するこ
とを特徴とする対称的マルチプロセッサ・アーキテクチ
ャ・コンピュータ内で患者導入規則法を用いて大型ディ
スク常駐データ・セットを並列に分析する方法。