JP2001117947A - 高次元データを分類するための方法及びそれにより形成される分類木並びにコンピュータシステム - Google Patents

高次元データを分類するための方法及びそれにより形成される分類木並びにコンピュータシステム

Info

Publication number
JP2001117947A
JP2001117947A JP2000095559A JP2000095559A JP2001117947A JP 2001117947 A JP2001117947 A JP 2001117947A JP 2000095559 A JP2000095559 A JP 2000095559A JP 2000095559 A JP2000095559 A JP 2000095559A JP 2001117947 A JP2001117947 A JP 2001117947A
Authority
JP
Japan
Prior art keywords
class
entry
data
nearest neighbors
attributes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000095559A
Other languages
English (en)
Inventor
Surivasutava Anuragu
アヌラグ・スリヴァスタヴァ
D Ramkumar G
ジー・ディー・ラムクマール
Sin Viniito
ヴィニート・シン
Ranka Ranjai
ランジャイ・ランカ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of JP2001117947A publication Critical patent/JP2001117947A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification

Abstract

(57)【要約】 【課題】 本発明は高次元の散在するデータセットを分
類するための装置及び方法を提供する。 【解決手段】 生データトレーニングセットは、類別表
現からブール表現に変換することによりフラット化され
る。その後フラット化したデータを用いて、トレーニン
グセットに含まれない新しいデータを分類するためのク
ラスモデルを構築する。一実施例では、クラスモデルは
決定木の形式を取り、多数項目セット及びクラスタ情報
が、分類のための属性として用いられる。別の実施例で
は、クラスモデルは、分類されるべきデータの最隣接部
を基にする。本発明の利点は、データをフラット化し
て、属性において生じる人為的な順序付けを排除するこ
とにより、分類精度が向上する点である。別の利点は、
多数項目セット及びクラスタリングを使用することによ
り、分類精度が向上する点である。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、データを分類する
ためのコンピュータソフトウエアに関する。詳細には、
本発明はフラット化及び属性の付加を用いて散在する高
次元データの分類を行い、データ属性に基づいてデータ
クラスをより正確に予測することに関する。
【0002】
【従来の技術】分類はデータオブジェクトの属性に基づ
いて、データオブジェクトを所定のセットからの特定ク
ラスに割り当てるプロセスである。分類は統計及び機械
学習の分野において研究されている共通の課題である。
周知の分類方法には、決定木、統計的手法、ルール生
成、遺伝的アルゴリズム及びニューラルネットワークな
どがある。
【0003】
【発明が解決しようとする課題】分類の課題はトレーニ
ングセットと呼ばれる入力データセットにあり、トレー
ニングデータセットはそれぞれいくつかの属性(次元)
を有するいくつかのエントリを含む。n個の取り得る属
性を有するトレーニングセットは、n次元であると言わ
れる。その目的は、トレーニングセットを用いて、その
属性に基づいてクラスラベルのモデルを構築し、そのモ
デルを用いてトレーニングセットからのもの以外の他の
データを分類できるようにすることである。そのモデル
は、当分野では周知の決定木の形式をとる場合が多い。
【0004】典型的な分類問題の一例は、自動車保険の
コストを計算するために運転者の危険率を決定する問題
である。一人の運転者(またはエントリ)は、年齢、性
別、婚姻、住所、車の製造元、型式、車種といった多く
の関連する属性(次元)を有する。これらの属性を用い
て、保険会社はその運転者が自社に与える危険度がどの
程度かを判定する。危険度は、その運転者が結果的に属
するクラスである。
【0005】分類問題の別の例は、病院における患者の
診断群(diagnostic related group: DRG)の分類問
題である。すなわち、その問題はその患者に提供される
サービスに基づいて患者の最終的なDRGを判定するこ
とである。 病院において患者に提供できる各サービス
を1つの属性と考えるなら、属性(次元)の数は多い
が、全ての提供可能なサービスが全患者に提供されるわ
けではないため、大部分の属性は、任意の特定の患者で
は「未提供」値をとる。結果的にそのような例では、デ
ータセットは高次元の散在したデータセットになる。
【0006】属性において行われる人為的な順序付けに
より、分類の精度が低下するという問題がある。すなわ
ち、二人の患者がそれぞれ同じ6種類のサービスを受け
ているが、患者の各ファイルに別の順序で記録されてい
る場合には、分類モデルは二人の患者を2つの異なるケ
ースとして取り扱うことになり、二人の患者は異なるD
RGを割り当てられる可能性がある。
【0007】高次元の散在するデータセットに関係する
分類の別の問題は、決定木を構築することが非常に複雑
になることである。各エントリに対して実現可能な属性
が、数百、さらには数千以上になる場合がある。従っ
て、決定木において各ノード分割判定基準の基となる実
現可能な属性が数百或いは数千にものぼる。多数の属性
が存在することは、各トレーニングセットに基づいて決
定木を構築するのに要する複雑性が増す一因となる。
【0008】本発明の目的は、上記した問題を解決する
分類システムを提供することにある。
【0009】また、本発明の目的は、高次元の散在する
データセットを精度を低下させることなく分類する方法
及び装置を提供することにある。
【0010】
【課題を解決するための手段】一実施例では、本発明は
高次元データを分類するための方法及び装置を提供す
る。本発明は、コンピュータメモリのデータをソートす
るステップと、データをブール表現にフラット化するス
テップと、そのフラット化したデータに基づいて分類モ
デルを構築するステップとにより分類を実行する。分類
モデルは決定木でも、他の決定構造でも可能である。本
発明の一態様では、多数(大きい)項目セットが、決定
構造の基となる付加属性として用いられる。本発明の別
の態様では、決定構造の基となる付加属性を与えるため
にクラスタリングが実行される。
【0011】別の実施例では、本発明は最隣接技術(ne
arest neighbor techniques)を用いる高次元データを
分類するための方法及び装置を提供する。データはコン
ピュータメモリに格納され、ブール表現にフラット化さ
れ、エントリのm個の最隣接部に基づいて分類される。
【0012】本発明の利点は、データをフラット化する
ことにより、不均一な記録手順を用いるためにデータに
導入されるあらゆる人為的な順序付けが除外され、より
高精度の結果がもたらされるという点である。
【0013】本発明の別の利点は、多数項目セットに基
づく付加属性及びクラスタリングを利用することによ
り、結果的に分類時に基となる決定木の精度が改善され
るという点である。これは、どの項目セットが多数項目
セットであるかを判定し、その後決定木ノードの分割判
定基準が基とする付加属性として多数項目セットを使用
することにより実現される。またクラスタリングを用い
て、決定構造を構築する際の精度を高めることもでき
る。
【0014】
【発明の実施の形態】本発明のさらに別の利点は、図面
を参照しつつ以下の詳細な説明を検討することにより明
らかになるであろう。
【0015】以下、特定の形態を参照しつつ典型的な実
施例を説明する。当業者には、請求の範囲から逸脱する
ことなく種々の変形及び変更例が実現可能であることが
理解されよう。
【0016】図1−図6を参照しつつ本発明の典型的な
実施例を説明する。図1は本発明の一実施例によるコン
ピュータシステム10を示す。そのコンピュータシステ
ム10は、バス13に接続されたプロセッサ(CPU)
12を備える。またランダムアクセスメモリ(RAM)
14及びハードディスクメモリ16もバス13に接続さ
れており、プロセッサ12がアクセスできるようになっ
ている。ハードディスク16は、以下に記載されるよう
に、本発明に必要とされるプログラム及びデータを格納
する構造になっている。生データを入力するためにオプ
ションのユーザインターフェース18が設けられる。一
実施例では、入力/出力装置は、キーボード、マウス及
びモニタを含む。またオプションのネットワークインタ
ーフェース20も設けられる。生データは種々の異なる
方法、例えばユーザインターフェース18或いはネット
ワークインターフェース20を介して入力できることを
理解されたい。
【0017】ハードディスク16はコンピュータシステ
ム10のプログラム及びデータを格納する構造になって
いる。RAM及びハードディスクを含むメモリは、3つ
の主要構成要素、すなわち通信手順22、制御手順28
及びデータ42に分割される。通信手順22は生データ
をメモリに読み込むためのルーチン24及び26を含
む。制御手順28は本発明の分類機能を実行するルーチ
ン30−40を含む。メモリのデータ部分は、生データ
44、フラット化データ46、決定構造48及び枝刈り
された決定構造50を格納する。これらのルーチンは以
下により詳細に記載される。
【0018】図2のフロー図を参照しつつ本発明の動作
を記載する。ステップ102では、通信手順22が入力
として生データを読み込む。生データはエントリと、各
エントリに対するいくつかの属性とを含む。属性は典型
的には分類別の属性であるが、連続した属性であっても
よい。生データの一例が図3に示される。生データは順
序付けされていても、いなくてもよい。すなわち各エン
トリの属性は必ずしも任意の昇順或いは降順にソートさ
れた状態である必要はない。カテゴリないし分類別の属
性データは、昇順或いは降順にソートされるのに適して
いない性質を有することも多い。また分類するために、
属性の順序付けが不適切であることも多い。nをデータ
エントリの異なる可能な属性の全数とする場合、データ
はn次元を有すると言われる。ステップ104では、デ
ータがエントリ及び属性により編成される。
【0019】生データを受信した後、ステップ106で
は、フラット化手順30によりデータをフラット化し
て、ブール表現にする。フラット化では、長さnのブー
ル表現を用いてカテゴリないし分類別の属性をブール属
性に変換する。ただしnはデータエントリが取りうる異
なる属性の全数である。生データエントリ内に対応する
属性が存在する場合には、ブール表現のn番目の位置は
「1」であり、生データエントリ内に対応する属性が存
在しない場合には、n番目の位置の表現は「0」であ
る。その生成されたデータはn次元であると言われる。
図3の生データが、図4においてフラット化形式で示さ
れる。
【0020】本発明の一態様は多数(大きい)項目セッ
トを使用する。この態様はステップ108及び110を
利用する。ステップ108は多数項目セットの使用を識
別する。ステップ110は、多数項目セット手順34を
利用するフラット化データを用いて、どの属性が多数項
目セットであるかを判定する。I=I1,I2...,I
nを一組のバイナリ属性とする。Tをパターンからなる
トレーニングセットとする。各パターンtはIのサブセ
ットである。パターンtは、X⊂tの場合、項目セット
Xを利用可能にする。基数kの項目セットはk項目セッ
トと呼ばれる。項目セットが利用可能であることは統計
的重要性の尺度であり、項目セットを含むパターンの部
分であるものと確定される。多数項目セットは、所与の
閾値より大きい利用可能な項目セットである。そのよう
な閾値は典型的には3−10%であり、それは最も正確
な決定木をもたらすパーセンテージに基づいて確定され
る。しかしながら、閾値は3%未満、或いは10%を超
える値も取り得ることは理解されたい。
【0021】いくつかの既知のアルゴリズムを用いて多
数項目セットを導出することもできる。そのようなアル
ゴリズムの1つはAprioriアルゴリズムである(Agrawal
及びSrikant, Fast Algorithms for Mining Associatio
n Rule, Proc. of the 20thInternational Conference
on Very Large Database, Santiago, Chile, 1994に記
載される)。決定木は、以下に詳述されるように、分類
中に分割判定基準が基にする属性として多数項目セット
を用いても生成される。利用可能性が十分に高くなるよ
うに選択される場合には、多数項目セットの数は、多数
の初期属性より実質的に小さくなることもある。決定木
の精度を高める他に、多数項目セットが、分割判定基準
が基にする適切な属性である場合には、決定木を構築す
るためにかかる全時間は、初期属性の全てに基づいて決
定木を構築するのにかかる時間より実質的に短くなる可
能性がある。また、最終的な決定木も初期属性に基づい
た決定木より実質的に小さくすることが可能である。
【0022】本発明の別の態様はクラスタリングを利用
する。この態様はステップ111及び112を用いる。
ステップ111はクラスタリングの使用を識別する。ス
テップ112は、クラスタリング手順35を利用したフ
ラット化データを用いて、各データエントリにクラスタ
リング属性を付加する。クラスタリングは、最初に可能
な属性の組をクラスタにグループ分けすることにより行
われる。次に、各エントリは、各クラスタにおけるエン
トリに含まれる内容の度合いに関係する1つ以上の重み
を割当てられる。これらの重みは、分類が基づくことが
できる付加属性としてエントリに付加される。
【0023】例えば食料雑貨店では、消費者が購入でき
る品目が10,000項目存在する場合もある。しかし
ながら典型的な消費者は、一度に約30品目しか購入し
ない。消費者が購入することができた10,000品目
はぞれぞれ肉、乳製品、野菜、パン等のクラスタに属す
る。その消費者が購入した約30品目はそれぞれ所定の
クラスタの1つに属する。その後その消費者は、あるク
ラスタに属する購入した品目の数−対−購入した品目の
全数に基づいて、各クラスタのための重みを割り当てら
れる。重みは、消費者が各クラスタに属する度合を表
す。
【0024】クラスタリングは当分野ではよく知られて
いる。利用可能な1つのクラスタリング法は、関連規則
ハイパーグラフクラスタリング(association rule hyp
ergraph clustering)であり、Han, Karypis, Kumar及
びMobasherによるClusteringBased on Association Rul
e Hypergraph, SIGMOD '97 Workshop on Research Issu
es on Data Mining and Knowledge Discovery, 1997に
詳述される。
【0025】フラット化されたデータ及び、多数項目セ
ットとクラスタのいずれもない組み合わせを含む多数項
目セットとクラスタとの任意の組み合わせを用いて、ス
テップ113では、分類手順32は、この後の分類が基
とするモデルを構築する。決定木は当分野では周知であ
り、作成されたそのようなモデルの一形式である。
【0026】決定木の作成は2つの段階、すなわち構成
段階と枝刈り段階とを含む。構成段階は、中止判定基準
が満たされるまで、例えば副区画が主に(或いは完全
に)1つのクラスの例を含むまで、トレーニングセット
が2つ以上の副区画に繰返し分割される必要がある。従
って作成は、分割判定基準を木の全ての内部ノードに適
用することを伴う。内部ノードは、少なくとも1つの子
(下位)ノードを有する任意のノードと定義される。こ
れらの分割判定基準は、所定の分割関数を適用すること
により確定される。木の各内部ノードにおける分割判定
基準は、用いられるなら多数項目セット及びクラスタ属
性を含む、可能なエントリの属性の組の属性の1つに基
づいている。木は、ノードが木の根(ルート)ノードか
ら離れただけエントロピーが減少するように作成され
る。決定木は、全データセットを表す根(ルート)で生
成された結果的な階層木構造である。図6は、図5に示
されるサンプルデータを基に作成された決定木を示す。
図6では、各ノードで評価されたデータセットは、下の
分割判定基準とともに括弧内に記載される。ただし決定
木は必ずしも対称とは限らない。
【0027】決定木の作成及び枝刈りは当分野で知られ
ており、決定木作成及び枝刈りアルゴリズムの例が、Me
hta, Agrawal及びRissanenによるSLIQ: A Fast Scalabl
e Classifier for Data Mining, Proc. of the Fifth I
nternational Conference onExtending Database Techn
ology, Avignon, France, 1996に記載されている。
【0028】本発明の別の実施例では、データがフラッ
ト化された後、エントリeに対するクラス判定が最隣接
技術を用いて行われる。これは、eのm個の最隣接部を
見つけ、その後m個の最隣接部のクラス割当てに基づい
てeのクラスを割り当てることにより行われる。式
(1)に示されるように、2つのデータエントリ間のユ
ークリッド距離を用いて、最も近いm個の隣接部を見つ
ける。
【0029】
【数1】 最隣接部の判定は当分野において知られている。2つの
主なパラメータがある。すなわち一般的に3から5まで
の値を持つmの値と、m個の隣接部のクラス帰属関係に
基づいて割り当てられるクラスの選択である。ここで3
通りの状況が生じる可能性がある。m個全ての隣接部が
同じクラスに属するか、1つのクラスが多数決による
か、或いは1つの結合関係が存在するかである。第1の
場合には、割り当てられたクラスがm個の隣接部のクラ
スである。第2の場合には、割り当てられたクラスが隣
接部の多数決によるクラスである。第3の場合には、選
択により任意にこの結合関係を解消することができる。
別の実施例では、第2及び第3の場合には、最隣接部分
の全てのクラスが報告され、さらに別の要因に基づいて
エンドユーザが適切な選択を行うことができる。本発明
の別の態様では、2つ以上のクラスをエントリeに割り
当てることができる。
【0030】本発明の一態様では、最隣接部属性が次に
記載されるように重み付けされる。上記第2及び第3の
場合には、単純な多数決及び任意の規則を変更して、ト
レーニングセット内に存在する種々のクラスの逆の頻度
に基づいて重み付けされた投票を実現する。すなわち各
投票は、トレーニングセットのクラスのパーセンテージ
表現と逆に重み付けされる。ある1つの属性への重み付
けが大きすぎないように、各次元は一般的に、その次元
に従った標準偏差を用いて正規化される。
【0031】
【実施例】フラット化 本発明の装置及び方法は、フラット化に関して、病院の
患者の在院記録から得られたデータについて構成及び実
施された。データセットは2つの分娩に関連するDR
G、すなわち合併症を伴う分娩と合併症を伴わない分娩
とから構成された。以下に示すように、生データトレー
ニングセット分類誤り率は11.6%であった。生デー
タテストセット分類誤り率は14.9%であった。フラ
ット化されたデータトレーニングセット分類誤り率は
0.8%であり、フラット化されたデータテストセット
分類誤り率は1.4%であった。従って、データをフラ
ット化することにより、全体的な精度に著しい影響を与
える。
【0032】
【表1】 典型的な実施例及び最良の形態を開示してきたが、添付
の特許請求の範囲により画定される本発明の範囲内にお
いて、開示された実施例に対する変更例及び変形例を実
施することも可能である。
【0033】
【発明の効果】上記のように本発明によれば、フラット
化したデータ、多数項目セット及びクラスタリング等を
使用することにより、高次元の散在するデータセットを
精度良く分類する方法及び装置を提供することができ
る。
【図面の簡単な説明】
【図1】本発明の一実施例によるコンピュータシステム
を示す図である。
【図2】データを分類するためのフロー図である。
【図3】生データの第1のサンプルセットを示す図であ
る。
【図4】本発明によりフラット化した後の図3の生デー
タを示す図である。
【図5】生データの第2のサンプルセットを、結果的な
各エントリのクラスとともに示す図である。
【図6】図5の生データに基づく決定木を示す図であ
る。
【符号の説明】
10 コンピュータシステム 12 CPU 13 バス 14 RAM 16 ハードディスク 18 ユーザインターフェース 20 ネットワークインターフェース 22 通信手順 24 データベース入出力 26 ユーザ入出力 28 制御手順 30 フラット化手順 32 分類手順 34 多数項目セット手順 35 クラスタリング手順 36 木構築手順 38 枝刈り手順 40 最隣接手順 42 データ 44 生データ 46 フラット化データ 48 決定構造 50 枝刈り決定構造
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ヴィニート・シン アメリカ合衆国、カリフォルニア州 95014、クパーティノ、コルドヴァ・ロー ド 10535 (72)発明者 ランジャイ・ランカ アメリカ合衆国、フロリダ州 32606、ゲ インズヴィル、NW43ストリート 4830、 K166 Fターム(参考) 5B075 MM11 ND03 ND20 ND34 NK46 NR02 NR12 PP02 PP03 PQ02 UU26 UU40

Claims (19)

    【特許請求の範囲】
  1. 【請求項1】 高次元データを分類するための方法であ
    って、 (a)生データトレーニングセットをメモリに格納する
    ステップであって、前記生データがそれぞれ複数の属性
    を有する多数のエントリを含む、該格納ステップと、 (b)各生データエントリを個々のバイナリデータ列に
    変換することにより前記生データトレーニングセットを
    フラット化するステップと、 (c)前記フラット化されたトレーニングセットに基づ
    いてトレーニングセットにない特定のフラット化された
    データエントリを分類するステップと、を有することを
    特徴とする方法。
  2. 【請求項2】 前記分類ステップ(c)が、トレーニン
    グセットエントリの属性に基づいて決定木を構築するこ
    とにより実行されることを特徴とする請求項1に記載の
    方法。
  3. 【請求項3】 請求項2の方法により形成される分類
    木。
  4. 【請求項4】 前記分類ステップ(c)が、 (i)所定の閾値より大きい利用可能性を有する多数項
    目セットを識別するステップと、 (ii)前記多数項目セットに少なくとも部分的に基づ
    いて決定木を構築するステップと、により実行されるこ
    とを特徴とする請求項1に記載の方法。
  5. 【請求項5】 請求項4の方法により形成される分類
    木。
  6. 【請求項6】 前記分類ステップ(c)が、 (i)mを所定の値とする場合に、分類されるべき特定
    エントリのm個の最隣接部を決定するステップと、 (ii)m個の最隣接部の分類に基づいて前記特定エン
    トリの分類を選択するステップと、を有することを特徴
    とする請求項1に記載の方法。
  7. 【請求項7】 前記特定エントリの分類が、 m個全ての最隣接部が1つのクラスに属する場合に、前
    記1つのクラスが前記特定エントリに割り当てられるス
    テップと、 大部分のm個の最隣接部が1つのクラスに属する場合
    に、前記1つのクラスが前記特定エントリに割り当てら
    れるステップと、 m個の最隣接部内に大部分が属するクラスが存在しない
    場合に、前記特定エントリ用のクラスが、m個の最隣接
    部内中で最も出現率が高い一組のクラスから任意に選択
    されるステップと、により決定されることを特徴とする
    請求項6に記載の方法。
  8. 【請求項8】 前記特定エントリの分類が、 m個全ての最隣接部が1つのクラスに属する場合に、前
    記1つのクラスが前記特定エントリに割り当てられるス
    テップと、 大部分のm個の最隣接部が1つのクラスに属する場合
    に、前記1つのクラスが前記特定エントリに割り当てら
    れるステップと、 m個の最隣接部内に大部分が属するのクラスが存在しな
    い場合に、少なくともm個の最隣接部内中で最も出現率
    が高い全てのクラスがユーザに報告されるステップと、
    により決定されることを特徴とする請求項6に記載の方
    法。
  9. 【請求項9】 前記特定エントリの分類が、 m個全ての最隣接部が1つのクラスに属する場合に、前
    記1つのクラスを前記特定エントリに割り当てるステッ
    プと、 m個全ての最隣接部が少なくとも2つのクラスに属する
    場合に、トレーニングセットの少なくとも2つのクラス
    の逆の頻度を用いることにより重み付けするステップ、
    重み付けされた投票を生成するステップ、および最も大
    きく重み付けされた投票を有するクラスを前記特定エン
    トリに割り当てるステップと、により決定されることを
    特徴とする請求項6に記載の方法。
  10. 【請求項10】 前記分類ステップ(c)が、 (i)可能な属性の組のクラスタを識別するステップ
    と、 (ii)各エントリに属性を付加するステップであっ
    て、付加された前記各属性がクラスタ内のエントリの重
    み付けされた内容を表す、該付加ステップと、 (iii)少なくとも部分的にクラスタ重み属性に基づ
    いて決定構造を構築するステップと、により行われるこ
    とを特徴とする請求項1に記載の方法。
  11. 【請求項11】 請求項10の方法により形成される分
    類木。
  12. 【請求項12】 高次元データを分類するためのコンピ
    ュータシステムであって、 メモリと、 それぞれ複数の属性を有する多数のエントリからなるト
    レーニングセット、および前記トレーニングセット内に
    ない特定データエントリを含むデータと、 入力としてデータを受信するための通信手順と、 前記トレーニングセット及び前記特定のデータエントリ
    をフラット化し、前記フラット化されたトレーニングデ
    ータに基づいて前記フラット化された特定データエント
    リを分類するための制御手順と、 前記メモリに接続され、前記制御手順及び前記通信手順
    を実行するように構成されるプロセッサと、を備えるこ
    とを特徴とするコンピュータシステム。
  13. 【請求項13】 前記プロセッサがさらに、前記属性に
    基づく決定木を用いて、前記特定データエントリを分類
    するように構成されることを特徴とする請求項12に記
    載のコンピュータシステム。
  14. 【請求項14】 前記属性が多数項目セットを含むこと
    を特徴とする請求項13に記載のコンピュータシステ
    ム。
  15. 【請求項15】 前記属性がクラスタ情報を含むことを
    特徴とする請求項13に記載のコンピュータシステム。
  16. 【請求項16】 前記プロセッサがさらに、最隣接クラ
    スモデルを用いて前記特定データエントリを分類するよ
    うに構成されることを特徴とする請求項12に記載のコ
    ンピュータシステム。
  17. 【請求項17】 前記プロセッサがさらに、 m個全ての最隣接部が1つのクラスに属する場合に、前
    記1つのクラスが特定エントリに割り当てられるステッ
    プと、 大部分のm個の最隣接部が1つのクラスに属する場合
    に、前記1つのクラスが特定エントリに割り当てられる
    ステップと、 m個の最隣接部内に大部分が属するクラスが存在しない
    場合に、前記特定エントリのクラスが、m個の最隣接部
    内中で最も出現率が高い一組のクラスから任意に選択さ
    れるステップと、により前記特定エントリの分類を決定
    するように構成されることを特徴とする請求項16に記
    載のコンピュータシステム。
  18. 【請求項18】 前記プロセッサがさらに、 m個全ての最隣接部が1つのクラスに属する場合に、前
    記1つのクラスが特定エントリに割り当てられるステッ
    プと、 大部分のm個の最隣接部が1つのクラスに属する場合
    に、前記1つのクラスが前記特定エントリに割り当てら
    れるステップと、 m個の最隣接部内に大部分が属するクラスが存在しない
    場合に、少なくともm個の最隣接部内中で最も出現率が
    高い全てのクラスがユーザに報告されるステップと、に
    より前記特定エントリの分類を決定するように構成され
    ることを特徴とする請求項16に記載のコンピュータシ
    ステム。
  19. 【請求項19】 前記プロセッサがさらに、 m個全ての最隣接部が1つのクラスに属する場合に、前
    記1つのクラスを特定エントリに割り当てるステップ
    と、 m個全ての最隣接部が少なくとも2つのクラスに属する
    場合に、トレーニングセットの少なくとも2つのクラス
    の逆の頻度を用いることにより重み付けするステップ、
    重み付けされた投票を生成するステップ、および最も大
    きく重み付けされた投票を有するクラスを前記特定エン
    トリに割り当てるステップと、により前記特定エントリ
    の分類を決定するように構成されることを特徴とする請
    求項16に記載のコンピュータシステム。
JP2000095559A 1999-10-18 2000-03-30 高次元データを分類するための方法及びそれにより形成される分類木並びにコンピュータシステム Pending JP2001117947A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/420,252 US6563952B1 (en) 1999-10-18 1999-10-18 Method and apparatus for classification of high dimensional data
US09/420.252 1999-10-18

Publications (1)

Publication Number Publication Date
JP2001117947A true JP2001117947A (ja) 2001-04-27

Family

ID=23665703

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000095559A Pending JP2001117947A (ja) 1999-10-18 2000-03-30 高次元データを分類するための方法及びそれにより形成される分類木並びにコンピュータシステム

Country Status (2)

Country Link
US (1) US6563952B1 (ja)
JP (1) JP2001117947A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006031132A (ja) * 2004-07-13 2006-02-02 Kenji Sato 推論システム、推論プログラム

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7269586B1 (en) * 1999-12-22 2007-09-11 Hitachi America, Ltd. Patient rule induction method on large disk resident data sets and parallelization thereof
US7016887B2 (en) * 2001-01-03 2006-03-21 Accelrys Software Inc. Methods and systems of classifying multiple properties simultaneously using a decision tree
US20020174088A1 (en) * 2001-05-07 2002-11-21 Tongwei Liu Segmenting information records with missing values using multiple partition trees
US7007035B2 (en) * 2001-06-08 2006-02-28 The Regents Of The University Of California Parallel object-oriented decision tree system
US7246102B2 (en) * 2001-12-21 2007-07-17 Agere Systems Inc. Method of improving the lookup performance of three-type knowledge base searches
DE60233935D1 (de) * 2002-07-19 2009-11-19 Mitsubishi Electric Inf Tech Verfahren und Gerät zur Datenverarbeitung
US7519565B2 (en) * 2003-11-03 2009-04-14 Cloudmark, Inc. Methods and apparatuses for classifying electronic documents
US20050149546A1 (en) * 2003-11-03 2005-07-07 Prakash Vipul V. Methods and apparatuses for determining and designating classifications of electronic documents
US7756881B2 (en) * 2006-03-09 2010-07-13 Microsoft Corporation Partitioning of data mining training set
US7539658B2 (en) * 2006-07-06 2009-05-26 International Business Machines Corporation Rule processing optimization by content routing using decision trees
US20100082697A1 (en) * 2008-10-01 2010-04-01 Narain Gupta Data model enrichment and classification using multi-model approach
US8606465B2 (en) * 2008-11-12 2013-12-10 GM Global Technology Operations LLC Performance-based classification method and algorithm for drivers
JP5371489B2 (ja) * 2009-03-05 2013-12-18 キヤノン株式会社 画像管理装置およびその制御方法、ならびに、プログラムおよび記憶媒体
TW201142630A (en) 2009-12-21 2011-12-01 Ibm Method for training and using a classification model with association rule models
EP2569721A4 (en) * 2010-05-14 2013-11-27 Datalogic Adc Inc SYSTEMS AND METHODS FOR OBJECT DETECTION USING A LARGE DATABASE
CA3104372A1 (en) * 2019-12-30 2021-06-30 Royal Bank Of Canada System and method for multivariate anomaly detection

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5142593A (en) * 1986-06-16 1992-08-25 Kabushiki Kaisha Toshiba Apparatus and method for classifying feature data at a high speed
US5325445A (en) * 1992-05-29 1994-06-28 Eastman Kodak Company Feature classification using supervised statistical pattern recognition
US6052483A (en) * 1994-11-04 2000-04-18 Lucent Technologies Inc. Methods and apparatus for classification of images using distribution maps
US6307965B1 (en) * 1998-04-30 2001-10-23 International Business Machines Corporation System and method for detecting clusters of information
US6229918B1 (en) * 1998-10-20 2001-05-08 Microsoft Corporation System and method for automatically detecting clusters of data points within a data space

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006031132A (ja) * 2004-07-13 2006-02-02 Kenji Sato 推論システム、推論プログラム

Also Published As

Publication number Publication date
US6563952B1 (en) 2003-05-13

Similar Documents

Publication Publication Date Title
US5799311A (en) Method and system for generating a decision-tree classifier independent of system memory size
JP2001117947A (ja) 高次元データを分類するための方法及びそれにより形成される分類木並びにコンピュータシステム
DE60315506T2 (de) Identifizierung von kritischen merkmalen in einem geordneten skala-raum
US6138115A (en) Method and system for generating a decision-tree classifier in parallel in a multi-processor system
US8126826B2 (en) Method and system for active learning screening process with dynamic information modeling
US6055539A (en) Method to reduce I/O for hierarchical data partitioning methods
US20100082697A1 (en) Data model enrichment and classification using multi-model approach
US20040220963A1 (en) Object clustering using inter-layer links
US8805856B2 (en) Merchandise hierarchy refinement by incorporation of product correlation
JP2002014816A (ja) 判別式で決定木を生成し、それをデータ分類に使用するための方法および装置
US20080071764A1 (en) Method and an apparatus to perform feature similarity mapping
JP5391637B2 (ja) データ類似度計算システム、データ類似度計算方法およびデータ類似度計算プログラム
Yıldırım Pattern classification with imbalanced and multiclass data for the prediction of albendazole adverse event outcomes
US6871165B2 (en) Method and apparatus for classifying time series data using wavelet based approach
JP2002183171A (ja) 文書データ・クラスタリングシステム
Niu et al. Association classification based on compactness of rules
CN112860850A (zh) 人机交互方法、装置、设备及存储介质
JP4194697B2 (ja) 分類ルール探求式クラスター分析装置
WO2023152617A1 (en) System and method for identifying natural alternatives to synthetic additives in foods
Andritsos Scalable clustering of categorical data and applications
Sucahyo et al. Building a more accurate classifier based on strong frequent patterns
JP4128033B2 (ja) プロファイルデータ検索装置及びプログラム
CN111488903A (zh) 基于特征权重的决策树特征选择方法
CN114092123A (zh) 一种满意度智能分析系统
Sangeetha et al. Preprocessing using attribute selection in data stream mining