JP2001117947A

JP2001117947A - 高次元データを分類するための方法及びそれにより形成される分類木並びにコンピュータシステム

Info

Publication number: JP2001117947A
Application number: JP2000095559A
Authority: JP
Inventors: Surivasutava Anuragu; アヌラグ・スリヴァスタヴァ; D Ramkumar G; ジー・ディー・ラムクマール; Sin Viniito; ヴィニート・シン; Ranka Ranjai; ランジャイ・ランカ
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1999-10-18
Filing date: 2000-03-30
Publication date: 2001-04-27
Also published as: US6563952B1

Abstract

(57)【要約】【課題】本発明は高次元の散在するデータセットを分
類するための装置及び方法を提供する。【解決手段】生データトレーニングセットは、類別表
現からブール表現に変換することによりフラット化され
る。その後フラット化したデータを用いて、トレーニン
グセットに含まれない新しいデータを分類するためのク
ラスモデルを構築する。一実施例では、クラスモデルは
決定木の形式を取り、多数項目セット及びクラスタ情報
が、分類のための属性として用いられる。別の実施例で
は、クラスモデルは、分類されるべきデータの最隣接部
を基にする。本発明の利点は、データをフラット化し
て、属性において生じる人為的な順序付けを排除するこ
とにより、分類精度が向上する点である。別の利点は、
多数項目セット及びクラスタリングを使用することによ
り、分類精度が向上する点である。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、データを分類する
ためのコンピュータソフトウエアに関する。詳細には、
本発明はフラット化及び属性の付加を用いて散在する高
次元データの分類を行い、データ属性に基づいてデータ
クラスをより正確に予測することに関する。

【０００２】

【従来の技術】分類はデータオブジェクトの属性に基づ
いて、データオブジェクトを所定のセットからの特定ク
ラスに割り当てるプロセスである。分類は統計及び機械
学習の分野において研究されている共通の課題である。
周知の分類方法には、決定木、統計的手法、ルール生
成、遺伝的アルゴリズム及びニューラルネットワークな
どがある。

【０００３】

【発明が解決しようとする課題】分類の課題はトレーニ
ングセットと呼ばれる入力データセットにあり、トレー
ニングデータセットはそれぞれいくつかの属性（次元）
を有するいくつかのエントリを含む。ｎ個の取り得る属
性を有するトレーニングセットは、ｎ次元であると言わ
れる。その目的は、トレーニングセットを用いて、その
属性に基づいてクラスラベルのモデルを構築し、そのモ
デルを用いてトレーニングセットからのもの以外の他の
データを分類できるようにすることである。そのモデル
は、当分野では周知の決定木の形式をとる場合が多い。

【０００４】典型的な分類問題の一例は、自動車保険の
コストを計算するために運転者の危険率を決定する問題
である。一人の運転者（またはエントリ）は、年齢、性
別、婚姻、住所、車の製造元、型式、車種といった多く
の関連する属性（次元）を有する。これらの属性を用い
て、保険会社はその運転者が自社に与える危険度がどの
程度かを判定する。危険度は、その運転者が結果的に属
するクラスである。

【０００５】分類問題の別の例は、病院における患者の
診断群（diagnostic related group: ＤＲＧ）の分類問
題である。すなわち、その問題はその患者に提供される
サービスに基づいて患者の最終的なＤＲＧを判定するこ
とである。病院において患者に提供できる各サービス
を１つの属性と考えるなら、属性（次元）の数は多い
が、全ての提供可能なサービスが全患者に提供されるわ
けではないため、大部分の属性は、任意の特定の患者で
は「未提供」値をとる。結果的にそのような例では、デ
ータセットは高次元の散在したデータセットになる。

【０００６】属性において行われる人為的な順序付けに
より、分類の精度が低下するという問題がある。すなわ
ち、二人の患者がそれぞれ同じ６種類のサービスを受け
ているが、患者の各ファイルに別の順序で記録されてい
る場合には、分類モデルは二人の患者を２つの異なるケ
ースとして取り扱うことになり、二人の患者は異なるＤ
ＲＧを割り当てられる可能性がある。

【０００７】高次元の散在するデータセットに関係する
分類の別の問題は、決定木を構築することが非常に複雑
になることである。各エントリに対して実現可能な属性
が、数百、さらには数千以上になる場合がある。従っ
て、決定木において各ノード分割判定基準の基となる実
現可能な属性が数百或いは数千にものぼる。多数の属性
が存在することは、各トレーニングセットに基づいて決
定木を構築するのに要する複雑性が増す一因となる。

【０００８】本発明の目的は、上記した問題を解決する
分類システムを提供することにある。

【０００９】また、本発明の目的は、高次元の散在する
データセットを精度を低下させることなく分類する方法
及び装置を提供することにある。

【００１０】

【課題を解決するための手段】一実施例では、本発明は
高次元データを分類するための方法及び装置を提供す
る。本発明は、コンピュータメモリのデータをソートす
るステップと、データをブール表現にフラット化するス
テップと、そのフラット化したデータに基づいて分類モ
デルを構築するステップとにより分類を実行する。分類
モデルは決定木でも、他の決定構造でも可能である。本
発明の一態様では、多数（大きい）項目セットが、決定
構造の基となる付加属性として用いられる。本発明の別
の態様では、決定構造の基となる付加属性を与えるため
にクラスタリングが実行される。

【００１１】別の実施例では、本発明は最隣接技術（ne
arest neighbor techniques）を用いる高次元データを
分類するための方法及び装置を提供する。データはコン
ピュータメモリに格納され、ブール表現にフラット化さ
れ、エントリのｍ個の最隣接部に基づいて分類される。

【００１２】本発明の利点は、データをフラット化する
ことにより、不均一な記録手順を用いるためにデータに
導入されるあらゆる人為的な順序付けが除外され、より
高精度の結果がもたらされるという点である。

【００１３】本発明の別の利点は、多数項目セットに基
づく付加属性及びクラスタリングを利用することによ
り、結果的に分類時に基となる決定木の精度が改善され
るという点である。これは、どの項目セットが多数項目
セットであるかを判定し、その後決定木ノードの分割判
定基準が基とする付加属性として多数項目セットを使用
することにより実現される。またクラスタリングを用い
て、決定構造を構築する際の精度を高めることもでき
る。

【００１４】

【発明の実施の形態】本発明のさらに別の利点は、図面
を参照しつつ以下の詳細な説明を検討することにより明
らかになるであろう。

【００１５】以下、特定の形態を参照しつつ典型的な実
施例を説明する。当業者には、請求の範囲から逸脱する
ことなく種々の変形及び変更例が実現可能であることが
理解されよう。

【００１６】図１−図６を参照しつつ本発明の典型的な
実施例を説明する。図１は本発明の一実施例によるコン
ピュータシステム１０を示す。そのコンピュータシステ
ム１０は、バス１３に接続されたプロセッサ（ＣＰＵ）
１２を備える。またランダムアクセスメモリ（ＲＡＭ）
１４及びハードディスクメモリ１６もバス１３に接続さ
れており、プロセッサ１２がアクセスできるようになっ
ている。ハードディスク１６は、以下に記載されるよう
に、本発明に必要とされるプログラム及びデータを格納
する構造になっている。生データを入力するためにオプ
ションのユーザインターフェース１８が設けられる。一
実施例では、入力／出力装置は、キーボード、マウス及
びモニタを含む。またオプションのネットワークインタ
ーフェース２０も設けられる。生データは種々の異なる
方法、例えばユーザインターフェース１８或いはネット
ワークインターフェース２０を介して入力できることを
理解されたい。

【００１７】ハードディスク１６はコンピュータシステ
ム１０のプログラム及びデータを格納する構造になって
いる。ＲＡＭ及びハードディスクを含むメモリは、３つ
の主要構成要素、すなわち通信手順２２、制御手順２８
及びデータ４２に分割される。通信手順２２は生データ
をメモリに読み込むためのルーチン２４及び２６を含
む。制御手順２８は本発明の分類機能を実行するルーチ
ン３０−４０を含む。メモリのデータ部分は、生データ
４４、フラット化データ４６、決定構造４８及び枝刈り
された決定構造５０を格納する。これらのルーチンは以
下により詳細に記載される。

【００１８】図２のフロー図を参照しつつ本発明の動作
を記載する。ステップ１０２では、通信手順２２が入力
として生データを読み込む。生データはエントリと、各
エントリに対するいくつかの属性とを含む。属性は典型
的には分類別の属性であるが、連続した属性であっても
よい。生データの一例が図３に示される。生データは順
序付けされていても、いなくてもよい。すなわち各エン
トリの属性は必ずしも任意の昇順或いは降順にソートさ
れた状態である必要はない。カテゴリないし分類別の属
性データは、昇順或いは降順にソートされるのに適して
いない性質を有することも多い。また分類するために、
属性の順序付けが不適切であることも多い。ｎをデータ
エントリの異なる可能な属性の全数とする場合、データ
はｎ次元を有すると言われる。ステップ１０４では、デ
ータがエントリ及び属性により編成される。

【００１９】生データを受信した後、ステップ１０６で
は、フラット化手順３０によりデータをフラット化し
て、ブール表現にする。フラット化では、長さｎのブー
ル表現を用いてカテゴリないし分類別の属性をブール属
性に変換する。ただしｎはデータエントリが取りうる異
なる属性の全数である。生データエントリ内に対応する
属性が存在する場合には、ブール表現のｎ番目の位置は
「１」であり、生データエントリ内に対応する属性が存
在しない場合には、ｎ番目の位置の表現は「０」であ
る。その生成されたデータはｎ次元であると言われる。
図３の生データが、図４においてフラット化形式で示さ
れる。

【００２０】本発明の一態様は多数（大きい）項目セッ
トを使用する。この態様はステップ１０８及び１１０を
利用する。ステップ１０８は多数項目セットの使用を識
別する。ステップ１１０は、多数項目セット手順３４を
利用するフラット化データを用いて、どの属性が多数項
目セットであるかを判定する。Ｉ＝Ｉ₁，Ｉ₂．．．，Ｉ
_nを一組のバイナリ属性とする。Ｔをパターンからなる
トレーニングセットとする。各パターンｔはＩのサブセ
ットである。パターンｔは、Ｘ⊂ｔの場合、項目セット
Ｘを利用可能にする。基数ｋの項目セットはｋ項目セッ
トと呼ばれる。項目セットが利用可能であることは統計
的重要性の尺度であり、項目セットを含むパターンの部
分であるものと確定される。多数項目セットは、所与の
閾値より大きい利用可能な項目セットである。そのよう
な閾値は典型的には３−１０％であり、それは最も正確
な決定木をもたらすパーセンテージに基づいて確定され
る。しかしながら、閾値は３％未満、或いは１０％を超
える値も取り得ることは理解されたい。

【００２１】いくつかの既知のアルゴリズムを用いて多
数項目セットを導出することもできる。そのようなアル
ゴリズムの１つはAprioriアルゴリズムである（Agrawal
及びSrikant, Fast Algorithms for Mining Associatio
n Rule, Proc. of the 20thInternational Conference
on Very Large Database, Santiago, Chile, 1994に記
載される）。決定木は、以下に詳述されるように、分類
中に分割判定基準が基にする属性として多数項目セット
を用いても生成される。利用可能性が十分に高くなるよ
うに選択される場合には、多数項目セットの数は、多数
の初期属性より実質的に小さくなることもある。決定木
の精度を高める他に、多数項目セットが、分割判定基準
が基にする適切な属性である場合には、決定木を構築す
るためにかかる全時間は、初期属性の全てに基づいて決
定木を構築するのにかかる時間より実質的に短くなる可
能性がある。また、最終的な決定木も初期属性に基づい
た決定木より実質的に小さくすることが可能である。

【００２２】本発明の別の態様はクラスタリングを利用
する。この態様はステップ１１１及び１１２を用いる。
ステップ１１１はクラスタリングの使用を識別する。ス
テップ１１２は、クラスタリング手順３５を利用したフ
ラット化データを用いて、各データエントリにクラスタ
リング属性を付加する。クラスタリングは、最初に可能
な属性の組をクラスタにグループ分けすることにより行
われる。次に、各エントリは、各クラスタにおけるエン
トリに含まれる内容の度合いに関係する１つ以上の重み
を割当てられる。これらの重みは、分類が基づくことが
できる付加属性としてエントリに付加される。

【００２３】例えば食料雑貨店では、消費者が購入でき
る品目が１０，０００項目存在する場合もある。しかし
ながら典型的な消費者は、一度に約３０品目しか購入し
ない。消費者が購入することができた１０，０００品目
はぞれぞれ肉、乳製品、野菜、パン等のクラスタに属す
る。その消費者が購入した約３０品目はそれぞれ所定の
クラスタの１つに属する。その後その消費者は、あるク
ラスタに属する購入した品目の数−対−購入した品目の
全数に基づいて、各クラスタのための重みを割り当てら
れる。重みは、消費者が各クラスタに属する度合を表
す。

【００２４】クラスタリングは当分野ではよく知られて
いる。利用可能な１つのクラスタリング法は、関連規則
ハイパーグラフクラスタリング（association rule hyp
ergraph clustering）であり、Han, Karypis, Kumar及
びMobasherによるClusteringBased on Association Rul
e Hypergraph, SIGMOD '97 Workshop on Research Issu
es on Data Mining and Knowledge Discovery, 1997に
詳述される。

【００２５】フラット化されたデータ及び、多数項目セ
ットとクラスタのいずれもない組み合わせを含む多数項
目セットとクラスタとの任意の組み合わせを用いて、ス
テップ１１３では、分類手順３２は、この後の分類が基
とするモデルを構築する。決定木は当分野では周知であ
り、作成されたそのようなモデルの一形式である。

【００２６】決定木の作成は２つの段階、すなわち構成
段階と枝刈り段階とを含む。構成段階は、中止判定基準
が満たされるまで、例えば副区画が主に（或いは完全
に）１つのクラスの例を含むまで、トレーニングセット
が２つ以上の副区画に繰返し分割される必要がある。従
って作成は、分割判定基準を木の全ての内部ノードに適
用することを伴う。内部ノードは、少なくとも１つの子
（下位）ノードを有する任意のノードと定義される。こ
れらの分割判定基準は、所定の分割関数を適用すること
により確定される。木の各内部ノードにおける分割判定
基準は、用いられるなら多数項目セット及びクラスタ属
性を含む、可能なエントリの属性の組の属性の１つに基
づいている。木は、ノードが木の根（ルート）ノードか
ら離れただけエントロピーが減少するように作成され
る。決定木は、全データセットを表す根（ルート）で生
成された結果的な階層木構造である。図６は、図５に示
されるサンプルデータを基に作成された決定木を示す。
図６では、各ノードで評価されたデータセットは、下の
分割判定基準とともに括弧内に記載される。ただし決定
木は必ずしも対称とは限らない。

【００２７】決定木の作成及び枝刈りは当分野で知られ
ており、決定木作成及び枝刈りアルゴリズムの例が、Me
hta, Agrawal及びRissanenによるSLIQ: A Fast Scalabl
e Classifier for Data Mining, Proc. of the Fifth I
nternational Conference onExtending Database Techn
ology, Avignon, France, 1996に記載されている。

【００２８】本発明の別の実施例では、データがフラッ
ト化された後、エントリｅに対するクラス判定が最隣接
技術を用いて行われる。これは、ｅのｍ個の最隣接部を
見つけ、その後ｍ個の最隣接部のクラス割当てに基づい
てｅのクラスを割り当てることにより行われる。式
（１）に示されるように、２つのデータエントリ間のユ
ークリッド距離を用いて、最も近いｍ個の隣接部を見つ
ける。

【００２９】

【数１】最隣接部の判定は当分野において知られている。２つの
主なパラメータがある。すなわち一般的に３から５まで
の値を持つｍの値と、ｍ個の隣接部のクラス帰属関係に
基づいて割り当てられるクラスの選択である。ここで３
通りの状況が生じる可能性がある。ｍ個全ての隣接部が
同じクラスに属するか、１つのクラスが多数決による
か、或いは１つの結合関係が存在するかである。第１の
場合には、割り当てられたクラスがｍ個の隣接部のクラ
スである。第２の場合には、割り当てられたクラスが隣
接部の多数決によるクラスである。第３の場合には、選
択により任意にこの結合関係を解消することができる。
別の実施例では、第２及び第３の場合には、最隣接部分
の全てのクラスが報告され、さらに別の要因に基づいて
エンドユーザが適切な選択を行うことができる。本発明
の別の態様では、２つ以上のクラスをエントリｅに割り
当てることができる。

【００３０】本発明の一態様では、最隣接部属性が次に
記載されるように重み付けされる。上記第２及び第３の
場合には、単純な多数決及び任意の規則を変更して、ト
レーニングセット内に存在する種々のクラスの逆の頻度
に基づいて重み付けされた投票を実現する。すなわち各
投票は、トレーニングセットのクラスのパーセンテージ
表現と逆に重み付けされる。ある１つの属性への重み付
けが大きすぎないように、各次元は一般的に、その次元
に従った標準偏差を用いて正規化される。

【００３１】

【実施例】フラット化本発明の装置及び方法は、フラット化に関して、病院の
患者の在院記録から得られたデータについて構成及び実
施された。データセットは２つの分娩に関連するＤＲ
Ｇ、すなわち合併症を伴う分娩と合併症を伴わない分娩
とから構成された。以下に示すように、生データトレー
ニングセット分類誤り率は１１．６％であった。生デー
タテストセット分類誤り率は１４．９％であった。フラ
ット化されたデータトレーニングセット分類誤り率は
０．８％であり、フラット化されたデータテストセット
分類誤り率は１．４％であった。従って、データをフラ
ット化することにより、全体的な精度に著しい影響を与
える。

【００３２】

【表１】典型的な実施例及び最良の形態を開示してきたが、添付
の特許請求の範囲により画定される本発明の範囲内にお
いて、開示された実施例に対する変更例及び変形例を実
施することも可能である。

【００３３】

【発明の効果】上記のように本発明によれば、フラット
化したデータ、多数項目セット及びクラスタリング等を
使用することにより、高次元の散在するデータセットを
精度良く分類する方法及び装置を提供することができ
る。

【図面の簡単な説明】

【図１】本発明の一実施例によるコンピュータシステム
を示す図である。

【図２】データを分類するためのフロー図である。

【図３】生データの第１のサンプルセットを示す図であ
る。

【図４】本発明によりフラット化した後の図３の生デー
タを示す図である。

【図５】生データの第２のサンプルセットを、結果的な
各エントリのクラスとともに示す図である。

【図６】図５の生データに基づく決定木を示す図であ
る。

【符号の説明】

１０コンピュータシステム１２ＣＰＵ１３バス１４ＲＡＭ１６ハードディスク１８ユーザインターフェース２０ネットワークインターフェース２２通信手順２４データベース入出力２６ユーザ入出力２８制御手順３０フラット化手順３２分類手順３４多数項目セット手順３５クラスタリング手順３６木構築手順３８枝刈り手順４０最隣接手順４２データ４４生データ４６フラット化データ４８決定構造５０枝刈り決定構造

───────────────────────────────────────────────────── フロントページの続き (72)発明者ヴィニート・シンアメリカ合衆国、カリフォルニア州 95014、クパーティノ、コルドヴァ・ロード 10535 (72)発明者ランジャイ・ランカアメリカ合衆国、フロリダ州 32606、ゲインズヴィル、ＮＷ43ストリート 4830、Ｋ166 Ｆターム(参考） 5B075 MM11 ND03 ND20 ND34 NK46 NR02 NR12 PP02 PP03 PQ02 UU26 UU40

Claims

【特許請求の範囲】

【請求項１】高次元データを分類するための方法であ
って、（ａ）生データトレーニングセットをメモリに格納する
ステップであって、前記生データがそれぞれ複数の属性
を有する多数のエントリを含む、該格納ステップと、（ｂ）各生データエントリを個々のバイナリデータ列に
変換することにより前記生データトレーニングセットを
フラット化するステップと、（ｃ）前記フラット化されたトレーニングセットに基づ
いてトレーニングセットにない特定のフラット化された
データエントリを分類するステップと、を有することを
特徴とする方法。
【請求項２】前記分類ステップ（ｃ）が、トレーニン
グセットエントリの属性に基づいて決定木を構築するこ
とにより実行されることを特徴とする請求項１に記載の
方法。
【請求項３】請求項２の方法により形成される分類
木。
【請求項４】前記分類ステップ（ｃ）が、（ｉ）所定の閾値より大きい利用可能性を有する多数項
目セットを識別するステップと、（ｉｉ）前記多数項目セットに少なくとも部分的に基づ
いて決定木を構築するステップと、により実行されるこ
とを特徴とする請求項１に記載の方法。
【請求項５】請求項４の方法により形成される分類
木。
【請求項６】前記分類ステップ（ｃ）が、（ｉ）ｍを所定の値とする場合に、分類されるべき特定
エントリのｍ個の最隣接部を決定するステップと、（ｉｉ）ｍ個の最隣接部の分類に基づいて前記特定エン
トリの分類を選択するステップと、を有することを特徴
とする請求項１に記載の方法。
【請求項７】前記特定エントリの分類が、ｍ個全ての最隣接部が１つのクラスに属する場合に、前
記１つのクラスが前記特定エントリに割り当てられるス
テップと、大部分のｍ個の最隣接部が１つのクラスに属する場合
に、前記１つのクラスが前記特定エントリに割り当てら
れるステップと、ｍ個の最隣接部内に大部分が属するクラスが存在しない
場合に、前記特定エントリ用のクラスが、ｍ個の最隣接
部内中で最も出現率が高い一組のクラスから任意に選択
されるステップと、により決定されることを特徴とする
請求項６に記載の方法。
【請求項８】前記特定エントリの分類が、ｍ個全ての最隣接部が１つのクラスに属する場合に、前
記１つのクラスが前記特定エントリに割り当てられるス
テップと、大部分のｍ個の最隣接部が１つのクラスに属する場合
に、前記１つのクラスが前記特定エントリに割り当てら
れるステップと、ｍ個の最隣接部内に大部分が属するのクラスが存在しな
い場合に、少なくともｍ個の最隣接部内中で最も出現率
が高い全てのクラスがユーザに報告されるステップと、
により決定されることを特徴とする請求項６に記載の方
法。
【請求項９】前記特定エントリの分類が、ｍ個全ての最隣接部が１つのクラスに属する場合に、前
記１つのクラスを前記特定エントリに割り当てるステッ
プと、ｍ個全ての最隣接部が少なくとも２つのクラスに属する
場合に、トレーニングセットの少なくとも２つのクラス
の逆の頻度を用いることにより重み付けするステップ、
重み付けされた投票を生成するステップ、および最も大
きく重み付けされた投票を有するクラスを前記特定エン
トリに割り当てるステップと、により決定されることを
特徴とする請求項６に記載の方法。
【請求項１０】前記分類ステップ（ｃ）が、（ｉ）可能な属性の組のクラスタを識別するステップ
と、（ｉｉ）各エントリに属性を付加するステップであっ
て、付加された前記各属性がクラスタ内のエントリの重
み付けされた内容を表す、該付加ステップと、（ｉｉｉ）少なくとも部分的にクラスタ重み属性に基づ
いて決定構造を構築するステップと、により行われるこ
とを特徴とする請求項１に記載の方法。
【請求項１１】請求項１０の方法により形成される分
類木。
【請求項１２】高次元データを分類するためのコンピ
ュータシステムであって、メモリと、それぞれ複数の属性を有する多数のエントリからなるト
レーニングセット、および前記トレーニングセット内に
ない特定データエントリを含むデータと、入力としてデータを受信するための通信手順と、前記トレーニングセット及び前記特定のデータエントリ
をフラット化し、前記フラット化されたトレーニングデ
ータに基づいて前記フラット化された特定データエント
リを分類するための制御手順と、前記メモリに接続され、前記制御手順及び前記通信手順
を実行するように構成されるプロセッサと、を備えるこ
とを特徴とするコンピュータシステム。
【請求項１３】前記プロセッサがさらに、前記属性に
基づく決定木を用いて、前記特定データエントリを分類
するように構成されることを特徴とする請求項１２に記
載のコンピュータシステム。
【請求項１４】前記属性が多数項目セットを含むこと
を特徴とする請求項１３に記載のコンピュータシステ
ム。
【請求項１５】前記属性がクラスタ情報を含むことを
特徴とする請求項１３に記載のコンピュータシステム。
【請求項１６】前記プロセッサがさらに、最隣接クラ
スモデルを用いて前記特定データエントリを分類するよ
うに構成されることを特徴とする請求項１２に記載のコ
ンピュータシステム。
【請求項１７】前記プロセッサがさらに、ｍ個全ての最隣接部が１つのクラスに属する場合に、前
記１つのクラスが特定エントリに割り当てられるステッ
プと、大部分のｍ個の最隣接部が１つのクラスに属する場合
に、前記１つのクラスが特定エントリに割り当てられる
ステップと、ｍ個の最隣接部内に大部分が属するクラスが存在しない
場合に、前記特定エントリのクラスが、ｍ個の最隣接部
内中で最も出現率が高い一組のクラスから任意に選択さ
れるステップと、により前記特定エントリの分類を決定
するように構成されることを特徴とする請求項１６に記
載のコンピュータシステム。
【請求項１８】前記プロセッサがさらに、ｍ個全ての最隣接部が１つのクラスに属する場合に、前
記１つのクラスが特定エントリに割り当てられるステッ
プと、大部分のｍ個の最隣接部が１つのクラスに属する場合
に、前記１つのクラスが前記特定エントリに割り当てら
れるステップと、ｍ個の最隣接部内に大部分が属するクラスが存在しない
場合に、少なくともｍ個の最隣接部内中で最も出現率が
高い全てのクラスがユーザに報告されるステップと、に
より前記特定エントリの分類を決定するように構成され
ることを特徴とする請求項１６に記載のコンピュータシ
ステム。
【請求項１９】前記プロセッサがさらに、ｍ個全ての最隣接部が１つのクラスに属する場合に、前
記１つのクラスを特定エントリに割り当てるステップ
と、ｍ個全ての最隣接部が少なくとも２つのクラスに属する
場合に、トレーニングセットの少なくとも２つのクラス
の逆の頻度を用いることにより重み付けするステップ、
重み付けされた投票を生成するステップ、および最も大
きく重み付けされた投票を有するクラスを前記特定エン
トリに割り当てるステップと、により前記特定エントリ
の分類を決定するように構成されることを特徴とする請
求項１６に記載のコンピュータシステム。