JP2000132558A

JP2000132558A - 分類ルール探求式クラスター分析装置

Info

Publication number: JP2000132558A
Application number: JP10301096A
Authority: JP
Inventors: Takeshi Terasaki; 崎健寺
Original assignee: Nomura Research Institute Ltd
Current assignee: Nomura Research Institute Ltd
Priority date: 1998-10-22
Filing date: 1998-10-22
Publication date: 2000-05-12
Anticipated expiration: 2018-10-22
Also published as: JP4194697B2

Abstract

(57)【要約】【課題】クラスター分類と説明変量による分類ルール
探求とを同時に行うクラスター分析装置を提供する。【解決手段】多変量サンプルデータを記憶するサンプ
ルデータ記憶手段３と、評価条件を設定した評価条件設
定手段１２と、サンプルデータの変量の一覧を出力する
変量一覧出力手段５と、サンプルの変量についてユーザ
ーに説明変量と被説明変量とを選択させる変量選択手段
６と、説明変量の属性の組合せにより、評価用のクラス
ターを仮分類し、評価用サンプルデータファイルを生成
する評価用サンプルファイル生成手段７と、評価用サン
プルデータファイルの被説明変量の観測データについて
クラスター分離度を評価する評価手段８と、最適なクラ
スター分類を決定し、クラスター分類の継続と停止を判
断するクラスター分類手段９と、を備えた。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、一サンプルが複数
の変量を有する多数のサンプルデータを処理対象とし、
変量の観測値が互いに“類似”する関係にあるサンプル
を同一クラスターのサンプルとして分類し、分類された
クラスターの構成と、各クラスターに属するサンプル
と、各クラスターの特性とを出力するクラスター分析装
置に関する。

【０００２】同一クラスター内のサンプルが互いに“類
似”であり、かつ、相違するクラスターのサンプルの観
測データが互いに“非類似”である度合いを評価するた
めの変量を「被説明変量」とし、被説明変量の分布特性
の成立を説明することができる変量を「説明変量」とす
ると、本発明は特に、「説明変量の属性が同一」であっ
て「被説明変量の観測データが互いに類似する」クラス
ターを発見、分類するクラスター分析装置に関する。

【０００３】言い換えれば、本発明のクラスター分析装
置は、大量の多変量データから、所定の観測データが互
いに類似している同一属性の集合（クラスター）を分類
し、クラスター間の類似の度合いを明示する分類体系を
出力する装置に関する。

【０００４】

【従来の技術】クラスター分析は、一般的には、多変量
解析の分野において多数の観測対象（サンプル）に対し
て、特定の計算基準（評価基準）により、“類似するも
の”を集めて分類する手法を意味する。

【０００５】すなわち、一般的には、クラスター分析
は、観測された多数のサンプルに対して、類似するもの
同士を同一グループに単に“分類”するものをいう。

【０００６】一般的な用語の「クラスター分析」で“分
析”の語が使用されているのは、特定のサンプルがどの
クラスターに属するかを“評価判定”する処理を含むた
めである。

【０００７】従来のクラスター分析は、「クラスター分
離度」を算出することによって評価判定していた。ここ
で、「クラスター分離度」は、同一のクラスターに属す
るサンプルは互いに類似しており、異なるクラスターの
サンプルからは相違している度合いをいう。従来は、こ
のクラスター分離度を算出し、クラスター分離度が最も
高くなるように、クラスターを分類していた。

【０００８】なお、上記「クラスター」は集合のことで
あり、木構造に分類された場合において上位下位のいず
れのレベルの集合をもいう。最下位のクラスターは一つ
のサンプルのみを含むものであり、最上位のクラスター
は全部のサンプルを含むものである。下位のクラスター
ほどサンプルの属性（変量）が少数のものに特定され、
上位のクラスターほどサンプルの属性がばらつく。

【０００９】このように、あるサンプルデータの母集合
に対して、クラスター分離度がもっとも高くなるように
クラスターに分類した後は、分類されたクラスターの要
因分析をしなければならない。要因分析することによ
り、分類されたデータを活用することができるようにな
るからである。

【００１０】要因分析は、分類クラスターの特性を求め
ることであり、あるサンプルがあるクラスターに属する
と判断された原因を求めることである。言葉を変える
と、要因分析は、同一クラスター内でサンプルが如何な
る点で類似するか、を求めることである。

【００１１】従来は、クラスター分析と要因分析は、別
々の段階と方法で処理されていた。つまり、クラスター
分析をクラスター分析のためのアルゴリズムによって先
に行い、その後で別のアルゴリズムによって分類された
クラスターの要因を分析していた。

【００１２】従来のクラスター分析は、代表的には、ク
ラスター間の類似度の尺度としてクラスター間の“距
離”を計算し、算出された“距離”がもっとも短いクラ
スターを類似として上位のクラスターとして統合してい
く方法が行われていた。この従来のクラスター分析のた
めに、コンピュータの利用が種々提案されていた。

【００１３】一方、従来の要因分析は、分類されたクラ
スターに対して、人間の直感、あるいは人間の直感に基
づき統計解析手法により、事後的に各クラスターに属す
るサンプルの共通性を、分析していた。

【００１４】このように、従来はサンプル間の類似の度
合いによってクラスター分析することと、要因分析する
こととは、別々の処理または装置によるものであって、
本発明のような要因分析とクラスター分類を同時に行
い、双方の評価基準を同時に満たす「分類ルール探求式
クラスター分析装置」は、存在していなかった。

【００１５】なお、この「従来の技術」の欄では、本発
明によるクラスター分析装置と従来のクラスター分析の
相違を明らかにするために、従来のクラスター分析と要
因分析の方法とについて概略説明する。

【００１６】従来のクラスター分析では、“類似”する
サンプル（クラスター）同士を上位の階層のクラスター
として統合する。この“類似”の尺度として“距離”の
概念が使用されている。

【００１７】今、ｎ個のサンプルについてｐ種の変量で
観測したデータ｛ｘ_ｉｊ｝（ｉ＝１，２，…，ｎ；ｊ＝
１，２，…，ｐ）があるとすると｛ｘ_ｉｊ｝は図５のよ
うになる。

【００１８】上記与えられた観測データに基づいてクラ
スター分析をするには、最初に図６に示すような、サン
プル間の類似度を表す“距離行列”を作成する。距離と
しては後述するユークリッド距離、マハラノビスの距
離、相関係数等を計算する。

【００１９】上記“距離行列”が作成されると、後述す
る分類手法により、“最短距離”の関係にあるクラスタ
ーを類似するとして上位の階層のクラスターとして統合
する。一つの階層のクラスターが作成されると、再びク
ラスター間の距離を計算し、距離行列を作成し、最短距
離にあるクラスターを求めてさらに一つ上の階層のクラ
スターを作成する。このようにして、最終的には図７に
示すような樹形図（デンドログラム）を作成する。

【００２０】樹形図において所定の階層で統合されたク
ラスター内のサンプルは、何らかの類似関係によりその
階層で最短距離の関係にあったために統合されたという
ことができる。その類似関係にあるサンプルは、共通し
てある性質を有しているということができ、その性質を
明らかにすることによりそのクラスターの集団の特性を
明らかにすることができる。

【００２１】従来は、分類されたクラスターの集団特性
について、上述したように、事後的に解釈・分析してい
た。すなわち、距離が短い関係にあるサンプルは、如何
なる属性の組合せにおいて類似しているかを、主に人間
の直感あるいはパターン認識能力を駆使し、事後的に考
察していたのである。

【００２２】上述した“距離”の代表的なものを簡単に
説明する。代表的な距離の種類としては、（ａ）ユーク
リッド平方距離、（ｂ）標準ユークリッド平方距離、
（ｃ）マハラノビスの汎距離、（ｄ）相関係数に基づく
距離がある。以下にそれぞれの距離について項分けして
簡単に説明しておく。（ａ）ユークリッド平方距離サンプルｉとしてサンプルｊのユークリッド平方距離を
ｄｉｊとすると、ｄｉｊは下式のようになる。

【数１】

【００２３】ここで、ｘ_ｉｋ，ｘ_ｊｋはそれぞれサンプ
ルｉとｊのｋ番目の変量の観測データである。

【００２４】（ｂ）標準ユークリッド平方距離サンプルｉとサンプルｊの標準ユークリッド平方距離を
ｄ_ｉｊとすると、ｄ_ｉｊは下式のようになる。

【数２】

【００２５】（ｃ）マハラノビスの汎距離サンプルｉとサンプルｊのマハラノビスの汎距離ｄ_ｉｊ
は次式により定義する。

【数３】

【００２６】ここで、ν^ｋｍはｘ_１，ｘ_２，…，ｘ_ｐの
分散共分散行列の逆行列の（ｋ，ｍ）要素である。

【００２７】（ｄ）相関係数に基づく距離サンプルｉとサンプルｊの相関係数γ_ｉｊは次式により
定義する。

【数４】サンプルｉとサンプルｊの相関係数に基づく距離ｄ_ｉｊ
は上記相関係数γ_ｉｊを用いて下式のように定義する。

【００２８】ｄ_ｉｊ＝１−γ_ｉｊ

【００２９】次に、複数サンプルを含むクラスター間の
距離の概念について簡単に説明する。上述した距離の概
念を使用してクラスター（単数のサンプルからなるクラ
スターを含む）を統合してゆく分類手法は種々開発され
ている。現在よく使用されている分類手法には最近隣
法、最遠隣法、重心法、ウォード法等がある。以
下にこれらの分類手法について項分けして簡単に説明す
る。

【００３０】最近隣法最近隣法によれば、２つのクラスター間の距離を決める
のに際し、それぞれのクラスターに含まれるサンプル間
の距離のうち最短距離をそれらのクラスター間の距離と
する。

【００３１】すなわち、最近隣法は、もっとも近接する
サンプル間の距離が短いクラスターほど互いに類似する
クラスターとしてクラスター統合する方法である。サン
プル間の距離の計算については上述した通りである。

【００３２】最遠隣法最遠隣法によれば、２つのクラスター間の距離を決める
のに際し、それぞれのクラスターに含まれるサンプル間
の距離のうち最長距離をそれらのクラスター間の距離と
する。

【００３３】すなわち、最遠隣法は、もっとも遠く離れ
ているサンプル間の距離が短いクラスターほど互いに類
似するクラスターとしてクラスター統合するものであ
る。サンプル間の距離の計算については上述した通りで
ある。

【００３４】重心法重心法によれば、クラスターの位置は含まれるサンプル
の平均座標、すなわち重心で定義され、ｐ次元の座標で
表わされる。２つのクラスター間の距離は、各クラスタ
ーの重心間の距離と定義する。

【００３５】すなわち、重心法は、含まれるサンプルの
重心が近い関係にあるクラスターほど類似するクラスタ
ーとしてクラスター統合する方法である。

【００３６】ウォード法ウォード法によれば、クラスター間の距離は２つのクラ
スターを統合したときの偏差平方和の増分で定義され
る。

【００３７】すなわち、ウォード法は、クラスター統合
した場合にサンプルの偏差すなわち、平均に対するばら
つきがその段階で最小となるクラスターを互いに類似す
るクラスターとして統合する方法である。

【００３８】以上、最近隣法〜ウォード法のいずれ
の分類手法によっても、距離が最も短い関係にあるクラ
スター同士を類似クラスターとして統合するものであ
る。

【００３９】要約すれば、従来のクラスター分析は、多
変量サンプル間の相違を各変量の観測データの総合的な
量として計算できる距離という概念を導入し、距離の適
用を複数サンプルを含むクラスターに広げることによ
り、距離が最も短いクラスター同士を類似クラスターと
して一つ上の階層のクラスターとして統合してゆくもの
であった。

【００４０】従来のクラスター分析は、類似するクラス
ターを上位のクラスターとして統合することであり、分
類されたクラスターの集団特性の分析はクラスター分析
とは別個の段階で人間によって処理していた。

【００４１】

【発明が解決しようとする課題】しかしながら、上記従
来のクラスター分析によると、以下の問題があった。クラスターに分類されたサンプル群の共通の性質を
把握するのが困難であった。

【００４２】従来の方法では、距離の計算をする際に、
ユークリッド平方距離等の計算式からわかるように、サ
ンプル間の各変量の観測データ｛ｘ_ｉｊ｝の差の和を基
礎としてこれに種々の加工を施して種々の距離を求めて
いる。

【００４３】しかし、類似するとして同一クラスターに
分類されたサンプルは、距離が近いとされた変量と全く
関係のない変量によって特徴づけられる集合であること
が現実には非常に多い。

【００４４】たとえば、非常に単純な例であるが、ある
商品を購買したか否かという事象を変量として顧客をク
ラスターに分類する場合を考えると、商品を購買した顧
客は購買したという事象によって一つのクラスターとし
て分類される。しかし、この分類されたクラスターに含
まれる顧客は、購買したという事象と関係のない属性、
たとえば特定の年齢、性別、職業等を有する人々である
ということによって特徴づけられることが非常に頻繁に
起こる。

【００４５】このような場合には、従来のクラスター分
析では、要因分析をする際に、前記年齢、性別、職業等
の属性を発見するのは専ら人間の直感とパターン認識能
力に頼らざるを得なかった。実際には、分析者が同一ク
ラスター内の顧客の顧客像を想像しながら、顧客データ
から必要な属性データを抽出し、これに種々の統計的処
理を施して、顧客の属性、すなわち当該クラスターの集
団特性を明らかにしていた。

【００４６】なお、上記例において、商品を購買したか
否かの事象も変量であり、また、上記顧客の年齢、性
別、職業等の属性も変量である。本明細書では、前者の
ような分類の目的となる変量を被説明変量、後者のよう
な各クラスターの分類要因を説明する変量を説明変量と
いうことにする。説明変量と被説明変量は通常ともに、
複数の変量、すなわち、それぞれ多変量である。

【００４７】本発明が解決しようとする課題は、被説明
変量に対して説明変量が存在する多変量サンプルに対し
て、被説明変量の観測データが互いに類似するとして分
類されたクラスターについて、説明変量の属性が明確な
形でそのクラスターの集団特性を表しているクラスター
分析装置を提供することにある。

【００４８】なお、本明細書にいう「要因分析」は、い
わゆる多変量解析にいう「主成分分析」とは全く異なる
ものである。

【００４９】多変量解析にいう「主成分分析」は、分類
の目的となる変量（被説明変量）を線形結合して新たな
変量（被説明変量）を生成し、この新たな変量によって
サンプルを分類し、クラスターの分離度をより高くする
ことを目的とする手法である。

【００５０】主成分分析を取り入れたクラスター分析で
は、クラスター間の分離度が高くなるが、類似度あるい
は分離度を評価する変量自体が合成された変量であるた
め、変量のもつ意味が不明になり、クラスターの集団特
性がさらに不明瞭になり、要因分析はより困難になる傾
向にある。

【００５１】「主成分分析」によるクラスター分析で
は、本発明が目的とするような、被説明変量に対する説
明変量を明確な形で明らかにしながらクラスター分類を
行うクラスター分析装置を提供することはできなかっ
た。

【００５２】従来のクラスター分析では、あるサン
プルがどのクラスターに属するのかを判断するには、各
クラスターとの距離を計算しなければならず、サンプル
の持つ属性や特徴から即座に判断することができず、実
用上問題が多かった。

【００５３】従来のクラスター分析では、ユークリッド
平方距離等の距離の計算により、最短距離にあるクラス
ターを類似するクラスターとして一つ上の階層のクラス
ターとして統合して行くものであった。

【００５４】上記距離の計算とクラスター統合は、数値
計算によって機械的に進められる。したがって、人間の
パターン認識能力からすると、異なるクラスターに分類
すべきであると判断した場合があっても、人間の考察や
推論と異なる形でクラスターの樹形図が完成することが
ある。

【００５５】このような、人間の考察と異なる形の樹形
図のクラスターに対して事後的に要因分析を行えば、歪
められた要因分析にならざるを得ない。

【００５６】そこで、本発明の解決しようとする他の課
題は、人間の考察あるいは論理的な推論による最適なク
ラスター分類を柔軟に取り入れられるクラスター分類を
行うことが可能なクラスター分析装置を提供することに
ある。

【００５７】

【課題を解決するための手段】本願請求項１に係る分類
ルール探求式クラスター分析装置は、多変量を有するサ
ンプルの観測データを記憶するサンプルデータ記憶手段
と、クラスター分類の繰返し処理の継続と停止の条件、
あるいは評価式を含む評価条件を設定した評価条件設定
手段と、前記サンプルデータ記憶手段に記憶されたサン
プルデータの変量の一覧を出力する変量一覧出力手段
と、前記変量一覧出力手段が出力したサンプルの変量に
ついてユーザーに説明変量と被説明変量とを選択させる
変量選択手段と、ユーザーが前記変量選択手段によって
所定の説明変量と被説明変量とを選択すると、前記説明
変量の属性の組合せにより、評価用のクラスターを仮分
類し、それぞれの評価用クラスターの評価用サンプルデ
ータファイルを生成する評価用サンプルファイル生成手
段と、前記評価用サンプルデータファイル生成手段が生
成した評価用サンプルデータファイルを入力し、前記被
説明変量の観測データについて各評価用クラスターのク
ラスター分離度を評価する評価手段と、前記評価手段の
評価結果と、前記評価条件設定手段の評価条件とに基づ
き、最適なクラスター分類を決定し、クラスター分類の
継続と停止を判断しあるいはユーザーに判断させるクラ
スター分類手段と、を有することを特徴とするものであ
る。

【００５８】本願請求項２に係るクラスター分析装置
は、請求項１のクラスター分析装置において、前記サン
プルデータ記憶手段から、連続的な値をとる変量の観測
データを入力し、それらの観測データを最適に区分して
各区分が前記変量の属性となるようなヒストグラム分析
を行い、ヒストグラム分析によるそれらの変量の属性を
前記変量一覧出力手段に出力するヒストグラム分析手段
を有していることを特徴とするものである。

【００５９】本願請求項３に係るクラスター分析装置
は、請求項１，２のクラスター分析装置において、前記
クラスター分類手段によって決定されたクラスター分類
を入力し、当該クラスター分類に基づく樹形図と、各ク
ラスター分類に係る説明変量の属性とを表示する樹形図
生成手段を有していることを特徴とするものである。

【００６０】本願請求項４に係るクラスター分析装置
は、請求項３のクラスター分析装置において、前記樹形
図生成手段によって生成されたクラスターの樹形図に対
して表示装置の画面上でクラスター分類の追加、変更、
削除の編集処理を行う樹形図編集手段を有していること
を特徴とするものである。

【００６１】本願請求項５に係るクラスター分析装置
は、請求項１〜４のいずれかのクラスター分析装置にお
いて、前記変量選択手段は、前記変量一覧出力手段によ
って表示された説明変量のうち任意の説明変量をユーザ
ーに選択させるように構成されていることを特徴とする
ものである。

【００６２】本願請求項６に係るクラスター分析装置
は、請求項１〜５のいずれかのクラスター分析装置にお
いて、外部のデータベースにアクセスし、クラスター分
類を行おうとするサンプルに関連するデータを検索して
入力する外部データベース検索入力手段を有しているこ
とを特徴とするものである。

【００６３】

【発明の実施の形態】以下に本発明の一実施形態による
「分類ルール探求式クラスター分析装置」について願書
に添付の図面を用いて説明する。 1. 本発明のクラスター分析装置へのコンピュータの適
用とその処理の目的はじめに、本発明の「分類ルール探求式クラスター分析
装置」へのコンピュータの適用と、その処理の目的につ
いて説明する。

【００６４】図１に、本発明によるクラスター分析装置
を実現するためのコンピュータの適用方法と、その入力
と出力とを示す。

【００６５】本発明によるクラスター分析装置は、好ま
しくは本明細書全体によって明らかにされるクラスター
分析のための諸処理をするようにプログラムによって制
御されたコンピュータによって実現される。

【００６６】図１に示すように、本発明のクラスター分
析装置として作動するコンピュータは、データ入力装置
と、記憶装置と、ＣＰＵ（中央処理ユニット）と、処理
命令入力装置と、出力装置とを有している。

【００６７】データ入力装置は、大量のデータを入力可
能な装置である限り該当し、キーボードやポインティン
グディバイスのほか、光学的なデータ読取装置や、外部
の記憶装置にアクセスして所定のファイルを入力する通
信手段等、種々のものが考えられる。

【００６８】処理命令入力装置は、主にユーザーがコン
ピュータを操作して処理をする命令を入力するためのも
のであり、キーボードやポインティングデバイス等があ
る。

【００６９】ＣＰＵは、データの処理や計算を行うデー
タ処理のための主要部分である。ＣＰＵは、プログラム
の制御によって種々のデータ処理を行い得るものであ
り、後述する本発明のヒストグラム分析手段、評価手段
等は、それぞれの処理をするようにプログラムによって
制御されたＣＰＵである。なお、本明細書ではＣＰＵは
処理のためのメモリを含むものとする。

【００７０】出力装置は、ＣＰＵの処理の結果を出力す
るためのものであり、プリンタ、表示装置のほか、デー
タをデータファイルとして出力する通信手段である場合
もある。

【００７１】このクラスター分析装置として作動するコ
ンピュータは、サンプルデータの母集合をその処理の対
象とする。ここで、サンプルデータの母集合は、未処理
の状態のサンプルデータの集合である。未処理の状態の
サンプルデータとは、一サンプルに多数の変量について
の観測データがあり、それぞれのサンプルが如何なる集
合（クラスター）に属するかが不明な状態のものであ
る。

【００７２】本発明のクラスター分析装置は、上記未処
理のサンプルデータの母集合に対して、所定の変量の属
性またはそれらの組合せが同一のサンプルを同一クラス
ターとして分類し、かつ、分類されたサンプルは分類に
使用した変量以外の変量の観測データが互いに“類似”
し、全体的なクラスターの分類体系を明らかにすること
を目的とする。クラスターの分類体系を明らかにしたも
のとしてクラスター分類樹形図がある。

【００７３】すなわち、本発明のクラスター分析装置
は、整理されていない状態の多変量データから、所定の
変量の観測データが互いに類似するサンプルを集め、か
つ、集められたサンプル群が如何なる共通の属性を有し
ているかを明らかにすることができるものである。

【００７４】上記未処理のサンプルデータの母集合を入
力してクラスター分類体系を明らかにしたものを出力す
るまで、クラスター分析装置のデータ入力装置、記憶装
置、ＣＰＵ、処理命令入力装置、出力装置は、それぞれ
の機能に応じて、図１に示すように協働して処理を行
う。 2. 本発明の一実施形態によるクラスター分析装置の構
成と処理の流れ図２に本発明の一実施形態によるクラスター分析装置の
構成と処理の流れを示す。

【００７５】2.1 クラスター分析装置の構成図２に示すように、本実施形態のクラスター分析装置１
は、外部データベース検索入力手段２と、サンプルデー
タ記憶手段３と、ヒストグラム分析手段４と、変量一覧
出力手段５と、変量選択手段６と、評価用サンプルデー
タファイル生成手段７と、評価手段８と、クラスター分
類手段９と、樹形図生成手段１０と、樹形図編集手段１
１と、評価条件設定手段１２とを有している。なお、図
２において、クラスター分析装置１の各構成手段にはそ
れぞれの処理を行うコンピュータの諸装置名を付記し
た。

【００７６】外部データベース検索入力手段２は、クラ
スター分析装置１の外部に存在するデータベースにアク
セスしてクラスター分析をしようとするサンプルの関係
データを検索し、それらを収集して入力する手段であ
る。外部データベース検索入力手段２は、データ入力装
置とそれを制御するＣＰＵとからなり、好ましくは、検
索エンジンと通信手段とを備えたものとする。

【００７７】なお、外部データベース検索入力手段２
は、クラスター分析装置に必須のものではない。すなわ
ち、外部のデータベースから検索することなく、サンプ
ルデータをクラスター分析装置内に取り込むことができ
る場合には、外部データベース検索入力手段を省略する
ことができる。

【００７８】サンプルデータ記憶手段３は、未処理のサ
ンプルデータを記憶する手段である。

【００７９】ヒストグラム分析手段４は、連続的な値を
とる変量の観測データに対し、それらの観測データを最
適に区分して各区分がその変量の属性となるようなヒス
トグラムを生成する手段である。

【００８０】たとえば、顧客データをサンプルデータと
した場合、「年齢」という顧客データの変量は、その観
測データは連続的な分布を有している。

【００８１】この連続的な値をとる「年齢」の分布を適
当に区分することにより、「年齢」という変量の属性が
生成される。たとえば、何歳か以上を「高齢」、何歳か
以下を「若年」という区分にすれば、「年齢」に対して
「高齢」と「若年」は、「年齢」という変量の属性とな
る。

【００８２】「高齢」と「若年」という大きな区分をす
る場合と同様に、細かく所定の年齢幅ごとに一つの区分
とした場合、区分された各年齢帯も、年齢という変量に
対して属性となる。たとえば、「０歳〜１０歳」、「１
１歳〜２０歳」等は、年齢に対する属性である。

【００８３】ヒストグラム分析手段４は、最適な区分に
よるヒストグラムを作成することを目的とする。ヒスト
グラム分析においては、区分の幅により、情報量が失わ
れたり、失われなかったりすることが知られている。
“最適な区分”とは、情報量の損失が最小である区分を
いう。

【００８４】たとえば、特定の年齢帯の顧客が「購買」
という事象を集中的に行っているとしたら、「高齢」
「若年」というような区分では、どの年齢帯の顧客が集
中的に「購買」しているかという情報量が大きく失われ
る。これに対して、適当な年齢幅による区分であれば、
上記特定の年齢帯について「購買」という事象が観測さ
れるという情報量が失われない。

【００８５】一方、極めて詳細な区分をする場合には、
情報量の損失は少ないが、情報の抽出が困難になること
は説明するまでもない。

【００８６】このため、ヒストグラム分析手段４は、連
続的な値をとる変量の観測データを入力し、それをさま
ざまな幅で区分を試み、所定の事象の度数がもっとも明
確に分離される区分を最適なヒストグラムとして採用す
る。なお、具体的なヒストグラム分析の方法について
は、様々なヒストグラム分析の方法が提案されており、
本発明では任意の公知のものを採用することができる。

【００８７】なお、ヒストグラム分析手段４も、本発明
のクラスター分析装置にとっては必須のものではない。
すなわち、連続的な値をとる変量を扱わないクラスター
分析装置も存在することがあり、この場合には、ヒスト
グラム分析手段は省略することができる。

【００８８】変量一覧出力手段５は、サンプルデータの
変量を一覧表の形式でユーザーに示す手段である。

【００８９】本発明によるクラスター分析装置は、特定
の変量の観測データ間の類似度が高いサンプルをクラス
ターに分類する一方、前記特定変量に対して説明的な変
量の属性の組合せをクラスター分類の基準とする。

【００９０】このため、クラスター分類に使用する変量
（説明変量）、および、クラスター内のサンプル間の類
似を評価するための変量（被説明変量）を、ユーザーに
明らかな形で示す必要がある。

【００９１】変量一覧出力手段５は、処理の最初の段階
ではサンプルデータの変量のすべてを表示し、クラスタ
ー分類の繰返し処理の途中ではその段階での選択可能な
説明変量を表示することができる。

【００９２】変量選択手段６は、前記変量一覧出力手段
５が表示した変量の中から、ユーザーに説明変量と被説
明変量とを選択させる手段である。

【００９３】すでに説明したように、被説明変量とは、
サンプルの類似度を評価するための変量である。説明変
量とは、本発明でクラスター分類に使用する変量であっ
て、前記被説明変量が特定の分布に集約される理由を説
明することができる変量である。

【００９４】評価用サンプルデータファイル生成手段７
は、ユーザーが変量選択手段６によって所定の説明変量
と被説明変量とを選択した場合に、選択された説明変量
の属性またはそれらの組合せに応じて評価用のクラスタ
ーを複数個仮分類し、それぞれの評価用クラスターのサ
ンプルデータファイルを生成する手段である。

【００９５】評価手段８は、評価用サンプルデータファ
イル生成手段７が生成したサンプルデータファイルを入
力し、各評価用クラスターのクラスター分離度を評価す
る手段である。クラスター分離度の評価方法については
後述する。

【００９６】クラスター分類手段９は、評価手段８の評
価結果と、評価条件設定手段１２の評価条件とに基づ
き、最適なクラスター分類と、クラスター分類の継続と
停止とを判断する手段である。

【００９７】評価条件設定手段１２は、クラスター分類
の繰返し処理の継続と停止の条件、あるいは評価式等の
評価条件を設定した手段である。

【００９８】なお、「評価条件を設定した手段である」
とは、評価条件を予め設定してあって変更できない場合
と、ユーザーの入力により評価条件を適宜設定できる場
合の双方の場合を含む意である。また、必要に応じて、
クラスター分類の繰返し処理の継続と停止の条件は、評
価条件には含まれず、再分類の必要性についての判断は
ユーザーに任せてもよい。

【００９９】2.2 本実施形態によるクラスター分析装
置の処理の流れ次に、本実施形態によるクラスター分析装置１の処理の
流れについて、図２の処理の流れに沿って以下に説明す
る。なお、理解を容易にし、本発明による処理を明らか
にするために、図３のような極めて簡単な多変量データ
を例にして、各段階の処理を説明する。本実施形態のク
ラスター分析装置１によってクラスター分析をしようと
するときは、必要に応じて最初に評価条件設定手段１２
により評価条件を設定する。評価条件とは、前述した通
り、クラスター分類の繰返し処理の継続と停止の条件、
あるいは評価式等である。

【０１００】次に、図２に示すように、外部データベー
ス検索入力手段２によって、外部のデータベースから必
要なサンプルデータを検索して収集する。

【０１０１】外部データベース検索入力手段２は、好ま
しくは所定のキーワードにより、既存の種々の外部デー
タベースにアクセスして、クラスター分析をしようとす
るサンプルデータを収集する機能を有するようにする。

【０１０２】たとえば、図３のような商品のルート別販
売シェアについてクラスター分析をしようとする場合、
商品の種々の属性情報は、複数の外部データベースに別
々に格納されていることが多い。この場合、外部データ
ベース検索入力手段２は、商品のＩＤ（識別情報）等に
より、複数の外部のデータベースを検索し、それらの外
部データベースから商品の情報を収集して入力する。

【０１０３】上記外部データベース検索入力手段２によ
って入力されたサンプルデータはサンプルデータ記憶手
段３に記憶され、本装置によるクラスター分析に供され
る。各サンプルデータは、図３における各行の横方向に
配列されたデータである。

【０１０４】次に、ヒストグラム分析手段４は、上記サ
ンプルデータ記憶手段３からサンプルデータを入力し、
ヒストグラム分析をする。

【０１０５】ヒストグラム分析は、上述したように連続
的な値をとる変量がある場合に、最適な区分幅により適
当な度数を有する属性を生成する処理である。この属性
はそれぞれある集団特性を表している。

【０１０６】連続的な値をとる変量がない場合には、ヒ
ストグラム分析手段４による処理は行われない。図３の
例では、説明変量はすべて非連続的な値をとるので、ヒ
ストグラム分析手段４による処理は行われない。

【０１０７】変量一覧出力手段５は、クラスター分析が
行われるサンプルデータの変量を一覧表示する。

【０１０８】図３の例では、アイテム、色、デザイン、
ルート別販売シェアＡ，Ｂ，Ｃ，…は、それぞれサンプ
ル（商品）の変量として一覧表示される。

【０１０９】アイテムの下位のＴシャツ、セーターは、
アイテムという変量の属性となる。色等についての白、
赤等も、同様に変量の属性である。

【０１１０】次に、ユーザーは、変量一覧出力手段５に
よって一覧表示された変量から、変量選択手段６の機能
により説明変量と被説明変量とを選択する。なお、被説
明変量は一回選択されると、被説明変量として固定さ
れ、クラスター分類の処理の途中ではユーザーは説明変
量のみを選択することになる。

【０１１１】なお、図３の例では、ルート別販売シェア
について類似する商品をクラスター分析するので、ルー
ト別販売シェアＡ，Ｂ，Ｃ，…が被説明変量として選択
され、ルート別販売シェアＡ，Ｂ，Ｃ，…の分布特性を
説明する変量として商品のアイテム、色、デザイン等が
説明変量の候補となる。

【０１１２】変量一覧出力手段５による説明変量の選択
は、単数あるいは複数の特定の変量を自由に選択できる
ようにする。通常は説明変量の候補は多数にのぼるの
で、ユーザーがそれら説明変量から任意のものを選択す
ることができるようにする。

【０１１３】なお、以下の説明では、ユーザーはすべて
の変量“アイテム”、“色”、“デザイン”を説明変量
として選択したものとする。

【０１１４】ユーザーにより特定の説明変量と被説明変
量とが選択されると、この情報はサンプルデータととも
に評価用サンプルデータファイル生成手段７に入力さ
れ、評価用サンプルデータファイル生成手段７により評
価用サンプルのデータファイルが生成される。

【０１１５】たとえば、ユーザーが“色”という変量を
説明変量として選択した場合、評価用サンプルデータフ
ァイル生成手段７は、“色”の属性により、サンプルデ
ータ全体から、“色＝白”のクラスター｛0001,0002,00
05｝と、“色＝赤”のクラスター｛0003,0004｝とを仮
分類し、それらのルート別販売シェアのデータファイル
を生成する。

【０１１６】上記“色＝白”のクラスター｛0001,0002,
0005｝と、“色＝赤”のクラスター｛0003,0004｝が、
本明細書にいう評価用クラスターである。

【０１１７】“色＝白”のクラスター｛0001,0002,000
5｝や“色＝赤”のクラスター｛0003,0004｝の各サンプ
ルのルート別販売シェアデータが、本明細書にいう評価
用クラスターのサンプルデータファイルを構成する。

【０１１８】なお、“アイテム”についても、“アイテ
ム＝Ｔシャツ”と“アイテム＝セーター”の評価用サン
プルデータファイルが生成され、また、“デザイン”に
ついても、“デザイン＝定番”と“デザイン＝奇抜”の
評価用サンプルデータファイルが生成される。

【０１１９】次に、上記評価用クラスターのデータファ
イルは、評価手段８に送られ、評価手段８によってクラ
スター分離度を評価される。

【０１２０】クラスター分離度は、すでに説明したよう
に、同一のクラスターに属するサンプルは互いに類似
し、異なるクラスターに属するサンプルは互いに非類似
する度合いをいう。

【０１２１】クラスター分離度を評価する評価式は、い
ろいろな形で定義することができる。ここでは、評価式
としてＫＬ情報量によってクラスター分離度を評価する
場合について説明する。

【０１２２】ＫＬ情報量は、以下のように定義される値
である。真の離散分布ｐ＝｛ｐ_１，ｐ_２，…，ｐ_ｍ｝
と、離散分布モデルｑ＝｛ｑ_１，ｑ_２，…，ｑ_ｍ｝とが
あるときに、事象ｉが生じたときに、log ｐ_ｉ／ｑ_ｉと
いう値をとる確率変数log ｐ／ｑの期待値

【数５】をモデルｑに関する真の分布のＫＬ情報量という。

【０１２３】ＫＬ情報量は、真の離散分布（観測デー
タ）とモデルによって推定された離散分布（推定分布）
との「近さ」を表したものである。

【０１２４】本実施形態では、推定分布に対する当該ク
ラスター内のサンプルデータのＫＬ情報量の平均を“ク
ラスターの凝集度”といい、推定分布に対する当該クラ
スター以外のサンプルデータのＫＬ情報量の平均を“ク
ラスター特異度”という。

【０１２５】言い換えれば、クラスター凝集度はクラス
ター内のサンプルが類似していることの度合いを表し、
クラスター特異度は注目しているクラスター内のサンプ
ルが他のクラスターのサンプルと非類似であることの度
合いを示している。

【０１２６】本実施形態では、クラスター分類の適否の
評価を（クラスター特異度／クラスター凝集度）の値で
評価するものである。

【０１２７】なお、上記「推定分布」は、“同一クラス
ターに分類されたサンプルから最も近いであろうと推定
される分布”をいう。この“同一クラスターに分類され
たサンプルから最も近いであろうと推定される分布”
は、各サンプルの平均値、最尤度による推定等種々のも
のが考えられるが、本実施形態では各サンプルの平均値
をそれらのサンプルが属するクラスターの推定分布とす
る。

【０１２８】上記クラスター凝集度とクラスター特異度
を使った説明変量“色”についてのクラスター分離度の
評価は、以下のようにして評価手段８によって計算され
る。

【０１２９】“色＝白”のクラスター｛0001,0002,000
5｝のルート別販売シェアの推定分布モデルは、上述し
たように本実施形態では各サンプルの平均値としている
ので、ルート別に各サンプル0001,0002,0005のシェア値
の平均を求める。これにより、ルートＡ，Ｂ，Ｃの販売
シェアの推定分布ｑ＝(0.4, 0.36, 0.23)となる。

【０１３０】一方、サンプル0001,0002,0005のルート
Ａ，Ｂ，Ｃにおける実際のシェア分布が各サンプルの真
の分布となる。

【０１３１】したがって、“色＝白”のクラスターのク
ラスター凝集度、クラスター特異度、クラスター分離度
は、以下のように計算される。クラスター凝集度＝{(0.4log0.4/0.3＋0.4log0.4/0.36＋0.2log0.2/0.23) ＋(0.4log0.4/0.4+0.3log0.3/0.36+0.3log0.3/0.23) ＋(0.4log0.4/0.4＋0.4log0.4/0.36＋0.2log0.2/0.23)}/3 ＝0.0077 クラスター特異度＝{0.55log0.55/0.4＋0.25log0.25/0.36＋0.2log0.2/0.23}/1 ＝0.0486 クラスター分離度＝クラスター特異度／クラスター凝集度＝0.0486/0.0077 ＝6.2965 “色＝赤”のクラスター｛0003,0004｝のクラスター凝
集度、クラスター特異度、クラスター分離度も同様に計
算され、以下のようになる。クラスター凝集度＝0.0766 クラスター特異度＝0.0491 クラスター分離度＝クラスター特異度／クラスター凝集度＝0.6397 “色”という変量全体に対するクラスター分離度の評価
は、上記“色＝白”と“色＝赤”のクラスター分離度の
重み付き平均値をとり、6.2965*(3/5)＋0.6397*(2/5)＝
3.4681となる。

【０１３２】本実施形態の説明では、説明変量として
“色”のほかに、“アイテム”と“デザイン”をも選択
しているので、説明変量“アイテム”と“デザイン”に
ついても同様にしてクラスター分離度の評価を行う。 “アイテム”による分類のクラスター分離度＝0.9512 “デザイン”による分類のクラスター分離度＝2.3028 上記評価手段８によるクラスター分離度の評価の結果
は、クラスター分類手段９に渡される。

【０１３３】クラスター分類手段９は、評価手段８によ
る評価結果を入力し、評価条件設定手段１２に設定され
ている評価条件を参照し、最適なクラスター分類を決定
し、クラスター分類の継続停止条件が設定されている場
合には、クラスター分類の継続と停止を判断する。クラ
スター分類の継続停止条件が設定されていない場合に
は、クラスター分類手段９はユーザーにクラスター分類
の継続と停止を判断させる。

【０１３４】図３の例では、“色”、“アイテム”、
“デザイン”の各属性によるクラスター分離度は、以下
のようになった。

【０１３５】 “色” による分類のクラスター分離度＝3.4681 “アイテム”による分類のクラスター分離度＝0.9512 “デザイン”による分類のクラスター分離度＝2.3028 したがって、この場合はクラスター分類手段９は、
“色”によるクラスター分類を採用する。

【０１３６】なお、クラスター分類の継続または停止の
条件は、クラスター分類の繰返し処理を継続する利益が
あるか否かを基準に判断するものであれば種々のものが
考えられる。たとえば、クラスター分類によるクラスタ
ー分離度の改善が鈍化した場合に、クラスター分離度の
値の傾斜が所定値より小さくなるので、それ以上のクラ
スター分類を停止するようしてもよい。また、一クラス
ターに属するサンプル数が所定数以下になった場合に
は、クラスターの集団特性を論じる一般性が失われるの
で、それ以上のクラスター分類を停止するようにしても
よい。あるいは、処理の効率を考慮し、所定の階層数の
クラスター分類を行ったら、それ以上のクラスター分類
を停止するようにしてもよい。

【０１３７】クラスター分類手段９は、クラスター分類
の継続を決定した場合は、その回の処理で得られた最適
なクラスター分類と、クラスター分類を継続する旨の信
号を出力する。このクラスター分類を継続する旨の信号
は、後に樹形図編集手段１１の処理後に変量一覧出力手
段５の処理に戻す命令となる。

【０１３８】一方、クラスター分類手段９がクラスター
分類の停止を決定した場合は、その段階で最適なクラス
ター分類を特定し、クラスター分類を中止する旨の信号
を出力する。このクラスター分類を中止する旨の信号
は、後に樹形図編集手段１１の処理後にクラスター分析
の処理を終了する命令となる。

【０１３９】図３の例では、“色”によるクラスター分
類ではクラスター分類の繰返し処理を継続するものとす
る。

【０１４０】クラスター分類手段９の処理が終了する
と、次に、樹形図生成手段１０の処理が開始される。

【０１４１】樹形図生成手段１０は、クラスター分類手
段９によって決定されたクラスター分類を入力し、当該
クラスター分類に基づく樹形図と、各クラスター分類に
係る説明変量の属性とを表示する。

【０１４２】図３の例におけるクラスター分析によって
得られるクラスター分類樹形図を図４に示す。なお、図
４の樹形図は、すべてのクラスター分類を完了した姿を
示しているが、説明変量“色”でクラスター分類しただ
けであれば、クラスター分類樹形図は、最初の階層、す
なわち“色＝白”と“色＝赤”のクラスターのみ生成さ
れる。

【０１４３】樹形図生成手段１０は、図４に示すよう
に、好ましくは各クラスター分類の分岐において、その
クラスター分類に係る説明変数の属性を表示するように
する。図４の各分岐枝に表示された“色＝白”、“色＝
赤”、“デザイン＝奇抜”、“デザイン＝定番”がクラ
スター分類に係る説明変数の属性である。

【０１４４】樹形図生成手段１０によってクラスター分
類樹形図が生成されることにより、ユーザーは現在のク
ラスター分類の状態を視覚的に把握できる。

【０１４５】次に、樹形図編集手段１１は、ユーザーに
樹形図生成手段１０によって生成されたクラスター分類
樹形図に対して表示装置画面上でクラスター分類の追
加、変更、削除の編集をさせる。

【０１４６】クラスター分類の追加、変更、削除は、所
定のクラスターを指定してその下位にさらに分類すべき
クラスターの説明変量を指定したり、複数のクラスター
を統合したり、あるいは、所定のクラスター分類の枝を
削除するなど、画面上でユーザーが処理命令入力装置を
用いて行う。樹形図編集手段１１は、画面上のユーザー
の編集作業を支援する種々のツールを提供するととも
に、ユーザーによるクラスター分類の編集の意味を読み
取り、それに応じて各クラスターのデータファイルを自
動修正する。

【０１４７】また、好ましくは樹形図編集手段１１は、
クラスター分類手段9によるクラスター分類の継続停止
の判断を提示し、ユーザーに最終判断を入力させる。

【０１４８】この結果、クラスター分類の繰返し処理を
継続する場合には、処理は変量一覧出力手段５に戻さ
れ、上述した変量一覧出力手段５から樹形図編集手段１
１までの処理が繰り返される。

【０１４９】一方、クラスター分類の繰返し処理を中止
する場合には、樹形図編集手段１１から最終的分類によ
るクラスター分類樹形図等が出力される。

【０１５０】なお、図４のクラスター分類樹形図は、第
一回目のクラスター分類では説明変量“色”によってク
ラスター分類が行われ、第二回目のクラスター分類では
“色＝白”のクラスターについて説明変量“デザイン”
によってクラスター分類が行われ、そこでクラスター分
類の繰返し処理が停止されている、状態を示している。

【０１５１】図４に示したクラスター分類樹形図によれ
ば、サンプルデータの母集合｛0001, … ,0005} が最
終的には、３つのクラスター{0002}, {0001,0005},{000
3,0004}に分類されている。このクラスター分類から以
下の重要な情報を得ることができる。

【０１５２】第一のクラスター{0002}の商品は、ルート
Ａ，Ｂ，Ｃの販売シェアがそれぞれ0.4, 0.3, 0.3であ
り、この販売シェア分布の商品は“色＝白”かつ“デザ
イン＝奇抜”の商品であることがわかる。

【０１５３】また、第二のクラスター{0001,0005}の商
品は、ルートＡ，Ｂ，Ｃの販売シェアがそれぞれ0.4,
0.4, 0.2に極めて近い商品であり、それらはすべて“色
＝白”かつ“デザイン＝奇抜”の商品であることがわか
る。

【０１５４】第三のクラスター{0003,0004}の商品は、
ルートＡ，Ｂ，Ｃの販売シェアがそれぞれ0.55, 0.25,
0.2に極めて近い商品であり、それらは “色＝赤”の商
品であることがわかる。

【０１５５】このように、本実施形態のクラスター分析
装置1によれば、分類の目的とする変量の観測データが
互いに類似しているサンプルを同一クラスターに分類
し、同時に、各クラスターに属するサンプルが如何なる
共通の属性を有しているか、すなわち各クラスターが如
何なる集団特性を有しているかを明らかにすることがで
きる。

【０１５６】これにより、たとえばある商品の色、デザ
インが明らかであれば、その商品のルートＡ，Ｂ，Ｃに
おける販売シェアをかなりの確率で予測することができ
るのである。

【０１５７】また、本実施形態のクラスター分析装置１
によれば、クラスター分類の途中でユーザーが樹形図編
集手段１１によりクラスター分類樹形図を編集すること
もできるので、人間の思考に沿って好ましい説明変数の
属性によってた分類を行うことができるので、最終的に
分類されたクラスターについて自然な理由による要因分
析をすることができる。

【０１５８】なお、上記分析された要因は、クラスター
を分類する際のルールでもあるので、本明細書において
「分類ルール」というものと同義である。

【０１５９】以上が本実施形態によるクラスター分析装
置１の処理の流れである。なお、上記説明では、分類さ
れたクラスターの分離度評価においてＫＬ情報量を使用
したが、クラスター分離度の評価は被説明変量の観測デ
ータの推定分布に対する各サンプルの真の分布の近さを
評価できるものであれば任意のものとするができる。こ
の評価基準または評価式は、分析者が独自に定めること
ができるし、従来の“距離”の概念を使用することもで
きる。

【０１６０】

【発明の効果】上記説明から明らかなように、本発明に
よる「分類ルール探求式クラスター分析装置」によれ
ば、あるサンプルの母集合から類似するサンプルを抽出
するときに、抽出されるサンプルの類似性の説明となる
変量の属性によってサンプル分類をしている。

【０１６１】これにより、分類されたクラスター（サン
プルの集合）は、互いに類似する集団であるとともに、
共通の他の属性を有している。

【０１６２】これにより、分類されたクラスターの集団
特性は、明確な形で直ちに把握でき、従来のクラスター
分類と異なり、分類されたクラスターの要因分析が困難
で集団特性が不明であることがない。

【０１６３】また、本発明による樹形図編集手段を有す
るクラスター分析装置では、クラスター分析の処理の途
中で、人間の判断により、クラスターの追加、変更、削
除をすることができる。これにより、人間の経験に基づ
く思考に沿った自然なクラスター分類を行うことがで
き、従来のクラスター分類のように人間の考察あるいは
論理的な推論と一致しないクラスター分類をすることが
ない。

【図面の簡単な説明】

【図１】本発明によるクラスター分析装置へのコンピュ
ータの適用とその処理の目的を説明した図。

【図２】本発明の一実施形態によるクラスター分析装置
の構成とその処理の流れを示したブロック図。

【図３】本発明の一実施形態によるクラスター分析装置
の処理を説明するために用いるサンプルデータを表形式
で示した図。

【図４】本発明の一実施形態によるクラスター分析装置
の処理によって出力されるクラスター分類樹形図。

【図５】サンプル間の距離の計算で使用される要素を示
した図。

【図６】距離行列を示した図。

【図７】クラスターの分類系統を示したクラスター分類
樹形図。

【符号の説明】

１クラスター分析装置２外部データベース検索入力手段３サンプルデータ記憶手段４ヒストグラム分析手段５変量一覧出力手段６変量選択手段７評価用サンプルデータファイル生成手段８評価手段９クラスター分類手段１０樹形図生成手段１１樹形図編集手段１２評価条件設定手段

Claims

【特許請求の範囲】

【請求項１】多変量を有するサンプルの観測データを記
憶するサンプルデータ記憶手段と、クラスター分類の繰返し処理の継続と停止の条件、ある
いは評価式を含む評価条件を設定した評価条件設定手段
と、前記サンプルデータ記憶手段に記憶されたサンプルデー
タの変量の一覧を出力する変量一覧出力手段と、前記変量一覧出力手段が出力したサンプルの変量につい
てユーザーに説明変量と被説明変量とを選択させる変量
選択手段と、ユーザーが前記変量選択手段によって所定の説明変量と
被説明変量とを選択すると、前記説明変量の属性の組合
せにより、評価用のクラスターを仮分類し、それぞれの
評価用クラスターの評価用サンプルデータファイルを生
成する評価用サンプルファイル生成手段と、前記評価用サンプルデータファイル生成手段が生成した
評価用サンプルデータファイルを入力し、前記被説明変
量の観測データについて各評価用クラスターのクラスタ
ー分離度を評価する評価手段と、前記評価手段の評価結果と、前記評価条件設定手段の評
価条件とに基づき、最適なクラスター分類を決定し、ク
ラスター分類の継続と停止を判断しあるいはユーザーに
判断させるクラスター分類手段と、を有することを特徴とする分類ルール探求式クラスター
分析装置。
【請求項２】前記サンプルデータ記憶手段から、連続的
な値をとる変量の観測データを入力し、それらの観測デ
ータを最適に区分して各区分が前記変量の属性となるよ
うなヒストグラム分析を行い、ヒストグラム分析による
それらの変量の属性を前記変量一覧出力手段に出力する
ヒストグラム分析手段を有していることを特徴とする請
求項１に記載のクラスター分析装置。
【請求項３】前記クラスター分類手段によって決定され
たクラスター分類を入力し、当該クラスター分類に基づ
く樹形図と、各クラスター分類に係る説明変量の属性と
を表示する樹形図生成手段を有していることを特徴とす
る請求項１または２に記載のクラスター分析装置。
【請求項４】前記樹形図生成手段によって生成されたク
ラスターの樹形図に対して表示装置の画面上でクラスタ
ー分類の追加、変更、削除の編集処理を行う樹形図編集
手段を有していることを特徴とする請求項３に記載のク
ラスター分析装置。
【請求項５】前記変量選択手段は、前記変量一覧出力手
段によって表示された説明変量のうち任意の説明変量を
ユーザーに選択させるように構成されていることを特徴
とする請求項１ないし４のいずれかに記載のクラスター
分析装置。
【請求項６】外部のデータベースにアクセスし、クラス
ター分類を行おうとするサンプルに関連するデータを検
索して入力する外部データベース検索入力手段を有して
いることを特徴とする請求項１ないし５のいずれかに記
載のクラスター分析装置。