JP4194697B2

JP4194697B2 - 分類ルール探求式クラスター分析装置

Info

Publication number: JP4194697B2
Application number: JP30109698A
Authority: JP
Inventors: 崎健寺
Original assignee: Nomura Research Institute Ltd
Current assignee: Nomura Research Institute Ltd
Priority date: 1998-10-22
Filing date: 1998-10-22
Publication date: 2008-12-10
Anticipated expiration: 2018-10-22
Also published as: JP2000132558A

Description

【０００１】
【発明の属する技術分野】
本発明は、一サンプルが複数の変量を有する多数のサンプルデータを処理対象とし、変量の観測値が互いに“類似”する関係にあるサンプルを同一クラスターのサンプルとして分類し、分類されたクラスターの構成と、各クラスターに属するサンプルと、各クラスターの特性とを出力するクラスター分析装置に関する。
【０００２】
同一クラスター内のサンプルが互いに“類似”であり、かつ、相違するクラスターのサンプルの観測データが互いに“非類似”である度合いを評価するための変量を「被説明変量」とし、被説明変量の分布特性の成立を説明することができる変量を「説明変量」とすると、本発明は特に、「説明変量の属性が同一」であって「被説明変量の観測データが互いに類似する」クラスターを発見、分類するクラスター分析装置に関する。
【０００３】
言い換えれば、本発明のクラスター分析装置は、大量の多変量データから、所定の観測データが互いに類似している同一属性の集合（クラスター）を分類し、クラスター間の類似の度合いを明示する分類体系を出力する装置に関する。
【０００４】
【従来の技術】
クラスター分析は、一般的には、多変量解析の分野において多数の観測対象（サンプル）に対して、特定の計算基準（評価基準）により、“類似するもの”を集めて分類する手法を意味する。
【０００５】
すなわち、一般的には、クラスター分析は、観測された多数のサンプルに対して、類似するもの同士を同一グループに単に“分類”するものをいう。
【０００６】
一般的な用語の「クラスター分析」で“分析”の語が使用されているのは、特定のサンプルがどのクラスターに属するかを“評価判定”する処理を含むためである。
【０００７】
従来のクラスター分析は、「クラスター分離度」を算出することによって評価判定していた。ここで、「クラスター分離度」は、同一のクラスターに属するサンプルは互いに類似しており、異なるクラスターのサンプルからは相違している度合いをいう。従来は、このクラスター分離度を算出し、クラスター分離度が最も高くなるように、クラスターを分類していた。
【０００８】
なお、上記「クラスター」は集合のことであり、木構造に分類された場合において上位下位のいずれのレベルの集合をもいう。最下位のクラスターは一つのサンプルのみを含むものであり、最上位のクラスターは全部のサンプルを含むものである。下位のクラスターほどサンプルの属性（変量）が少数のものに特定され、上位のクラスターほどサンプルの属性がばらつく。
【０００９】
このように、あるサンプルデータの母集合に対して、クラスター分離度がもっとも高くなるようにクラスターに分類した後は、分類されたクラスターの要因分析をしなければならない。要因分析することにより、分類されたデータを活用することができるようになるからである。
【００１０】
要因分析は、分類クラスターの特性を求めることであり、あるサンプルがあるクラスターに属すると判断された原因を求めることである。言葉を変えると、要因分析は、同一クラスター内でサンプルが如何なる点で類似するか、を求めることである。
【００１１】
従来は、クラスター分析と要因分析は、別々の段階と方法で処理されていた。つまり、クラスター分析をクラスター分析のためのアルゴリズムによって先に行い、その後で別のアルゴリズムによって分類されたクラスターの要因を分析していた。
【００１２】
従来のクラスター分析は、代表的には、クラスター間の類似度の尺度としてクラスター間の“距離”を計算し、算出された“距離”がもっとも短いクラスターを類似として上位のクラスターとして統合していく方法が行われていた。この従来のクラスター分析のために、コンピュータの利用が種々提案されていた。
【００１３】
一方、従来の要因分析は、分類されたクラスターに対して、人間の直感、あるいは人間の直感に基づき統計解析手法により、事後的に各クラスターに属するサンプルの共通性を、分析していた。
【００１４】
このように、従来はサンプル間の類似の度合いによってクラスター分析することと、要因分析することとは、別々の処理または装置によるものであって、本発明のような要因分析とクラスター分類を同時に行い、双方の評価基準を同時に満たす「分類ルール探求式クラスター分析装置」は、存在していなかった。
【００１５】
なお、この「従来の技術」の欄では、本発明によるクラスター分析装置と従来のクラスター分析の相違を明らかにするために、従来のクラスター分析と要因分析の方法とについて概略説明する。
【００１６】
従来のクラスター分析では、“類似”するサンプル（クラスター）同士を上位の階層のクラスターとして統合する。この“類似”の尺度として“距離”の概念が使用されている。
【００１７】
今、ｎ個のサンプルについてｐ種の変量で観測したデータ｛ｘ_ｉｊ｝（ｉ＝１，２，…，ｎ；ｊ＝１，２，…，ｐ）があるとすると｛ｘ_ｉｊ｝は図５のようになる。
【００１８】
上記与えられた観測データに基づいてクラスター分析をするには、最初に図６に示すような、サンプル間の類似度を表す“距離行列”を作成する。距離としては後述するユークリッド距離、マハラノビスの距離、相関係数等を計算する。
【００１９】
上記“距離行列”が作成されると、後述する分類手法により、“最短距離”の関係にあるクラスターを類似するとして上位の階層のクラスターとして統合する。一つの階層のクラスターが作成されると、再びクラスター間の距離を計算し、距離行列を作成し、最短距離にあるクラスターを求めてさらに一つ上の階層のクラスターを作成する。このようにして、最終的には図７に示すような樹形図（デンドログラム）を作成する。
【００２０】
樹形図において所定の階層で統合されたクラスター内のサンプルは、何らかの類似関係によりその階層で最短距離の関係にあったために統合されたということができる。その類似関係にあるサンプルは、共通してある性質を有しているということができ、その性質を明らかにすることによりそのクラスターの集団の特性を明らかにすることができる。
【００２１】
従来は、分類されたクラスターの集団特性について、上述したように、事後的に解釈・分析していた。すなわち、距離が短い関係にあるサンプルは、如何なる属性の組合せにおいて類似しているかを、主に人間の直感あるいはパターン認識能力を駆使し、事後的に考察していたのである。
【００２２】
上述した“距離”の代表的なものを簡単に説明する。
代表的な距離の種類としては、（ａ）ユークリッド平方距離、（ｂ）標準ユークリッド平方距離、（ｃ）マハラノビスの汎距離、（ｄ）相関係数に基づく距離がある。以下にそれぞれの距離について項分けして簡単に説明しておく。
（ａ）ユークリッド平方距離
サンプルｉとしてサンプルｊのユークリッド平方距離をｄｉｊとすると、ｄｉｊは下式のようになる。
【数１】

【００２３】
ここで、ｘ_ｉｋ，ｘ_ｊｋはそれぞれサンプルｉとｊのｋ番目の変量の観測データである。
【００２４】
（ｂ）標準ユークリッド平方距離
サンプルｉとサンプルｊの標準ユークリッド平方距離をｄ_ｉｊとすると、
ｄ_ｉｊは下式のようになる。
【数２】

【００２５】
（ｃ）マハラノビスの汎距離
サンプルｉとサンプルｊのマハラノビスの汎距離ｄ_ｉｊは次式により定義する。
【数３】

【００２６】
ここで、ν^ｋｍはｘ_１，ｘ_２，…，ｘ_ｐの分散共分散行列の逆行列の（ｋ，ｍ）要素である。
【００２７】
（ｄ）相関係数に基づく距離
サンプルｉとサンプルｊの相関係数γ_ｉｊは次式により定義する。
【数４】

サンプルｉとサンプルｊの相関係数に基づく距離ｄ_ｉｊは上記相関係数γ_ｉｊを用いて下式のように定義する。
【００２８】
ｄ_ｉｊ＝１−γ_ｉｊ
【００２９】
次に、複数サンプルを含むクラスター間の距離の概念について簡単に説明する。
上述した距離の概念を使用してクラスター（単数のサンプルからなるクラスターを含む）を統合してゆく分類手法は種々開発されている。現在よく使用されている分類手法には▲１▼最近隣法、▲２▼最遠隣法、▲３▼重心法、▲４▼ウォード法等がある。以下にこれらの分類手法について項分けして簡単に説明する。
【００３０】
▲１▼ 最近隣法
最近隣法によれば、２つのクラスター間の距離を決めるのに際し、それぞれのクラスターに含まれるサンプル間の距離のうち最短距離をそれらのクラスター間の距離とする。
【００３１】
すなわち、最近隣法は、もっとも近接するサンプル間の距離が短いクラスターほど互いに類似するクラスターとしてクラスター統合する方法である。サンプル間の距離の計算については上述した通りである。
【００３２】
▲２▼ 最遠隣法
最遠隣法によれば、２つのクラスター間の距離を決めるのに際し、それぞれのクラスターに含まれるサンプル間の距離のうち最長距離をそれらのクラスター間の距離とする。
【００３３】
すなわち、最遠隣法は、もっとも遠く離れているサンプル間の距離が短いクラスターほど互いに類似するクラスターとしてクラスター統合するものである。サンプル間の距離の計算については上述した通りである。
【００３４】
▲３▼ 重心法
重心法によれば、クラスターの位置は含まれるサンプルの平均座標、すなわち重心で定義され、ｐ次元の座標で表わされる。２つのクラスター間の距離は、各クラスターの重心間の距離と定義する。
【００３５】
すなわち、重心法は、含まれるサンプルの重心が近い関係にあるクラスターほど類似するクラスターとしてクラスター統合する方法である。
【００３６】
▲４▼ ウォード法
ウォード法によれば、クラスター間の距離は２つのクラスターを統合したときの偏差平方和の増分で定義される。
【００３７】
すなわち、ウォード法は、クラスター統合した場合にサンプルの偏差すなわち、平均に対するばらつきがその段階で最小となるクラスターを互いに類似するクラスターとして統合する方法である。
【００３８】
以上、▲１▼最近隣法〜▲４▼ウォード法のいずれの分類手法によっても、距離が最も短い関係にあるクラスター同士を類似クラスターとして統合するものである。
【００３９】
要約すれば、従来のクラスター分析は、多変量サンプル間の相違を各変量の観測データの総合的な量として計算できる距離という概念を導入し、距離の適用を複数サンプルを含むクラスターに広げることにより、距離が最も短いクラスター同士を類似クラスターとして一つ上の階層のクラスターとして統合してゆくものであった。
【００４０】
従来のクラスター分析は、類似するクラスターを上位のクラスターとして統合することであり、分類されたクラスターの集団特性の分析はクラスター分析とは別個の段階で人間によって処理していた。
【００４１】
【発明が解決しようとする課題】
しかしながら、上記従来のクラスター分析によると、以下の問題があった。
▲１▼ クラスターに分類されたサンプル群の共通の性質を把握するのが困難であった。
【００４２】
従来の方法では、距離の計算をする際に、ユークリッド平方距離等の計算式からわかるように、サンプル間の各変量の観測データ｛ｘ_ｉｊ｝の差の和を基礎としてこれに種々の加工を施して種々の距離を求めている。
【００４３】
しかし、類似するとして同一クラスターに分類されたサンプルは、距離が近いとされた変量と全く関係のない変量によって特徴づけられる集合であることが現実には非常に多い。
【００４４】
たとえば、非常に単純な例であるが、ある商品を購買したか否かという事象を変量として顧客をクラスターに分類する場合を考えると、商品を購買した顧客は購買したという事象によって一つのクラスターとして分類される。しかし、この分類されたクラスターに含まれる顧客は、購買したという事象と関係のない属性、たとえば特定の年齢、性別、職業等を有する人々であるということによって特徴づけられることが非常に頻繁に起こる。
【００４５】
このような場合には、従来のクラスター分析では、要因分析をする際に、前記年齢、性別、職業等の属性を発見するのは専ら人間の直感とパターン認識能力に頼らざるを得なかった。実際には、分析者が同一クラスター内の顧客の顧客像を想像しながら、顧客データから必要な属性データを抽出し、これに種々の統計的処理を施して、顧客の属性、すなわち当該クラスターの集団特性を明らかにしていた。
【００４６】
なお、上記例において、商品を購買したか否かの事象も変量であり、また、上記顧客の年齢、性別、職業等の属性も変量である。本明細書では、前者のような分類の目的となる変量を被説明変量、後者のような各クラスターの分類要因を説明する変量を説明変量ということにする。説明変量と被説明変量は通常ともに、複数の変量、すなわち、それぞれ多変量である。
【００４７】
本発明が解決しようとする課題は、被説明変量に対して説明変量が存在する多変量サンプルに対して、被説明変量の観測データが互いに類似するとして分類されたクラスターについて、説明変量の属性が明確な形でそのクラスターの集団特性を表しているクラスター分析装置を提供することにある。
【００４８】
なお、本明細書にいう「要因分析」は、いわゆる多変量解析にいう「主成分分析」とは全く異なるものである。
【００４９】
多変量解析にいう「主成分分析」は、分類の目的となる変量（被説明変量）を線形結合して新たな変量（被説明変量）を生成し、この新たな変量によってサンプルを分類し、クラスターの分離度をより高くすることを目的とする手法である。
【００５０】
主成分分析を取り入れたクラスター分析では、クラスター間の分離度が高くなるが、類似度あるいは分離度を評価する変量自体が合成された変量であるため、変量のもつ意味が不明になり、クラスターの集団特性がさらに不明瞭になり、要因分析はより困難になる傾向にある。
【００５１】
「主成分分析」によるクラスター分析では、本発明が目的とするような、被説明変量に対する説明変量を明確な形で明らかにしながらクラスター分類を行うクラスター分析装置を提供することはできなかった。
【００５２】
▲２▼ 従来のクラスター分析では、あるサンプルがどのクラスターに属するのかを判断するには、各クラスターとの距離を計算しなければならず、サンプルの持つ属性や特徴から即座に判断することができず、実用上問題が多かった。
【００５３】
従来のクラスター分析では、ユークリッド平方距離等の距離の計算により、最短距離にあるクラスターを類似するクラスターとして一つ上の階層のクラスターとして統合して行くものであった。
【００５４】
上記距離の計算とクラスター統合は、数値計算によって機械的に進められる。したがって、人間のパターン認識能力からすると、異なるクラスターに分類すべきであると判断した場合があっても、人間の考察や推論と異なる形でクラスターの樹形図が完成することがある。
【００５５】
このような、人間の考察と異なる形の樹形図のクラスターに対して事後的に要因分析を行えば、歪められた要因分析にならざるを得ない。
【００５６】
そこで、本発明の解決しようとする他の課題は、人間の考察あるいは論理的な推論による最適なクラスター分類を柔軟に取り入れられるクラスター分類を行うことが可能なクラスター分析装置を提供することにある。
【００５７】
【課題を解決するための手段】
本願請求項１に係る分類ルール探求式クラスター分析装置は、
多変量を有するサンプルの観測データを記憶するサンプルデータ記憶手段と、
クラスター分類の繰返し処理の継続と停止の条件、あるいは評価式を含む評価条件を設定した評価条件設定手段と、
前記サンプルデータ記憶手段に記憶されたサンプルデータの変量の一覧を出力する変量一覧出力手段と、
前記変量一覧出力手段が出力したサンプルの変量についてユーザーに少なくとも一つの説明変量と少なくとも一つの被説明変量とを選択させる変量選択手段と、
ユーザーが前記変量選択手段によって所定の説明変量と被説明変量とを選択すると、前記各説明変量の各属性によって前記サンプルデータを評価用のクラスターに仮分類し、それぞれの評価用クラスターの評価用サンプルデータファイルを生成する評価用サンプルファイル生成手段と、
前記評価用サンプルデータファイル生成手段が生成した評価用サンプルデータファイルを入力し、前記被説明変量の観測データについて各評価用クラスターのクラスター分離度と各説明変量の説明変量としてのクラスター分離度を評価する評価手段と、
前記評価手段の評価結果と、前記評価条件設定手段の評価条件とに基づき、最適なクラスター分類を決定し、クラスター分類の継続と停止を判断しあるいはユーザーに判断させるクラスター分類手段と、を有し、
前記サンプルデータ記憶手段に多変量を有するサンプルの観測データを記憶し、前記変量一覧出力手段により前記サンプルデータの変量の一覧を出力し、前記変量選択手段によりユーザーに前記サンプルデータの変量から少なくとも一つの説明変量と少なくとも一つの被説明変量を選択させ、次に、前記評価用サンプルファイル生成手段によりユーザーが選択した各説明変量の各属性について、該属性を有するサンプルデータを有する評価用クラスターとそれ以外の属性を有するサンプルデータを有する評価用クラスターに仮分類し、各評価用クラスターの評価用サンプルデータファイルを生成し、次に、前記評価手段により前記評価用サンプルデータファイルを入力し、前記評価条件設定手段で設定した評価式に基づいて前記各評価用サンプルデータファイルの前記被説明変量の観測データに対するクラスター分離度を評価し、各説明変量の各属性について算出したクラスター分離度から各説明変量の説明変量としてのクラスター分離度を算出し、説明変量としてのクラスター分離度がもっとも高い説明変量を採用してその属性によってサンプルデータをクラスター分類し、前記評価条件設定手段が設定した評価条件により、残りの説明変量についてさらに評価用クラスターの分類とその評価とクラスター分類を行うか、それともそれ以上のクラスター分類を停止するかを決定する、ことを特徴とする。
【００５８】
本願請求項２に係るクラスター分析装置は、請求項１のクラスター分析装置において、
前記サンプルデータ記憶手段から、連続的な値をとる変量の観測データを入力し、それらの観測データを最適に区分して各区分が前記変量の属性となるようなヒストグラム分析を行い、ヒストグラム分析によるそれらの変量の属性を前記変量一覧出力手段に出力するヒストグラム分析手段を有していることを特徴とするものである。
【００５９】
本願請求項３に係るクラスター分析装置は、請求項１，２のクラスター分析装置において、
前記クラスター分類手段によって決定されたクラスター分類を入力し、当該クラスター分類に基づく樹形図と、各クラスター分類に係る説明変量の属性とを表示する樹形図生成手段を有していることを特徴とするものである。
【００６０】
本願請求項４に係るクラスター分析装置は、請求項３のクラスター分析装置において、
前記樹形図生成手段によって生成されたクラスターの樹形図に対して表示装置の画面上でクラスター分類の追加、変更、削除の編集処理を行う樹形図編集手段を有していることを特徴とするものである。
【００６１】
本願請求項５に係るクラスター分析装置は、請求項１〜４のいずれかのクラスター分析装置において、
前記変量選択手段は、前記変量一覧出力手段によって表示された説明変量のうち任意の説明変量をユーザーに選択させるように構成されていることを特徴とするものである。
【００６２】
本願請求項６に係るクラスター分析装置は、請求項１〜５のいずれかのクラスター分析装置において、
外部のデータベースにアクセスし、クラスター分類を行おうとするサンプルに関連するデータを検索して入力する外部データベース検索入力手段を有していることを特徴とするものである。
【００６３】
【発明の実施の形態】
以下に本発明の一実施形態による「分類ルール探求式クラスター分析装置」について願書に添付の図面を用いて説明する。
1. 本発明のクラスター分析装置へのコンピュータの適用とその処理の目的
はじめに、本発明の「分類ルール探求式クラスター分析装置」へのコンピュータの適用と、その処理の目的について説明する。
【００６４】
図１に、本発明によるクラスター分析装置を実現するためのコンピュータの適用方法と、その入力と出力とを示す。
【００６５】
本発明によるクラスター分析装置は、好ましくは本明細書全体によって明らかにされるクラスター分析のための諸処理をするようにプログラムによって制御されたコンピュータによって実現される。
【００６６】
図１に示すように、本発明のクラスター分析装置として作動するコンピュータは、データ入力装置と、記憶装置と、ＣＰＵ（中央処理ユニット）と、処理命令入力装置と、出力装置とを有している。
【００６７】
データ入力装置は、大量のデータを入力可能な装置である限り該当し、キーボードやポインティングディバイスのほか、光学的なデータ読取装置や、外部の記憶装置にアクセスして所定のファイルを入力する通信手段等、種々のものが考えられる。
【００６８】
処理命令入力装置は、主にユーザーがコンピュータを操作して処理をする命令を入力するためのものであり、キーボードやポインティングデバイス等がある。
【００６９】
ＣＰＵは、データの処理や計算を行うデータ処理のための主要部分である。ＣＰＵは、プログラムの制御によって種々のデータ処理を行い得るものであり、後述する本発明のヒストグラム分析手段、評価手段等は、それぞれの処理をするようにプログラムによって制御されたＣＰＵである。なお、本明細書ではＣＰＵは処理のためのメモリを含むものとする。
【００７０】
出力装置は、ＣＰＵの処理の結果を出力するためのものであり、プリンタ、表示装置のほか、データをデータファイルとして出力する通信手段である場合もある。
【００７１】
このクラスター分析装置として作動するコンピュータは、サンプルデータの母集合をその処理の対象とする。ここで、サンプルデータの母集合は、未処理の状態のサンプルデータの集合である。未処理の状態のサンプルデータとは、一サンプルに多数の変量についての観測データがあり、それぞれのサンプルが如何なる集合（クラスター）に属するかが不明な状態のものである。
【００７２】
本発明のクラスター分析装置は、上記未処理のサンプルデータの母集合に対して、所定の変量の属性またはそれらの組合せが同一のサンプルを同一クラスターとして分類し、かつ、分類されたサンプルは分類に使用した変量以外の変量の観測データが互いに“類似”し、全体的なクラスターの分類体系を明らかにすることを目的とする。クラスターの分類体系を明らかにしたものとしてクラスター分類樹形図がある。
【００７３】
すなわち、本発明のクラスター分析装置は、整理されていない状態の多変量データから、所定の変量の観測データが互いに類似するサンプルを集め、かつ、集められたサンプル群が如何なる共通の属性を有しているかを明らかにすることができるものである。
【００７４】
上記未処理のサンプルデータの母集合を入力してクラスター分類体系を明らかにしたものを出力するまで、クラスター分析装置のデータ入力装置、記憶装置、ＣＰＵ、処理命令入力装置、出力装置は、それぞれの機能に応じて、図１に示すように協働して処理を行う。
2. 本発明の一実施形態によるクラスター分析装置の構成と処理の流れ
図２に本発明の一実施形態によるクラスター分析装置の構成と処理の流れを示す。
【００７５】
2.1 クラスター分析装置の構成
図２に示すように、本実施形態のクラスター分析装置１は、外部データベース検索入力手段２と、サンプルデータ記憶手段３と、ヒストグラム分析手段４と、変量一覧出力手段５と、変量選択手段６と、評価用サンプルデータファイル生成手段７と、評価手段８と、クラスター分類手段９と、樹形図生成手段１０と、樹形図編集手段１１と、評価条件設定手段１２とを有している。なお、図２において、クラスター分析装置１の各構成手段にはそれぞれの処理を行うコンピュータの諸装置名を付記した。
【００７６】
外部データベース検索入力手段２は、クラスター分析装置１の外部に存在するデータベースにアクセスしてクラスター分析をしようとするサンプルの関係データを検索し、それらを収集して入力する手段である。外部データベース検索入力手段２は、データ入力装置とそれを制御するＣＰＵとからなり、好ましくは、検索エンジンと通信手段とを備えたものとする。
【００７７】
なお、外部データベース検索入力手段２は、クラスター分析装置に必須のものではない。すなわち、外部のデータベースから検索することなく、サンプルデータをクラスター分析装置内に取り込むことができる場合には、外部データベース検索入力手段を省略することができる。
【００７８】
サンプルデータ記憶手段３は、未処理のサンプルデータを記憶する手段である。
【００７９】
ヒストグラム分析手段４は、連続的な値をとる変量の観測データに対し、それらの観測データを最適に区分して各区分がその変量の属性となるようなヒストグラムを生成する手段である。
【００８０】
たとえば、顧客データをサンプルデータとした場合、「年齢」という顧客データの変量は、その観測データは連続的な分布を有している。
【００８１】
この連続的な値をとる「年齢」の分布を適当に区分することにより、「年齢」という変量の属性が生成される。たとえば、何歳か以上を「高齢」、何歳か以下を「若年」という区分にすれば、「年齢」に対して「高齢」と「若年」は、「年齢」という変量の属性となる。
【００８２】
「高齢」と「若年」という大きな区分をする場合と同様に、細かく所定の年齢幅ごとに一つの区分とした場合、区分された各年齢帯も、年齢という変量に対して属性となる。たとえば、「０歳〜１０歳」、「１１歳〜２０歳」等は、年齢に対する属性である。
【００８３】
ヒストグラム分析手段４は、最適な区分によるヒストグラムを作成することを目的とする。
ヒストグラム分析においては、区分の幅により、情報量が失われたり、失われなかったりすることが知られている。“最適な区分”とは、情報量の損失が最小である区分をいう。
【００８４】
たとえば、特定の年齢帯の顧客が「購買」という事象を集中的に行っているとしたら、「高齢」「若年」というような区分では、どの年齢帯の顧客が集中的に「購買」しているかという情報量が大きく失われる。これに対して、適当な年齢幅による区分であれば、上記特定の年齢帯について「購買」という事象が観測されるという情報量が失われない。
【００８５】
一方、極めて詳細な区分をする場合には、情報量の損失は少ないが、情報の抽出が困難になることは説明するまでもない。
【００８６】
このため、ヒストグラム分析手段４は、連続的な値をとる変量の観測データを入力し、それをさまざまな幅で区分を試み、所定の事象の度数がもっとも明確に分離される区分を最適なヒストグラムとして採用する。なお、具体的なヒストグラム分析の方法については、様々なヒストグラム分析の方法が提案されており、本発明では任意の公知のものを採用することができる。
【００８７】
なお、ヒストグラム分析手段４も、本発明のクラスター分析装置にとっては必須のものではない。すなわち、連続的な値をとる変量を扱わないクラスター分析装置も存在することがあり、この場合には、ヒストグラム分析手段は省略することができる。
【００８８】
変量一覧出力手段５は、サンプルデータの変量を一覧表の形式でユーザーに示す手段である。
【００８９】
本発明によるクラスター分析装置は、特定の変量の観測データ間の類似度が高いサンプルをクラスターに分類する一方、前記特定変量に対して説明的な変量の属性の組合せをクラスター分類の基準とする。
【００９０】
このため、クラスター分類に使用する変量（説明変量）、および、クラスター内のサンプル間の類似を評価するための変量（被説明変量）を、ユーザーに明らかな形で示す必要がある。
【００９１】
変量一覧出力手段５は、処理の最初の段階ではサンプルデータの変量のすべてを表示し、クラスター分類の繰返し処理の途中ではその段階での選択可能な説明変量を表示することができる。
【００９２】
変量選択手段６は、前記変量一覧出力手段５が表示した変量の中から、ユーザーに説明変量と被説明変量とを選択させる手段である。
【００９３】
すでに説明したように、被説明変量とは、サンプルの類似度を評価するための変量である。説明変量とは、本発明でクラスター分類に使用する変量であって、前記被説明変量が特定の分布に集約される理由を説明することができる変量である。
【００９４】
評価用サンプルデータファイル生成手段７は、ユーザーが変量選択手段６によって所定の説明変量と被説明変量とを選択した場合に、選択された説明変量の属性またはそれらの組合せに応じて評価用のクラスターを複数個仮分類し、それぞれの評価用クラスターのサンプルデータファイルを生成する手段である。
【００９５】
評価手段８は、評価用サンプルデータファイル生成手段７が生成したサンプルデータファイルを入力し、各評価用クラスターのクラスター分離度を評価する手段である。
クラスター分離度の評価方法については後述する。
【００９６】
クラスター分類手段９は、評価手段８の評価結果と、評価条件設定手段１２の評価条件とに基づき、最適なクラスター分類と、クラスター分類の継続と停止とを判断する手段である。
【００９７】
評価条件設定手段１２は、クラスター分類の繰返し処理の継続と停止の条件、あるいは評価式等の評価条件を設定した手段である。
【００９８】
なお、「評価条件を設定した手段である」とは、評価条件を予め設定してあって変更できない場合と、ユーザーの入力により評価条件を適宜設定できる場合の双方の場合を含む意である。また、必要に応じて、クラスター分類の繰返し処理の継続と停止の条件は、評価条件には含まれず、再分類の必要性についての判断はユーザーに任せてもよい。
【００９９】
2.2 本実施形態によるクラスター分析装置の処理の流れ
次に、本実施形態によるクラスター分析装置１の処理の流れについて、図２の処理の流れに沿って以下に説明する。
なお、理解を容易にし、本発明による処理を明らかにするために、図３のような極めて簡単な多変量データを例にして、各段階の処理を説明する。
本実施形態のクラスター分析装置１によってクラスター分析をしようとするときは、必要に応じて最初に評価条件設定手段１２により評価条件を設定する。評価条件とは、前述した通り、クラスター分類の繰返し処理の継続と停止の条件、あるいは評価式等である。
【０１００】
次に、図２に示すように、外部データベース検索入力手段２によって、外部のデータベースから必要なサンプルデータを検索して収集する。
【０１０１】
外部データベース検索入力手段２は、好ましくは所定のキーワードにより、既存の種々の外部データベースにアクセスして、クラスター分析をしようとするサンプルデータを収集する機能を有するようにする。
【０１０２】
たとえば、図３のような商品のルート別販売シェアについてクラスター分析をしようとする場合、商品の種々の属性情報は、複数の外部データベースに別々に格納されていることが多い。この場合、外部データベース検索入力手段２は、商品のＩＤ（識別情報）等により、複数の外部のデータベースを検索し、それらの外部データベースから商品の情報を収集して入力する。
【０１０３】
上記外部データベース検索入力手段２によって入力されたサンプルデータはサンプルデータ記憶手段３に記憶され、本装置によるクラスター分析に供される。各サンプルデータは、図３における各行の横方向に配列されたデータである。
【０１０４】
次に、ヒストグラム分析手段４は、上記サンプルデータ記憶手段３からサンプルデータを入力し、ヒストグラム分析をする。
【０１０５】
ヒストグラム分析は、上述したように連続的な値をとる変量がある場合に、最適な区分幅により適当な度数を有する属性を生成する処理である。この属性はそれぞれある集団特性を表している。
【０１０６】
連続的な値をとる変量がない場合には、ヒストグラム分析手段４による処理は行われない。図３の例では、説明変量はすべて非連続的な値をとるので、ヒストグラム分析手段４による処理は行われない。
【０１０７】
変量一覧出力手段５は、クラスター分析が行われるサンプルデータの変量を一覧表示する。
【０１０８】
図３の例では、アイテム、色、デザイン、ルート別販売シェアＡ，Ｂ，Ｃ，…は、それぞれサンプル（商品）の変量として一覧表示される。
【０１０９】
アイテムの下位のＴシャツ、セーターは、アイテムという変量の属性となる。色等についての白、赤等も、同様に変量の属性である。
【０１１０】
次に、ユーザーは、変量一覧出力手段５によって一覧表示された変量から、変量選択手段６の機能により説明変量と被説明変量とを選択する。なお、被説明変量は一回選択されると、被説明変量として固定され、クラスター分類の処理の途中ではユーザーは説明変量のみを選択することになる。
【０１１１】
なお、図３の例では、ルート別販売シェアについて類似する商品をクラスター分析するので、ルート別販売シェアＡ，Ｂ，Ｃ，…が被説明変量として選択され、ルート別販売シェアＡ，Ｂ，Ｃ，…の分布特性を説明する変量として商品のアイテム、色、デザイン等が説明変量の候補となる。
【０１１２】
変量一覧出力手段５による説明変量の選択は、単数あるいは複数の特定の変量を自由に選択できるようにする。通常は説明変量の候補は多数にのぼるので、ユーザーがそれら説明変量から任意のものを選択することができるようにする。
【０１１３】
なお、以下の説明では、ユーザーはすべての変量“アイテム”、“色”、“デザイン”を説明変量として選択したものとする。
【０１１４】
ユーザーにより特定の説明変量と被説明変量とが選択されると、この情報はサンプルデータとともに評価用サンプルデータファイル生成手段７に入力され、評価用サンプルデータファイル生成手段７により評価用サンプルのデータファイルが生成される。
【０１１５】
たとえば、ユーザーが“色”という変量を説明変量として選択した場合、評価用サンプルデータファイル生成手段７は、“色”の属性により、サンプルデータ全体から、“色＝白”のクラスター｛0001,0002,0005｝と、“色＝赤”のクラスター｛0003,0004｝とを仮分類し、それらのルート別販売シェアのデータファイルを生成する。
【０１１６】
上記“色＝白”のクラスター｛0001,0002,0005｝と、“色＝赤”のクラスター｛0003,0004｝が、本明細書にいう評価用クラスターである。
【０１１７】
“色＝白”のクラスター｛0001,0002,0005｝や“色＝赤”のクラスター｛0003,0004｝の各サンプルのルート別販売シェアデータが、本明細書にいう評価用クラスターのサンプルデータファイルを構成する。
【０１１８】
なお、“アイテム”についても、“アイテム＝Ｔシャツ”と“アイテム＝セーター”の評価用サンプルデータファイルが生成され、また、“デザイン”についても、“デザイン＝定番”と“デザイン＝奇抜”の評価用サンプルデータファイルが生成される。
【０１１９】
次に、上記評価用クラスターのデータファイルは、評価手段８に送られ、評価手段８によってクラスター分離度を評価される。
【０１２０】
クラスター分離度は、すでに説明したように、同一のクラスターに属するサンプルは互いに類似し、異なるクラスターに属するサンプルは互いに非類似する度合いをいう。
【０１２１】
クラスター分離度を評価する評価式は、いろいろな形で定義することができる。ここでは、評価式としてＫＬ情報量によってクラスター分離度を評価する場合について説明する。
【０１２２】
ＫＬ情報量は、以下のように定義される値である。
真の離散分布ｐ＝｛ｐ_１，ｐ_２，…，ｐ_ｍ｝と、離散分布モデルｑ＝｛ｑ_１，ｑ_２，…，ｑ_ｍ｝とがあるときに、事象ｉが生じたときに、log ｐ_ｉ／ｑ_ｉという値をとる確率変数log ｐ／ｑの期待値
【数５】

をモデルｑに関する真の分布のＫＬ情報量という。
【０１２３】
ＫＬ情報量は、真の離散分布（観測データ）とモデルによって推定された離散分布（推定分布）との「近さ」を表したものである。
【０１２４】
本実施形態では、推定分布に対する当該クラスター内のサンプルデータのＫＬ情報量の平均を“クラスターの凝集度”といい、推定分布に対する当該クラスター以外のサンプルデータのＫＬ情報量の平均を“クラスター特異度”という。
【０１２５】
言い換えれば、クラスター凝集度はクラスター内のサンプルが類似していることの度合いを表し、クラスター特異度は注目しているクラスター内のサンプルが他のクラスターのサンプルと非類似であることの度合いを示している。
【０１２６】
本実施形態では、クラスター分類の適否の評価を（クラスター特異度／クラスター凝集度）の値で評価するものである。
【０１２７】
なお、上記「推定分布」は、“同一クラスターに分類されたサンプルから最も近いであろうと推定される分布”をいう。この“同一クラスターに分類されたサンプルから最も近いであろうと推定される分布”は、各サンプルの平均値、最尤度による推定等種々のものが考えられるが、本実施形態では各サンプルの平均値をそれらのサンプルが属するクラスターの推定分布とする。
【０１２８】
上記クラスター凝集度とクラスター特異度を使った説明変量“色”についてのクラスター分離度の評価は、以下のようにして評価手段８によって計算される。
【０１２９】
“色＝白”のクラスター｛0001,0002,0005｝のルート別販売シェアの推定分布モデルは、上述したように本実施形態では各サンプルの平均値としているので、ルート別に各サンプル0001,0002,0005のシェア値の平均を求める。これにより、ルートＡ，Ｂ，Ｃの販売シェアの推定分布ｑ＝(0.4, 0.36, 0.23)となる。
【０１３０】
一方、サンプル0001,0002,0005のルートＡ，Ｂ，Ｃにおける実際のシェア分布が各サンプルの真の分布となる。
【０１３１】
したがって、“色＝白”のクラスターのクラスター凝集度、クラスター特異度、クラスター分離度は、以下のように計算される。
クラスター凝集度＝{(0.4log0.4/0.3＋0.4log0.4/0.36＋0.2log0.2/0.23)
＋(0.4log0.4/0.4+0.3log0.3/0.36+0.3log0.3/0.23)
＋(0.4log0.4/0.4＋0.4log0.4/0.36＋0.2log0.2/0.23)}/3
＝0.0077
クラスター特異度＝{0.55log0.55/0.4＋0.25log0.25/0.36＋0.2log0.2/0.23}/1
＝0.0486
クラスター分離度＝クラスター特異度／クラスター凝集度
＝0.0486/0.0077
＝6.2965
“色＝赤”のクラスター｛0003,0004｝のクラスター凝集度、クラスター特異度、クラスター分離度も同様に計算され、以下のようになる。
クラスター凝集度＝0.0766
クラスター特異度＝0.0491
クラスター分離度＝クラスター特異度／クラスター凝集度
＝0.6397
“色”という変量全体に対するクラスター分離度の評価は、上記“色＝白”と“色＝赤”のクラスター分離度の重み付き平均値をとり、
6.2965*(3/5)＋0.6397*(2/5)＝3.4681となる。
【０１３２】
本実施形態の説明では、説明変量として“色”のほかに、“アイテム”と“デザイン”をも選択しているので、説明変量“アイテム”と“デザイン”についても同様にしてクラスター分離度の評価を行う。
“アイテム”による分類のクラスター分離度＝0.9512
“デザイン”による分類のクラスター分離度＝2.3028
上記評価手段８によるクラスター分離度の評価の結果は、クラスター分類手段９に渡される。
【０１３３】
クラスター分類手段９は、評価手段８による評価結果を入力し、評価条件設定手段１２に設定されている評価条件を参照し、最適なクラスター分類を決定し、クラスター分類の継続停止条件が設定されている場合には、クラスター分類の継続と停止を判断する。クラスター分類の継続停止条件が設定されていない場合には、クラスター分類手段９はユーザーにクラスター分類の継続と停止を判断させる。
【０１３４】
図３の例では、“色”、“アイテム”、“デザイン”の各属性によるクラスター分離度は、以下のようになった。
【０１３５】
“色” による分類のクラスター分離度＝3.4681
“アイテム”による分類のクラスター分離度＝0.9512
“デザイン”による分類のクラスター分離度＝2.3028
したがって、この場合はクラスター分類手段９は、“色”によるクラスター分類を採用する。
【０１３６】
なお、クラスター分類の継続または停止の条件は、クラスター分類の繰返し処理を継続する利益があるか否かを基準に判断するものであれば種々のものが考えられる。たとえば、クラスター分類によるクラスター分離度の改善が鈍化した場合に、クラスター分離度の値の傾斜が所定値より小さくなるので、それ以上のクラスター分類を停止するようしてもよい。また、一クラスターに属するサンプル数が所定数以下になった場合には、クラスターの集団特性を論じる一般性が失われるので、それ以上のクラスター分類を停止するようにしてもよい。あるいは、処理の効率を考慮し、所定の階層数のクラスター分類を行ったら、それ以上のクラスター分類を停止するようにしてもよい。
【０１３７】
クラスター分類手段９は、クラスター分類の継続を決定した場合は、その回の処理で得られた最適なクラスター分類と、クラスター分類を継続する旨の信号を出力する。このクラスター分類を継続する旨の信号は、後に樹形図編集手段１１の処理後に変量一覧出力手段５の処理に戻す命令となる。
【０１３８】
一方、クラスター分類手段９がクラスター分類の停止を決定した場合は、その段階で最適なクラスター分類を特定し、クラスター分類を中止する旨の信号を出力する。このクラスター分類を中止する旨の信号は、後に樹形図編集手段１１の処理後にクラスター分析の処理を終了する命令となる。
【０１３９】
図３の例では、“色”によるクラスター分類ではクラスター分類の繰返し処理を継続するものとする。
【０１４０】
クラスター分類手段９の処理が終了すると、次に、樹形図生成手段１０の処理が開始される。
【０１４１】
樹形図生成手段１０は、クラスター分類手段９によって決定されたクラスター分類を入力し、当該クラスター分類に基づく樹形図と、各クラスター分類に係る説明変量の属性とを表示する。
【０１４２】
図３の例におけるクラスター分析によって得られるクラスター分類樹形図を図４に示す。なお、図４の樹形図は、すべてのクラスター分類を完了した姿を示しているが、説明変量“色”でクラスター分類しただけであれば、クラスター分類樹形図は、最初の階層、すなわち“色＝白”と“色＝赤”のクラスターのみ生成される。
【０１４３】
樹形図生成手段１０は、図４に示すように、好ましくは各クラスター分類の分岐において、そのクラスター分類に係る説明変数の属性を表示するようにする。図４の各分岐枝に表示された“色＝白”、“色＝赤”、“デザイン＝奇抜”、“デザイン＝定番”がクラスター分類に係る説明変数の属性である。
【０１４４】
樹形図生成手段１０によってクラスター分類樹形図が生成されることにより、ユーザーは現在のクラスター分類の状態を視覚的に把握できる。
【０１４５】
次に、樹形図編集手段１１は、ユーザーに樹形図生成手段１０によって生成されたクラスター分類樹形図に対して表示装置画面上でクラスター分類の追加、変更、削除の編集をさせる。
【０１４６】
クラスター分類の追加、変更、削除は、所定のクラスターを指定してその下位にさらに分類すべきクラスターの説明変量を指定したり、複数のクラスターを統合したり、あるいは、所定のクラスター分類の枝を削除するなど、画面上でユーザーが処理命令入力装置を用いて行う。樹形図編集手段１１は、画面上のユーザーの編集作業を支援する種々のツールを提供するとともに、ユーザーによるクラスター分類の編集の意味を読み取り、それに応じて各クラスターのデータファイルを自動修正する。
【０１４７】
また、好ましくは樹形図編集手段１１は、クラスター分類手段9によるクラスター分類の継続停止の判断を提示し、ユーザーに最終判断を入力させる。
【０１４８】
この結果、クラスター分類の繰返し処理を継続する場合には、処理は変量一覧出力手段５に戻され、上述した変量一覧出力手段５から樹形図編集手段１１までの処理が繰り返される。
【０１４９】
一方、クラスター分類の繰返し処理を中止する場合には、樹形図編集手段１１から最終的分類によるクラスター分類樹形図等が出力される。
【０１５０】
なお、図４のクラスター分類樹形図は、第一回目のクラスター分類では説明変量“色”によってクラスター分類が行われ、第二回目のクラスター分類では“色＝白”のクラスターについて説明変量“デザイン”によってクラスター分類が行われ、そこでクラスター分類の繰返し処理が停止されている、状態を示している。
【０１５１】
図４に示したクラスター分類樹形図によれば、サンプルデータの母集合｛0001, … ,0005} が最終的には、３つのクラスター{0002}, {0001,0005},
{0003,0004}に分類されている。このクラスター分類から以下の重要な情報を得ることができる。
【０１５２】
第一のクラスター{0002}の商品は、ルートＡ，Ｂ，Ｃの販売シェアがそれぞれ0.4, 0.3, 0.3であり、この販売シェア分布の商品は“色＝白”かつ“デザイン＝奇抜”の商品であることがわかる。
【０１５３】
また、第二のクラスター{0001,0005}の商品は、ルートＡ，Ｂ，Ｃの販売シェアがそれぞれ0.4, 0.4, 0.2に極めて近い商品であり、それらはすべて“色＝白”かつ“デザイン＝奇抜”の商品であることがわかる。
【０１５４】
第三のクラスター{0003,0004}の商品は、ルートＡ，Ｂ，Ｃの販売シェアがそれぞれ0.55, 0.25, 0.2に極めて近い商品であり、それらは “色＝赤”の商品であることがわかる。
【０１５５】
このように、本実施形態のクラスター分析装置1によれば、分類の目的とする変量の観測データが互いに類似しているサンプルを同一クラスターに分類し、同時に、各クラスターに属するサンプルが如何なる共通の属性を有しているか、すなわち各クラスターが如何なる集団特性を有しているかを明らかにすることができる。
【０１５６】
これにより、たとえばある商品の色、デザインが明らかであれば、その商品のルートＡ，Ｂ，Ｃにおける販売シェアをかなりの確率で予測することができるのである。
【０１５７】
また、本実施形態のクラスター分析装置１によれば、クラスター分類の途中でユーザーが樹形図編集手段１１によりクラスター分類樹形図を編集することもできるので、人間の思考に沿って好ましい説明変数の属性によってた分類を行うことができるので、最終的に分類されたクラスターについて自然な理由による要因分析をすることができる。
【０１５８】
なお、上記分析された要因は、クラスターを分類する際のルールでもあるので、本明細書において「分類ルール」というものと同義である。
【０１５９】
以上が本実施形態によるクラスター分析装置１の処理の流れである。
なお、上記説明では、分類されたクラスターの分離度評価においてＫＬ情報量を使用したが、クラスター分離度の評価は被説明変量の観測データの推定分布に対する各サンプルの真の分布の近さを評価できるものであれば任意のものとするができる。この評価基準または評価式は、分析者が独自に定めることができるし、従来の“距離”の概念を使用することもできる。
【０１６０】
【発明の効果】
上記説明から明らかなように、本発明による「分類ルール探求式クラスター分析装置」によれば、あるサンプルの母集合から類似するサンプルを抽出するときに、抽出されるサンプルの類似性の説明となる変量の属性によってサンプル分類をしている。
【０１６１】
これにより、分類されたクラスター（サンプルの集合）は、互いに類似する集団であるとともに、共通の他の属性を有している。
【０１６２】
これにより、分類されたクラスターの集団特性は、明確な形で直ちに把握でき、従来のクラスター分類と異なり、分類されたクラスターの要因分析が困難で集団特性が不明であることがない。
【０１６３】
また、本発明による樹形図編集手段を有するクラスター分析装置では、クラスター分析の処理の途中で、人間の判断により、クラスターの追加、変更、削除をすることができる。これにより、人間の経験に基づく思考に沿った自然なクラスター分類を行うことができ、従来のクラスター分類のように人間の考察あるいは論理的な推論と一致しないクラスター分類をすることがない。
【図面の簡単な説明】
【図１】本発明によるクラスター分析装置へのコンピュータの適用とその処理の目的を説明した図。
【図２】本発明の一実施形態によるクラスター分析装置の構成とその処理の流れを示したブロック図。
【図３】本発明の一実施形態によるクラスター分析装置の処理を説明するために用いるサンプルデータを表形式で示した図。
【図４】本発明の一実施形態によるクラスター分析装置の処理によって出力されるクラスター分類樹形図。
【図５】サンプル間の距離の計算で使用される要素を示した図。
【図６】距離行列を示した図。
【図７】クラスターの分類系統を示したクラスター分類樹形図。
【符号の説明】
１クラスター分析装置
２外部データベース検索入力手段
３サンプルデータ記憶手段
４ヒストグラム分析手段
５変量一覧出力手段
６変量選択手段
７評価用サンプルデータファイル生成手段
８評価手段
９クラスター分類手段
１０樹形図生成手段
１１樹形図編集手段
１２評価条件設定手段

Claims

多変量を有するサンプルの観測データを記憶するサンプルデータ記憶手段と、
クラスター分類の繰返し処理の継続と停止の条件、あるいは評価式を含む評価条件を設定した評価条件設定手段と、
前記サンプルデータ記憶手段に記憶されたサンプルデータの変量の一覧を出力する変量一覧出力手段と、
前記変量一覧出力手段が出力したサンプルの変量についてユーザーに少なくとも一つの説明変量と少なくとも一つの被説明変量とを選択させる変量選択手段と、
ユーザーが前記変量選択手段によって所定の説明変量と被説明変量とを選択すると、前記各説明変量各属性によって前記サンプルデータを評価用のクラスターに仮分類し、それぞれの評価用クラスターの評価用サンプルデータファイルを生成する評価用サンプルファイル生成手段と、
前記評価用サンプルデータファイル生成手段が生成した評価用サンプルデータファイルを入力し、前記被説明変量の観測データについて各評価用クラスターのクラスター分離度と各説明変量の説明変量としてのクラスター分離度を評価する評価手段と、
前記評価手段の評価結果と、前記評価条件設定手段の評価条件とに基づき、最適なクラスター分類を決定し、クラスター分類の継続と停止を判断しあるいはユーザーに判断させるクラスター分類手段と、を有し、
前記サンプルデータ記憶手段に多変量を有するサンプルの観測データを記憶し、前記変量一覧出力手段により前記サンプルデータの変量の一覧を出力し、前記変量選択手段によりユーザーに前記サンプルデータの変量から少なくとも一つの説明変量と少なくとも一つの被説明変量を選択させ、次に、前記評価用サンプルファイル生成手段によりユーザーが選択した各説明変量の各属性について、該属性を有するサンプルデータを有する評価用クラスターとそれ以外の属性を有するサンプルデータを有する評価用クラスターに仮分類し、各評価用クラスターの評価用サンプルデータファイルを生成し、次に、前記評価手段により前記評価用サンプルデータファイルを入力し、前記評価条件設定手段で設定した評価式に基づいて前記各評価用サンプルデータファイルの前記被説明変量の観測データに対するクラスター分離度を評価し、各説明変量の各属性について算出したクラスター分離度から各説明変量の説明変量としてのクラスター分離度を算出し、説明変量としてのクラスター分離度がもっとも高い説明変量を採用してその属性によってサンプルデータをクラスター分類し、前記評価条件設定手段が設定した評価条件により、残りの説明変量についてさらに評価用クラスターの分類とその評価とクラスター分類を行うか、それともそれ以上のクラスター分類を停止するかを決定する、ことを特徴とする分類ルール探求式クラスター分析装置。
前記サンプルデータ記憶手段から、連続的な値をとる変量の観測データを入力し、それらの観測データを最適に区分して各区分が前記変量の属性となるようなヒストグラム分析を行い、ヒストグラム分析によるそれらの変量の属性を前記変量一覧出力手段に出力するヒストグラム分析手段を有していることを特徴とする請求項１に記載のクラスター分析装置。
前記クラスター分類手段によって決定されたクラスター分類を入力し、当該クラスター分類に基づく樹形図と、各クラスター分類に係る説明変量の属性とを表示する樹形図生成手段を有していることを特徴とする請求項１または２に記載のクラスター分析装置。
前記樹形図生成手段によって生成されたクラスターの樹形図に対して表示装置の画面上でクラスター分類の追加、変更、削除の編集処理を行う樹形図編集手段を有していることを特徴とする請求項３に記載のクラスター分析装置。
前記変量選択手段は、前記変量一覧出力手段によって表示された説明変量のうち任意の説明変量をユーザーに選択させるように構成されていることを特徴とする請求項１ないし４のいずれかに記載のクラスター分析装置。
外部のデータベースにアクセスし、クラスター分類を行おうとするサンプルに関連するデータを検索して入力する外部データベース検索入力手段を有していることを特徴とする請求項１ないし５のいずれかに記載のクラスター分析装置。