JP2000132558A - 分類ルール探求式クラスター分析装置 - Google Patents
分類ルール探求式クラスター分析装置Info
- Publication number
- JP2000132558A JP2000132558A JP10301096A JP30109698A JP2000132558A JP 2000132558 A JP2000132558 A JP 2000132558A JP 10301096 A JP10301096 A JP 10301096A JP 30109698 A JP30109698 A JP 30109698A JP 2000132558 A JP2000132558 A JP 2000132558A
- Authority
- JP
- Japan
- Prior art keywords
- cluster
- variable
- evaluation
- classification
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Complex Calculations (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
探求とを同時に行うクラスター分析装置を提供する。 【解決手段】 多変量サンプルデータを記憶するサンプ
ルデータ記憶手段3と、評価条件を設定した評価条件設
定手段12と、サンプルデータの変量の一覧を出力する
変量一覧出力手段5と、サンプルの変量についてユーザ
ーに説明変量と被説明変量とを選択させる変量選択手段
6と、説明変量の属性の組合せにより、評価用のクラス
ターを仮分類し、評価用サンプルデータファイルを生成
する評価用サンプルファイル生成手段7と、評価用サン
プルデータファイルの被説明変量の観測データについて
クラスター分離度を評価する評価手段8と、最適なクラ
スター分類を決定し、クラスター分類の継続と停止を判
断するクラスター分類手段9と、を備えた。
Description
の変量を有する多数のサンプルデータを処理対象とし、
変量の観測値が互いに“類似”する関係にあるサンプル
を同一クラスターのサンプルとして分類し、分類された
クラスターの構成と、各クラスターに属するサンプル
と、各クラスターの特性とを出力するクラスター分析装
置に関する。
似”であり、かつ、相違するクラスターのサンプルの観
測データが互いに“非類似”である度合いを評価するた
めの変量を「被説明変量」とし、被説明変量の分布特性
の成立を説明することができる変量を「説明変量」とす
ると、本発明は特に、「説明変量の属性が同一」であっ
て「被説明変量の観測データが互いに類似する」クラス
ターを発見、分類するクラスター分析装置に関する。
置は、大量の多変量データから、所定の観測データが互
いに類似している同一属性の集合(クラスター)を分類
し、クラスター間の類似の度合いを明示する分類体系を
出力する装置に関する。
解析の分野において多数の観測対象(サンプル)に対し
て、特定の計算基準(評価基準)により、“類似するも
の”を集めて分類する手法を意味する。
は、観測された多数のサンプルに対して、類似するもの
同士を同一グループに単に“分類”するものをいう。
析”の語が使用されているのは、特定のサンプルがどの
クラスターに属するかを“評価判定”する処理を含むた
めである。
離度」を算出することによって評価判定していた。ここ
で、「クラスター分離度」は、同一のクラスターに属す
るサンプルは互いに類似しており、異なるクラスターの
サンプルからは相違している度合いをいう。従来は、こ
のクラスター分離度を算出し、クラスター分離度が最も
高くなるように、クラスターを分類していた。
あり、木構造に分類された場合において上位下位のいず
れのレベルの集合をもいう。最下位のクラスターは一つ
のサンプルのみを含むものであり、最上位のクラスター
は全部のサンプルを含むものである。下位のクラスター
ほどサンプルの属性(変量)が少数のものに特定され、
上位のクラスターほどサンプルの属性がばらつく。
に対して、クラスター分離度がもっとも高くなるように
クラスターに分類した後は、分類されたクラスターの要
因分析をしなければならない。要因分析することによ
り、分類されたデータを活用することができるようにな
るからである。
ることであり、あるサンプルがあるクラスターに属する
と判断された原因を求めることである。言葉を変える
と、要因分析は、同一クラスター内でサンプルが如何な
る点で類似するか、を求めることである。
々の段階と方法で処理されていた。つまり、クラスター
分析をクラスター分析のためのアルゴリズムによって先
に行い、その後で別のアルゴリズムによって分類された
クラスターの要因を分析していた。
ラスター間の類似度の尺度としてクラスター間の“距
離”を計算し、算出された“距離”がもっとも短いクラ
スターを類似として上位のクラスターとして統合してい
く方法が行われていた。この従来のクラスター分析のた
めに、コンピュータの利用が種々提案されていた。
スターに対して、人間の直感、あるいは人間の直感に基
づき統計解析手法により、事後的に各クラスターに属す
るサンプルの共通性を、分析していた。
合いによってクラスター分析することと、要因分析する
こととは、別々の処理または装置によるものであって、
本発明のような要因分析とクラスター分類を同時に行
い、双方の評価基準を同時に満たす「分類ルール探求式
クラスター分析装置」は、存在していなかった。
明によるクラスター分析装置と従来のクラスター分析の
相違を明らかにするために、従来のクラスター分析と要
因分析の方法とについて概略説明する。
サンプル(クラスター)同士を上位の階層のクラスター
として統合する。この“類似”の尺度として“距離”の
概念が使用されている。
観測したデータ{xij}(i=1,2,…,n;j=
1,2,…,p)があるとすると{xij}は図5のよ
うになる。
スター分析をするには、最初に図6に示すような、サン
プル間の類似度を表す“距離行列”を作成する。距離と
しては後述するユークリッド距離、マハラノビスの距
離、相関係数等を計算する。
る分類手法により、“最短距離”の関係にあるクラスタ
ーを類似するとして上位の階層のクラスターとして統合
する。一つの階層のクラスターが作成されると、再びク
ラスター間の距離を計算し、距離行列を作成し、最短距
離にあるクラスターを求めてさらに一つ上の階層のクラ
スターを作成する。このようにして、最終的には図7に
示すような樹形図(デンドログラム)を作成する。
ラスター内のサンプルは、何らかの類似関係によりその
階層で最短距離の関係にあったために統合されたという
ことができる。その類似関係にあるサンプルは、共通し
てある性質を有しているということができ、その性質を
明らかにすることによりそのクラスターの集団の特性を
明らかにすることができる。
について、上述したように、事後的に解釈・分析してい
た。すなわち、距離が短い関係にあるサンプルは、如何
なる属性の組合せにおいて類似しているかを、主に人間
の直感あるいはパターン認識能力を駆使し、事後的に考
察していたのである。
説明する。代表的な距離の種類としては、(a)ユーク
リッド平方距離、(b)標準ユークリッド平方距離、
(c)マハラノビスの汎距離、(d)相関係数に基づく
距離がある。以下にそれぞれの距離について項分けして
簡単に説明しておく。 (a)ユークリッド平方距離 サンプルiとしてサンプルjのユークリッド平方距離を
dijとすると、dijは下式のようになる。
ルiとjのk番目の変量の観測データである。
dijとすると、dijは下式のようになる。
は次式により定義する。
分散共分散行列の逆行列の(k,m)要素である。
定義する。
は上記相関係数γijを用いて下式のように定義する。
距離の概念について簡単に説明する。上述した距離の概
念を使用してクラスター(単数のサンプルからなるクラ
スターを含む)を統合してゆく分類手法は種々開発され
ている。現在よく使用されている分類手法には最近隣
法、最遠隣法、重心法、ウォード法等がある。以
下にこれらの分類手法について項分けして簡単に説明す
る。
のに際し、それぞれのクラスターに含まれるサンプル間
の距離のうち最短距離をそれらのクラスター間の距離と
する。
サンプル間の距離が短いクラスターほど互いに類似する
クラスターとしてクラスター統合する方法である。サン
プル間の距離の計算については上述した通りである。
のに際し、それぞれのクラスターに含まれるサンプル間
の距離のうち最長距離をそれらのクラスター間の距離と
する。
ているサンプル間の距離が短いクラスターほど互いに類
似するクラスターとしてクラスター統合するものであ
る。サンプル間の距離の計算については上述した通りで
ある。
の平均座標、すなわち重心で定義され、p次元の座標で
表わされる。2つのクラスター間の距離は、各クラスタ
ーの重心間の距離と定義する。
重心が近い関係にあるクラスターほど類似するクラスタ
ーとしてクラスター統合する方法である。
スターを統合したときの偏差平方和の増分で定義され
る。
した場合にサンプルの偏差すなわち、平均に対するばら
つきがその段階で最小となるクラスターを互いに類似す
るクラスターとして統合する方法である。
の分類手法によっても、距離が最も短い関係にあるクラ
スター同士を類似クラスターとして統合するものであ
る。
変量サンプル間の相違を各変量の観測データの総合的な
量として計算できる距離という概念を導入し、距離の適
用を複数サンプルを含むクラスターに広げることによ
り、距離が最も短いクラスター同士を類似クラスターと
して一つ上の階層のクラスターとして統合してゆくもの
であった。
ターを上位のクラスターとして統合することであり、分
類されたクラスターの集団特性の分析はクラスター分析
とは別個の段階で人間によって処理していた。
来のクラスター分析によると、以下の問題があった。 クラスターに分類されたサンプル群の共通の性質を
把握するのが困難であった。
ユークリッド平方距離等の計算式からわかるように、サ
ンプル間の各変量の観測データ{xij}の差の和を基
礎としてこれに種々の加工を施して種々の距離を求めて
いる。
分類されたサンプルは、距離が近いとされた変量と全く
関係のない変量によって特徴づけられる集合であること
が現実には非常に多い。
商品を購買したか否かという事象を変量として顧客をク
ラスターに分類する場合を考えると、商品を購買した顧
客は購買したという事象によって一つのクラスターとし
て分類される。しかし、この分類されたクラスターに含
まれる顧客は、購買したという事象と関係のない属性、
たとえば特定の年齢、性別、職業等を有する人々である
ということによって特徴づけられることが非常に頻繁に
起こる。
析では、要因分析をする際に、前記年齢、性別、職業等
の属性を発見するのは専ら人間の直感とパターン認識能
力に頼らざるを得なかった。実際には、分析者が同一ク
ラスター内の顧客の顧客像を想像しながら、顧客データ
から必要な属性データを抽出し、これに種々の統計的処
理を施して、顧客の属性、すなわち当該クラスターの集
団特性を明らかにしていた。
否かの事象も変量であり、また、上記顧客の年齢、性
別、職業等の属性も変量である。本明細書では、前者の
ような分類の目的となる変量を被説明変量、後者のよう
な各クラスターの分類要因を説明する変量を説明変量と
いうことにする。説明変量と被説明変量は通常ともに、
複数の変量、すなわち、それぞれ多変量である。
変量に対して説明変量が存在する多変量サンプルに対し
て、被説明変量の観測データが互いに類似するとして分
類されたクラスターについて、説明変量の属性が明確な
形でそのクラスターの集団特性を表しているクラスター
分析装置を提供することにある。
わゆる多変量解析にいう「主成分分析」とは全く異なる
ものである。
の目的となる変量(被説明変量)を線形結合して新たな
変量(被説明変量)を生成し、この新たな変量によって
サンプルを分類し、クラスターの分離度をより高くする
ことを目的とする手法である。
は、クラスター間の分離度が高くなるが、類似度あるい
は分離度を評価する変量自体が合成された変量であるた
め、変量のもつ意味が不明になり、クラスターの集団特
性がさらに不明瞭になり、要因分析はより困難になる傾
向にある。
は、本発明が目的とするような、被説明変量に対する説
明変量を明確な形で明らかにしながらクラスター分類を
行うクラスター分析装置を提供することはできなかっ
た。
プルがどのクラスターに属するのかを判断するには、各
クラスターとの距離を計算しなければならず、サンプル
の持つ属性や特徴から即座に判断することができず、実
用上問題が多かった。
平方距離等の距離の計算により、最短距離にあるクラス
ターを類似するクラスターとして一つ上の階層のクラス
ターとして統合して行くものであった。
計算によって機械的に進められる。したがって、人間の
パターン認識能力からすると、異なるクラスターに分類
すべきであると判断した場合があっても、人間の考察や
推論と異なる形でクラスターの樹形図が完成することが
ある。
図のクラスターに対して事後的に要因分析を行えば、歪
められた要因分析にならざるを得ない。
題は、人間の考察あるいは論理的な推論による最適なク
ラスター分類を柔軟に取り入れられるクラスター分類を
行うことが可能なクラスター分析装置を提供することに
ある。
ルール探求式クラスター分析装置は、多変量を有するサ
ンプルの観測データを記憶するサンプルデータ記憶手段
と、クラスター分類の繰返し処理の継続と停止の条件、
あるいは評価式を含む評価条件を設定した評価条件設定
手段と、前記サンプルデータ記憶手段に記憶されたサン
プルデータの変量の一覧を出力する変量一覧出力手段
と、前記変量一覧出力手段が出力したサンプルの変量に
ついてユーザーに説明変量と被説明変量とを選択させる
変量選択手段と、ユーザーが前記変量選択手段によって
所定の説明変量と被説明変量とを選択すると、前記説明
変量の属性の組合せにより、評価用のクラスターを仮分
類し、それぞれの評価用クラスターの評価用サンプルデ
ータファイルを生成する評価用サンプルファイル生成手
段と、前記評価用サンプルデータファイル生成手段が生
成した評価用サンプルデータファイルを入力し、前記被
説明変量の観測データについて各評価用クラスターのク
ラスター分離度を評価する評価手段と、前記評価手段の
評価結果と、前記評価条件設定手段の評価条件とに基づ
き、最適なクラスター分類を決定し、クラスター分類の
継続と停止を判断しあるいはユーザーに判断させるクラ
スター分類手段と、を有することを特徴とするものであ
る。
は、請求項1のクラスター分析装置において、前記サン
プルデータ記憶手段から、連続的な値をとる変量の観測
データを入力し、それらの観測データを最適に区分して
各区分が前記変量の属性となるようなヒストグラム分析
を行い、ヒストグラム分析によるそれらの変量の属性を
前記変量一覧出力手段に出力するヒストグラム分析手段
を有していることを特徴とするものである。
は、請求項1,2のクラスター分析装置において、前記
クラスター分類手段によって決定されたクラスター分類
を入力し、当該クラスター分類に基づく樹形図と、各ク
ラスター分類に係る説明変量の属性とを表示する樹形図
生成手段を有していることを特徴とするものである。
は、請求項3のクラスター分析装置において、前記樹形
図生成手段によって生成されたクラスターの樹形図に対
して表示装置の画面上でクラスター分類の追加、変更、
削除の編集処理を行う樹形図編集手段を有していること
を特徴とするものである。
は、請求項1〜4のいずれかのクラスター分析装置にお
いて、前記変量選択手段は、前記変量一覧出力手段によ
って表示された説明変量のうち任意の説明変量をユーザ
ーに選択させるように構成されていることを特徴とする
ものである。
は、請求項1〜5のいずれかのクラスター分析装置にお
いて、外部のデータベースにアクセスし、クラスター分
類を行おうとするサンプルに関連するデータを検索して
入力する外部データベース検索入力手段を有しているこ
とを特徴とするものである。
「分類ルール探求式クラスター分析装置」について願書
に添付の図面を用いて説明する。 1. 本発明のクラスター分析装置へのコンピュータの適
用とその処理の目的 はじめに、本発明の「分類ルール探求式クラスター分析
装置」へのコンピュータの適用と、その処理の目的につ
いて説明する。
を実現するためのコンピュータの適用方法と、その入力
と出力とを示す。
しくは本明細書全体によって明らかにされるクラスター
分析のための諸処理をするようにプログラムによって制
御されたコンピュータによって実現される。
析装置として作動するコンピュータは、データ入力装置
と、記憶装置と、CPU(中央処理ユニット)と、処理
命令入力装置と、出力装置とを有している。
能な装置である限り該当し、キーボードやポインティン
グディバイスのほか、光学的なデータ読取装置や、外部
の記憶装置にアクセスして所定のファイルを入力する通
信手段等、種々のものが考えられる。
ピュータを操作して処理をする命令を入力するためのも
のであり、キーボードやポインティングデバイス等があ
る。
タ処理のための主要部分である。CPUは、プログラム
の制御によって種々のデータ処理を行い得るものであ
り、後述する本発明のヒストグラム分析手段、評価手段
等は、それぞれの処理をするようにプログラムによって
制御されたCPUである。なお、本明細書ではCPUは
処理のためのメモリを含むものとする。
るためのものであり、プリンタ、表示装置のほか、デー
タをデータファイルとして出力する通信手段である場合
もある。
ンピュータは、サンプルデータの母集合をその処理の対
象とする。ここで、サンプルデータの母集合は、未処理
の状態のサンプルデータの集合である。未処理の状態の
サンプルデータとは、一サンプルに多数の変量について
の観測データがあり、それぞれのサンプルが如何なる集
合(クラスター)に属するかが不明な状態のものであ
る。
理のサンプルデータの母集合に対して、所定の変量の属
性またはそれらの組合せが同一のサンプルを同一クラス
ターとして分類し、かつ、分類されたサンプルは分類に
使用した変量以外の変量の観測データが互いに“類似”
し、全体的なクラスターの分類体系を明らかにすること
を目的とする。クラスターの分類体系を明らかにしたも
のとしてクラスター分類樹形図がある。
は、整理されていない状態の多変量データから、所定の
変量の観測データが互いに類似するサンプルを集め、か
つ、集められたサンプル群が如何なる共通の属性を有し
ているかを明らかにすることができるものである。
力してクラスター分類体系を明らかにしたものを出力す
るまで、クラスター分析装置のデータ入力装置、記憶装
置、CPU、処理命令入力装置、出力装置は、それぞれ
の機能に応じて、図1に示すように協働して処理を行
う。 2. 本発明の一実施形態によるクラスター分析装置の構
成と処理の流れ 図2に本発明の一実施形態によるクラスター分析装置の
構成と処理の流れを示す。
は、外部データベース検索入力手段2と、サンプルデー
タ記憶手段3と、ヒストグラム分析手段4と、変量一覧
出力手段5と、変量選択手段6と、評価用サンプルデー
タファイル生成手段7と、評価手段8と、クラスター分
類手段9と、樹形図生成手段10と、樹形図編集手段1
1と、評価条件設定手段12とを有している。なお、図
2において、クラスター分析装置1の各構成手段にはそ
れぞれの処理を行うコンピュータの諸装置名を付記し
た。
スター分析装置1の外部に存在するデータベースにアク
セスしてクラスター分析をしようとするサンプルの関係
データを検索し、それらを収集して入力する手段であ
る。外部データベース検索入力手段2は、データ入力装
置とそれを制御するCPUとからなり、好ましくは、検
索エンジンと通信手段とを備えたものとする。
は、クラスター分析装置に必須のものではない。すなわ
ち、外部のデータベースから検索することなく、サンプ
ルデータをクラスター分析装置内に取り込むことができ
る場合には、外部データベース検索入力手段を省略する
ことができる。
ンプルデータを記憶する手段である。
とる変量の観測データに対し、それらの観測データを最
適に区分して各区分がその変量の属性となるようなヒス
トグラムを生成する手段である。
した場合、「年齢」という顧客データの変量は、その観
測データは連続的な分布を有している。
当に区分することにより、「年齢」という変量の属性が
生成される。たとえば、何歳か以上を「高齢」、何歳か
以下を「若年」という区分にすれば、「年齢」に対して
「高齢」と「若年」は、「年齢」という変量の属性とな
る。
る場合と同様に、細かく所定の年齢幅ごとに一つの区分
とした場合、区分された各年齢帯も、年齢という変量に
対して属性となる。たとえば、「0歳〜10歳」、「1
1歳〜20歳」等は、年齢に対する属性である。
よるヒストグラムを作成することを目的とする。ヒスト
グラム分析においては、区分の幅により、情報量が失わ
れたり、失われなかったりすることが知られている。
“最適な区分”とは、情報量の損失が最小である区分を
いう。
という事象を集中的に行っているとしたら、「高齢」
「若年」というような区分では、どの年齢帯の顧客が集
中的に「購買」しているかという情報量が大きく失われ
る。これに対して、適当な年齢幅による区分であれば、
上記特定の年齢帯について「購買」という事象が観測さ
れるという情報量が失われない。
情報量の損失は少ないが、情報の抽出が困難になること
は説明するまでもない。
続的な値をとる変量の観測データを入力し、それをさま
ざまな幅で区分を試み、所定の事象の度数がもっとも明
確に分離される区分を最適なヒストグラムとして採用す
る。なお、具体的なヒストグラム分析の方法について
は、様々なヒストグラム分析の方法が提案されており、
本発明では任意の公知のものを採用することができる。
のクラスター分析装置にとっては必須のものではない。
すなわち、連続的な値をとる変量を扱わないクラスター
分析装置も存在することがあり、この場合には、ヒスト
グラム分析手段は省略することができる。
変量を一覧表の形式でユーザーに示す手段である。
の変量の観測データ間の類似度が高いサンプルをクラス
ターに分類する一方、前記特定変量に対して説明的な変
量の属性の組合せをクラスター分類の基準とする。
(説明変量)、および、クラスター内のサンプル間の類
似を評価するための変量(被説明変量)を、ユーザーに
明らかな形で示す必要がある。
ではサンプルデータの変量のすべてを表示し、クラスタ
ー分類の繰返し処理の途中ではその段階での選択可能な
説明変量を表示することができる。
5が表示した変量の中から、ユーザーに説明変量と被説
明変量とを選択させる手段である。
サンプルの類似度を評価するための変量である。説明変
量とは、本発明でクラスター分類に使用する変量であっ
て、前記被説明変量が特定の分布に集約される理由を説
明することができる変量である。
は、ユーザーが変量選択手段6によって所定の説明変量
と被説明変量とを選択した場合に、選択された説明変量
の属性またはそれらの組合せに応じて評価用のクラスタ
ーを複数個仮分類し、それぞれの評価用クラスターのサ
ンプルデータファイルを生成する手段である。
イル生成手段7が生成したサンプルデータファイルを入
力し、各評価用クラスターのクラスター分離度を評価す
る手段である。クラスター分離度の評価方法については
後述する。
価結果と、評価条件設定手段12の評価条件とに基づ
き、最適なクラスター分類と、クラスター分類の継続と
停止とを判断する手段である。
の繰返し処理の継続と停止の条件、あるいは評価式等の
評価条件を設定した手段である。
とは、評価条件を予め設定してあって変更できない場合
と、ユーザーの入力により評価条件を適宜設定できる場
合の双方の場合を含む意である。また、必要に応じて、
クラスター分類の繰返し処理の継続と停止の条件は、評
価条件には含まれず、再分類の必要性についての判断は
ユーザーに任せてもよい。
置の処理の流れ 次に、本実施形態によるクラスター分析装置1の処理の
流れについて、図2の処理の流れに沿って以下に説明す
る。なお、理解を容易にし、本発明による処理を明らか
にするために、図3のような極めて簡単な多変量データ
を例にして、各段階の処理を説明する。本実施形態のク
ラスター分析装置1によってクラスター分析をしようと
するときは、必要に応じて最初に評価条件設定手段12
により評価条件を設定する。評価条件とは、前述した通
り、クラスター分類の繰返し処理の継続と停止の条件、
あるいは評価式等である。
ス検索入力手段2によって、外部のデータベースから必
要なサンプルデータを検索して収集する。
しくは所定のキーワードにより、既存の種々の外部デー
タベースにアクセスして、クラスター分析をしようとす
るサンプルデータを収集する機能を有するようにする。
売シェアについてクラスター分析をしようとする場合、
商品の種々の属性情報は、複数の外部データベースに別
々に格納されていることが多い。この場合、外部データ
ベース検索入力手段2は、商品のID(識別情報)等に
より、複数の外部のデータベースを検索し、それらの外
部データベースから商品の情報を収集して入力する。
って入力されたサンプルデータはサンプルデータ記憶手
段3に記憶され、本装置によるクラスター分析に供され
る。各サンプルデータは、図3における各行の横方向に
配列されたデータである。
ンプルデータ記憶手段3からサンプルデータを入力し、
ヒストグラム分析をする。
的な値をとる変量がある場合に、最適な区分幅により適
当な度数を有する属性を生成する処理である。この属性
はそれぞれある集団特性を表している。
ストグラム分析手段4による処理は行われない。図3の
例では、説明変量はすべて非連続的な値をとるので、ヒ
ストグラム分析手段4による処理は行われない。
行われるサンプルデータの変量を一覧表示する。
ルート別販売シェアA,B,C,…は、それぞれサンプ
ル(商品)の変量として一覧表示される。
アイテムという変量の属性となる。色等についての白、
赤等も、同様に変量の属性である。
よって一覧表示された変量から、変量選択手段6の機能
により説明変量と被説明変量とを選択する。なお、被説
明変量は一回選択されると、被説明変量として固定さ
れ、クラスター分類の処理の途中ではユーザーは説明変
量のみを選択することになる。
について類似する商品をクラスター分析するので、ルー
ト別販売シェアA,B,C,…が被説明変量として選択
され、ルート別販売シェアA,B,C,…の分布特性を
説明する変量として商品のアイテム、色、デザイン等が
説明変量の候補となる。
は、単数あるいは複数の特定の変量を自由に選択できる
ようにする。通常は説明変量の候補は多数にのぼるの
で、ユーザーがそれら説明変量から任意のものを選択す
ることができるようにする。
の変量“アイテム”、“色”、“デザイン”を説明変量
として選択したものとする。
量とが選択されると、この情報はサンプルデータととも
に評価用サンプルデータファイル生成手段7に入力さ
れ、評価用サンプルデータファイル生成手段7により評
価用サンプルのデータファイルが生成される。
説明変量として選択した場合、評価用サンプルデータフ
ァイル生成手段7は、“色”の属性により、サンプルデ
ータ全体から、“色=白”のクラスター{0001,0002,00
05}と、“色=赤”のクラスター{0003,0004}とを仮
分類し、それらのルート別販売シェアのデータファイル
を生成する。
0005}と、“色=赤”のクラスター{0003,0004}が、
本明細書にいう評価用クラスターである。
5}や“色=赤”のクラスター{0003,0004}の各サンプ
ルのルート別販売シェアデータが、本明細書にいう評価
用クラスターのサンプルデータファイルを構成する。
ム=Tシャツ”と“アイテム=セーター”の評価用サン
プルデータファイルが生成され、また、“デザイン”に
ついても、“デザイン=定番”と“デザイン=奇抜”の
評価用サンプルデータファイルが生成される。
イルは、評価手段8に送られ、評価手段8によってクラ
スター分離度を評価される。
に、同一のクラスターに属するサンプルは互いに類似
し、異なるクラスターに属するサンプルは互いに非類似
する度合いをいう。
ろいろな形で定義することができる。ここでは、評価式
としてKL情報量によってクラスター分離度を評価する
場合について説明する。
である。真の離散分布p={p1,p2,…,pm}
と、離散分布モデルq={q1,q2,…,qm}とが
あるときに、事象iが生じたときに、log pi/qiと
いう値をとる確率変数log p/qの期待値
タ)とモデルによって推定された離散分布(推定分布)
との「近さ」を表したものである。
ラスター内のサンプルデータのKL情報量の平均を“ク
ラスターの凝集度”といい、推定分布に対する当該クラ
スター以外のサンプルデータのKL情報量の平均を“ク
ラスター特異度”という。
ター内のサンプルが類似していることの度合いを表し、
クラスター特異度は注目しているクラスター内のサンプ
ルが他のクラスターのサンプルと非類似であることの度
合いを示している。
評価を(クラスター特異度/クラスター凝集度)の値で
評価するものである。
ターに分類されたサンプルから最も近いであろうと推定
される分布”をいう。この“同一クラスターに分類され
たサンプルから最も近いであろうと推定される分布”
は、各サンプルの平均値、最尤度による推定等種々のも
のが考えられるが、本実施形態では各サンプルの平均値
をそれらのサンプルが属するクラスターの推定分布とす
る。
を使った説明変量“色”についてのクラスター分離度の
評価は、以下のようにして評価手段8によって計算され
る。
5}のルート別販売シェアの推定分布モデルは、上述し
たように本実施形態では各サンプルの平均値としている
ので、ルート別に各サンプル0001,0002,0005のシェア値
の平均を求める。これにより、ルートA,B,Cの販売
シェアの推定分布q=(0.4, 0.36, 0.23)となる。
A,B,Cにおける実際のシェア分布が各サンプルの真
の分布となる。
ラスター凝集度、クラスター特異度、クラスター分離度
は、以下のように計算される。 クラスター凝集度={(0.4log0.4/0.3+0.4log0.4/0.36+0.2log0.2/0.23) +(0.4log0.4/0.4+0.3log0.3/0.36+0.3log0.3/0.23) +(0.4log0.4/0.4+0.4log0.4/0.36+0.2log0.2/0.23)}/3 =0.0077 クラスター特異度={0.55log0.55/0.4+0.25log0.25/0.36+0.2log0.2/0.23}/1 =0.0486 クラスター分離度=クラスター特異度/クラスター凝集度 =0.0486/0.0077 =6.2965 “色=赤”のクラスター{0003,0004}のクラスター凝
集度、クラスター特異度、クラスター分離度も同様に計
算され、以下のようになる。 クラスター凝集度=0.0766 クラスター特異度=0.0491 クラスター分離度=クラスター特異度/クラスター凝集度 =0.6397 “色”という変量全体に対するクラスター分離度の評価
は、上記“色=白”と“色=赤”のクラスター分離度の
重み付き平均値をとり、6.2965*(3/5)+0.6397*(2/5)=
3.4681となる。
“色”のほかに、“アイテム”と“デザイン”をも選択
しているので、説明変量“アイテム”と“デザイン”に
ついても同様にしてクラスター分離度の評価を行う。 “アイテム”による分類のクラスター分離度=0.9512 “デザイン”による分類のクラスター分離度=2.3028 上記評価手段8によるクラスター分離度の評価の結果
は、クラスター分類手段9に渡される。
る評価結果を入力し、評価条件設定手段12に設定され
ている評価条件を参照し、最適なクラスター分類を決定
し、クラスター分類の継続停止条件が設定されている場
合には、クラスター分類の継続と停止を判断する。クラ
スター分類の継続停止条件が設定されていない場合に
は、クラスター分類手段9はユーザーにクラスター分類
の継続と停止を判断させる。
“デザイン”の各属性によるクラスター分離度は、以下
のようになった。
“色”によるクラスター分類を採用する。
条件は、クラスター分類の繰返し処理を継続する利益が
あるか否かを基準に判断するものであれば種々のものが
考えられる。たとえば、クラスター分類によるクラスタ
ー分離度の改善が鈍化した場合に、クラスター分離度の
値の傾斜が所定値より小さくなるので、それ以上のクラ
スター分類を停止するようしてもよい。また、一クラス
ターに属するサンプル数が所定数以下になった場合に
は、クラスターの集団特性を論じる一般性が失われるの
で、それ以上のクラスター分類を停止するようにしても
よい。あるいは、処理の効率を考慮し、所定の階層数の
クラスター分類を行ったら、それ以上のクラスター分類
を停止するようにしてもよい。
の継続を決定した場合は、その回の処理で得られた最適
なクラスター分類と、クラスター分類を継続する旨の信
号を出力する。このクラスター分類を継続する旨の信号
は、後に樹形図編集手段11の処理後に変量一覧出力手
段5の処理に戻す命令となる。
分類の停止を決定した場合は、その段階で最適なクラス
ター分類を特定し、クラスター分類を中止する旨の信号
を出力する。このクラスター分類を中止する旨の信号
は、後に樹形図編集手段11の処理後にクラスター分析
の処理を終了する命令となる。
類ではクラスター分類の繰返し処理を継続するものとす
る。
と、次に、樹形図生成手段10の処理が開始される。
段9によって決定されたクラスター分類を入力し、当該
クラスター分類に基づく樹形図と、各クラスター分類に
係る説明変量の属性とを表示する。
得られるクラスター分類樹形図を図4に示す。なお、図
4の樹形図は、すべてのクラスター分類を完了した姿を
示しているが、説明変量“色”でクラスター分類しただ
けであれば、クラスター分類樹形図は、最初の階層、す
なわち“色=白”と“色=赤”のクラスターのみ生成さ
れる。
に、好ましくは各クラスター分類の分岐において、その
クラスター分類に係る説明変数の属性を表示するように
する。図4の各分岐枝に表示された“色=白”、“色=
赤”、“デザイン=奇抜”、“デザイン=定番”がクラ
スター分類に係る説明変数の属性である。
類樹形図が生成されることにより、ユーザーは現在のク
ラスター分類の状態を視覚的に把握できる。
樹形図生成手段10によって生成されたクラスター分類
樹形図に対して表示装置画面上でクラスター分類の追
加、変更、削除の編集をさせる。
定のクラスターを指定してその下位にさらに分類すべき
クラスターの説明変量を指定したり、複数のクラスター
を統合したり、あるいは、所定のクラスター分類の枝を
削除するなど、画面上でユーザーが処理命令入力装置を
用いて行う。樹形図編集手段11は、画面上のユーザー
の編集作業を支援する種々のツールを提供するととも
に、ユーザーによるクラスター分類の編集の意味を読み
取り、それに応じて各クラスターのデータファイルを自
動修正する。
クラスター分類手段9によるクラスター分類の継続停止
の判断を提示し、ユーザーに最終判断を入力させる。
継続する場合には、処理は変量一覧出力手段5に戻さ
れ、上述した変量一覧出力手段5から樹形図編集手段1
1までの処理が繰り返される。
する場合には、樹形図編集手段11から最終的分類によ
るクラスター分類樹形図等が出力される。
一回目のクラスター分類では説明変量“色”によってク
ラスター分類が行われ、第二回目のクラスター分類では
“色=白”のクラスターについて説明変量“デザイン”
によってクラスター分類が行われ、そこでクラスター分
類の繰返し処理が停止されている、状態を示している。
ば、サンプルデータの母集合{0001, … ,0005} が最
終的には、3つのクラスター{0002}, {0001,0005},{000
3,0004}に分類されている。このクラスター分類から以
下の重要な情報を得ることができる。
A,B,Cの販売シェアがそれぞれ0.4, 0.3, 0.3であ
り、この販売シェア分布の商品は“色=白”かつ“デザ
イン=奇抜”の商品であることがわかる。
品は、ルートA,B,Cの販売シェアがそれぞれ0.4,
0.4, 0.2に極めて近い商品であり、それらはすべて“色
=白”かつ“デザイン=奇抜”の商品であることがわか
る。
ルートA,B,Cの販売シェアがそれぞれ0.55, 0.25,
0.2に極めて近い商品であり、それらは “色=赤”の商
品であることがわかる。
装置1によれば、分類の目的とする変量の観測データが
互いに類似しているサンプルを同一クラスターに分類
し、同時に、各クラスターに属するサンプルが如何なる
共通の属性を有しているか、すなわち各クラスターが如
何なる集団特性を有しているかを明らかにすることがで
きる。
インが明らかであれば、その商品のルートA,B,Cに
おける販売シェアをかなりの確率で予測することができ
るのである。
によれば、クラスター分類の途中でユーザーが樹形図編
集手段11によりクラスター分類樹形図を編集すること
もできるので、人間の思考に沿って好ましい説明変数の
属性によってた分類を行うことができるので、最終的に
分類されたクラスターについて自然な理由による要因分
析をすることができる。
を分類する際のルールでもあるので、本明細書において
「分類ルール」というものと同義である。
置1の処理の流れである。なお、上記説明では、分類さ
れたクラスターの分離度評価においてKL情報量を使用
したが、クラスター分離度の評価は被説明変量の観測デ
ータの推定分布に対する各サンプルの真の分布の近さを
評価できるものであれば任意のものとするができる。こ
の評価基準または評価式は、分析者が独自に定めること
ができるし、従来の“距離”の概念を使用することもで
きる。
よる「分類ルール探求式クラスター分析装置」によれ
ば、あるサンプルの母集合から類似するサンプルを抽出
するときに、抽出されるサンプルの類似性の説明となる
変量の属性によってサンプル分類をしている。
プルの集合)は、互いに類似する集団であるとともに、
共通の他の属性を有している。
特性は、明確な形で直ちに把握でき、従来のクラスター
分類と異なり、分類されたクラスターの要因分析が困難
で集団特性が不明であることがない。
るクラスター分析装置では、クラスター分析の処理の途
中で、人間の判断により、クラスターの追加、変更、削
除をすることができる。これにより、人間の経験に基づ
く思考に沿った自然なクラスター分類を行うことがで
き、従来のクラスター分類のように人間の考察あるいは
論理的な推論と一致しないクラスター分類をすることが
ない。
ータの適用とその処理の目的を説明した図。
の構成とその処理の流れを示したブロック図。
の処理を説明するために用いるサンプルデータを表形式
で示した図。
の処理によって出力されるクラスター分類樹形図。
した図。
樹形図。
Claims (6)
- 【請求項1】多変量を有するサンプルの観測データを記
憶するサンプルデータ記憶手段と、 クラスター分類の繰返し処理の継続と停止の条件、ある
いは評価式を含む評価条件を設定した評価条件設定手段
と、 前記サンプルデータ記憶手段に記憶されたサンプルデー
タの変量の一覧を出力する変量一覧出力手段と、 前記変量一覧出力手段が出力したサンプルの変量につい
てユーザーに説明変量と被説明変量とを選択させる変量
選択手段と、 ユーザーが前記変量選択手段によって所定の説明変量と
被説明変量とを選択すると、前記説明変量の属性の組合
せにより、評価用のクラスターを仮分類し、それぞれの
評価用クラスターの評価用サンプルデータファイルを生
成する評価用サンプルファイル生成手段と、 前記評価用サンプルデータファイル生成手段が生成した
評価用サンプルデータファイルを入力し、前記被説明変
量の観測データについて各評価用クラスターのクラスタ
ー分離度を評価する評価手段と、 前記評価手段の評価結果と、前記評価条件設定手段の評
価条件とに基づき、最適なクラスター分類を決定し、ク
ラスター分類の継続と停止を判断しあるいはユーザーに
判断させるクラスター分類手段と、 を有することを特徴とする分類ルール探求式クラスター
分析装置。 - 【請求項2】前記サンプルデータ記憶手段から、連続的
な値をとる変量の観測データを入力し、それらの観測デ
ータを最適に区分して各区分が前記変量の属性となるよ
うなヒストグラム分析を行い、ヒストグラム分析による
それらの変量の属性を前記変量一覧出力手段に出力する
ヒストグラム分析手段を有していることを特徴とする請
求項1に記載のクラスター分析装置。 - 【請求項3】前記クラスター分類手段によって決定され
たクラスター分類を入力し、当該クラスター分類に基づ
く樹形図と、各クラスター分類に係る説明変量の属性と
を表示する樹形図生成手段を有していることを特徴とす
る請求項1または2に記載のクラスター分析装置。 - 【請求項4】前記樹形図生成手段によって生成されたク
ラスターの樹形図に対して表示装置の画面上でクラスタ
ー分類の追加、変更、削除の編集処理を行う樹形図編集
手段を有していることを特徴とする請求項3に記載のク
ラスター分析装置。 - 【請求項5】前記変量選択手段は、前記変量一覧出力手
段によって表示された説明変量のうち任意の説明変量を
ユーザーに選択させるように構成されていることを特徴
とする請求項1ないし4のいずれかに記載のクラスター
分析装置。 - 【請求項6】外部のデータベースにアクセスし、クラス
ター分類を行おうとするサンプルに関連するデータを検
索して入力する外部データベース検索入力手段を有して
いることを特徴とする請求項1ないし5のいずれかに記
載のクラスター分析装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP30109698A JP4194697B2 (ja) | 1998-10-22 | 1998-10-22 | 分類ルール探求式クラスター分析装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP30109698A JP4194697B2 (ja) | 1998-10-22 | 1998-10-22 | 分類ルール探求式クラスター分析装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000132558A true JP2000132558A (ja) | 2000-05-12 |
JP4194697B2 JP4194697B2 (ja) | 2008-12-10 |
Family
ID=17892815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP30109698A Expired - Fee Related JP4194697B2 (ja) | 1998-10-22 | 1998-10-22 | 分類ルール探求式クラスター分析装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4194697B2 (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002352244A (ja) * | 2001-05-30 | 2002-12-06 | Hitachi Systems & Services Ltd | データ分類装置およびデータ分類方法 |
JP2007058603A (ja) * | 2005-08-24 | 2007-03-08 | Nippon Telegr & Teleph Corp <Ntt> | パターン認識方法及び装置及びプログラム |
CN100405241C (zh) * | 2000-11-28 | 2008-07-23 | 音质技术公司 | 用于数据压缩的群集 |
JP2009205615A (ja) * | 2008-02-29 | 2009-09-10 | Internatl Business Mach Corp <Ibm> | 変化分析システム、方法及びプログラム |
JP2010211385A (ja) * | 2009-03-09 | 2010-09-24 | Dentsu Inc | 情報提供装置及び情報提供方法並びに情報提供用プログラム |
WO2011092830A1 (ja) | 2010-01-28 | 2011-08-04 | 日立建機株式会社 | 作業機械の監視診断装置 |
JP2012503235A (ja) * | 2008-09-15 | 2012-02-02 | グーグル・インコーポレーテッド | エンティティとカテゴリの関連付け |
JP2016018435A (ja) * | 2014-07-09 | 2016-02-01 | 株式会社Ihi | パラメータ分類装置 |
JP2020087465A (ja) * | 2018-11-16 | 2020-06-04 | ソニー株式会社 | 情報処理装置、情報処理方法及びプログラム |
-
1998
- 1998-10-22 JP JP30109698A patent/JP4194697B2/ja not_active Expired - Fee Related
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100405241C (zh) * | 2000-11-28 | 2008-07-23 | 音质技术公司 | 用于数据压缩的群集 |
JP4682339B2 (ja) * | 2001-05-30 | 2011-05-11 | 株式会社日立ソリューションズ | データ分類装置およびデータ分類方法 |
JP2002352244A (ja) * | 2001-05-30 | 2002-12-06 | Hitachi Systems & Services Ltd | データ分類装置およびデータ分類方法 |
JP2007058603A (ja) * | 2005-08-24 | 2007-03-08 | Nippon Telegr & Teleph Corp <Ntt> | パターン認識方法及び装置及びプログラム |
JP4715389B2 (ja) * | 2005-08-24 | 2011-07-06 | 日本電信電話株式会社 | パターン認識方法及び装置及びプログラム |
JP2009205615A (ja) * | 2008-02-29 | 2009-09-10 | Internatl Business Mach Corp <Ibm> | 変化分析システム、方法及びプログラム |
US8417648B2 (en) | 2008-02-29 | 2013-04-09 | International Business Machines Corporation | Change analysis |
JP2012503235A (ja) * | 2008-09-15 | 2012-02-02 | グーグル・インコーポレーテッド | エンティティとカテゴリの関連付け |
JP2010211385A (ja) * | 2009-03-09 | 2010-09-24 | Dentsu Inc | 情報提供装置及び情報提供方法並びに情報提供用プログラム |
WO2011092830A1 (ja) | 2010-01-28 | 2011-08-04 | 日立建機株式会社 | 作業機械の監視診断装置 |
US8838324B2 (en) | 2010-01-28 | 2014-09-16 | Hitachi Construction Machinery Co., Ltd. | Monitoring and diagnosing device for working machine |
JP2016018435A (ja) * | 2014-07-09 | 2016-02-01 | 株式会社Ihi | パラメータ分類装置 |
JP2020087465A (ja) * | 2018-11-16 | 2020-06-04 | ソニー株式会社 | 情報処理装置、情報処理方法及びプログラム |
JP7392411B2 (ja) | 2018-11-16 | 2023-12-06 | ソニーグループ株式会社 | 情報処理装置、情報処理方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4194697B2 (ja) | 2008-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6654744B2 (en) | Method and apparatus for categorizing information, and a computer product | |
US6321217B1 (en) | Data analyzing method for generating rules | |
US8312049B2 (en) | News group clustering based on cross-post graph | |
US20020124002A1 (en) | Analysis of massive data accumulations using patient rule induction method and on-line analytical processing | |
JP2001522095A (ja) | オンライン・データベース・マイニング | |
KR20040101477A (ko) | 계층적 시각화를 통한 다차원 데이터의 뷰잉 | |
Elovici et al. | A decision-theoretic approach to data mining | |
JP5391637B2 (ja) | データ類似度計算システム、データ類似度計算方法およびデータ類似度計算プログラム | |
CN114186121A (zh) | 一种基于服务记录的混合型推荐算法系统 | |
CN110443290A (zh) | 一种基于大数据的产品竞争关系量化生成方法及装置 | |
Hao et al. | Intelligent visual analytics queries | |
JP2001117947A (ja) | 高次元データを分類するための方法及びそれにより形成される分類木並びにコンピュータシステム | |
JP4194697B2 (ja) | 分類ルール探求式クラスター分析装置 | |
US20060293945A1 (en) | Method and device for building and using table of reduced profiles of paragons and corresponding computer program | |
Mehlstäubl et al. | Data mining in product portfolio and variety management–literature review on use cases and research potentials | |
Kiang et al. | A comparative analysis of an extended SOM network and K-means analysis | |
Kowalczyk et al. | Rough-set inspired approach to knowledge discovery in business databases | |
Chakrabarti et al. | Towards a Rule-based Visualization Recommendation System. | |
Desmet | Buying behavior study with basket analysis: pre-clustering with a Kohonen map | |
Patil et al. | Efficient processing of decision tree using ID3 & improved C4. 5 algorithm | |
KR20070058936A (ko) | 시간 가중치 엔트로피를 이용한 결정 트리 생성 방법 및이를 기록한 기록매체 | |
Das | Adaptation of fuzzy reasoning and rule generation for customers’ choice in retail FMCG business | |
Phyu et al. | To development manufacturing and education using data mining: a review | |
JP4126166B2 (ja) | モデル変換型データ分析装置、記録媒体及びプログラム | |
Abusair et al. | A Business Recommender System Based on Zones and Commercial Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050323 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080523 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080722 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080829 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080924 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111003 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111003 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121003 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121003 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131003 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |