JP2000132558A - 分類ルール探求式クラスター分析装置 - Google Patents

分類ルール探求式クラスター分析装置

Info

Publication number
JP2000132558A
JP2000132558A JP10301096A JP30109698A JP2000132558A JP 2000132558 A JP2000132558 A JP 2000132558A JP 10301096 A JP10301096 A JP 10301096A JP 30109698 A JP30109698 A JP 30109698A JP 2000132558 A JP2000132558 A JP 2000132558A
Authority
JP
Japan
Prior art keywords
cluster
variable
evaluation
classification
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10301096A
Other languages
English (en)
Other versions
JP4194697B2 (ja
Inventor
Takeshi Terasaki
崎 健 寺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP30109698A priority Critical patent/JP4194697B2/ja
Publication of JP2000132558A publication Critical patent/JP2000132558A/ja
Application granted granted Critical
Publication of JP4194697B2 publication Critical patent/JP4194697B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 クラスター分類と説明変量による分類ルール
探求とを同時に行うクラスター分析装置を提供する。 【解決手段】 多変量サンプルデータを記憶するサンプ
ルデータ記憶手段3と、評価条件を設定した評価条件設
定手段12と、サンプルデータの変量の一覧を出力する
変量一覧出力手段5と、サンプルの変量についてユーザ
ーに説明変量と被説明変量とを選択させる変量選択手段
6と、説明変量の属性の組合せにより、評価用のクラス
ターを仮分類し、評価用サンプルデータファイルを生成
する評価用サンプルファイル生成手段7と、評価用サン
プルデータファイルの被説明変量の観測データについて
クラスター分離度を評価する評価手段8と、最適なクラ
スター分類を決定し、クラスター分類の継続と停止を判
断するクラスター分類手段9と、を備えた。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、一サンプルが複数
の変量を有する多数のサンプルデータを処理対象とし、
変量の観測値が互いに“類似”する関係にあるサンプル
を同一クラスターのサンプルとして分類し、分類された
クラスターの構成と、各クラスターに属するサンプル
と、各クラスターの特性とを出力するクラスター分析装
置に関する。
【0002】同一クラスター内のサンプルが互いに“類
似”であり、かつ、相違するクラスターのサンプルの観
測データが互いに“非類似”である度合いを評価するた
めの変量を「被説明変量」とし、被説明変量の分布特性
の成立を説明することができる変量を「説明変量」とす
ると、本発明は特に、「説明変量の属性が同一」であっ
て「被説明変量の観測データが互いに類似する」クラス
ターを発見、分類するクラスター分析装置に関する。
【0003】言い換えれば、本発明のクラスター分析装
置は、大量の多変量データから、所定の観測データが互
いに類似している同一属性の集合(クラスター)を分類
し、クラスター間の類似の度合いを明示する分類体系を
出力する装置に関する。
【0004】
【従来の技術】クラスター分析は、一般的には、多変量
解析の分野において多数の観測対象(サンプル)に対し
て、特定の計算基準(評価基準)により、“類似するも
の”を集めて分類する手法を意味する。
【0005】すなわち、一般的には、クラスター分析
は、観測された多数のサンプルに対して、類似するもの
同士を同一グループに単に“分類”するものをいう。
【0006】一般的な用語の「クラスター分析」で“分
析”の語が使用されているのは、特定のサンプルがどの
クラスターに属するかを“評価判定”する処理を含むた
めである。
【0007】従来のクラスター分析は、「クラスター分
離度」を算出することによって評価判定していた。ここ
で、「クラスター分離度」は、同一のクラスターに属す
るサンプルは互いに類似しており、異なるクラスターの
サンプルからは相違している度合いをいう。従来は、こ
のクラスター分離度を算出し、クラスター分離度が最も
高くなるように、クラスターを分類していた。
【0008】なお、上記「クラスター」は集合のことで
あり、木構造に分類された場合において上位下位のいず
れのレベルの集合をもいう。最下位のクラスターは一つ
のサンプルのみを含むものであり、最上位のクラスター
は全部のサンプルを含むものである。下位のクラスター
ほどサンプルの属性(変量)が少数のものに特定され、
上位のクラスターほどサンプルの属性がばらつく。
【0009】このように、あるサンプルデータの母集合
に対して、クラスター分離度がもっとも高くなるように
クラスターに分類した後は、分類されたクラスターの要
因分析をしなければならない。要因分析することによ
り、分類されたデータを活用することができるようにな
るからである。
【0010】要因分析は、分類クラスターの特性を求め
ることであり、あるサンプルがあるクラスターに属する
と判断された原因を求めることである。言葉を変える
と、要因分析は、同一クラスター内でサンプルが如何な
る点で類似するか、を求めることである。
【0011】従来は、クラスター分析と要因分析は、別
々の段階と方法で処理されていた。つまり、クラスター
分析をクラスター分析のためのアルゴリズムによって先
に行い、その後で別のアルゴリズムによって分類された
クラスターの要因を分析していた。
【0012】従来のクラスター分析は、代表的には、ク
ラスター間の類似度の尺度としてクラスター間の“距
離”を計算し、算出された“距離”がもっとも短いクラ
スターを類似として上位のクラスターとして統合してい
く方法が行われていた。この従来のクラスター分析のた
めに、コンピュータの利用が種々提案されていた。
【0013】一方、従来の要因分析は、分類されたクラ
スターに対して、人間の直感、あるいは人間の直感に基
づき統計解析手法により、事後的に各クラスターに属す
るサンプルの共通性を、分析していた。
【0014】このように、従来はサンプル間の類似の度
合いによってクラスター分析することと、要因分析する
こととは、別々の処理または装置によるものであって、
本発明のような要因分析とクラスター分類を同時に行
い、双方の評価基準を同時に満たす「分類ルール探求式
クラスター分析装置」は、存在していなかった。
【0015】なお、この「従来の技術」の欄では、本発
明によるクラスター分析装置と従来のクラスター分析の
相違を明らかにするために、従来のクラスター分析と要
因分析の方法とについて概略説明する。
【0016】従来のクラスター分析では、“類似”する
サンプル(クラスター)同士を上位の階層のクラスター
として統合する。この“類似”の尺度として“距離”の
概念が使用されている。
【0017】今、n個のサンプルについてp種の変量で
観測したデータ{xij}(i=1,2,…,n;j=
1,2,…,p)があるとすると{xij}は図5のよ
うになる。
【0018】上記与えられた観測データに基づいてクラ
スター分析をするには、最初に図6に示すような、サン
プル間の類似度を表す“距離行列”を作成する。距離と
しては後述するユークリッド距離、マハラノビスの距
離、相関係数等を計算する。
【0019】上記“距離行列”が作成されると、後述す
る分類手法により、“最短距離”の関係にあるクラスタ
ーを類似するとして上位の階層のクラスターとして統合
する。一つの階層のクラスターが作成されると、再びク
ラスター間の距離を計算し、距離行列を作成し、最短距
離にあるクラスターを求めてさらに一つ上の階層のクラ
スターを作成する。このようにして、最終的には図7に
示すような樹形図(デンドログラム)を作成する。
【0020】樹形図において所定の階層で統合されたク
ラスター内のサンプルは、何らかの類似関係によりその
階層で最短距離の関係にあったために統合されたという
ことができる。その類似関係にあるサンプルは、共通し
てある性質を有しているということができ、その性質を
明らかにすることによりそのクラスターの集団の特性を
明らかにすることができる。
【0021】従来は、分類されたクラスターの集団特性
について、上述したように、事後的に解釈・分析してい
た。すなわち、距離が短い関係にあるサンプルは、如何
なる属性の組合せにおいて類似しているかを、主に人間
の直感あるいはパターン認識能力を駆使し、事後的に考
察していたのである。
【0022】上述した“距離”の代表的なものを簡単に
説明する。代表的な距離の種類としては、(a)ユーク
リッド平方距離、(b)標準ユークリッド平方距離、
(c)マハラノビスの汎距離、(d)相関係数に基づく
距離がある。以下にそれぞれの距離について項分けして
簡単に説明しておく。 (a)ユークリッド平方距離 サンプルiとしてサンプルjのユークリッド平方距離を
dijとすると、dijは下式のようになる。
【数1】
【0023】ここで、xik,xjkはそれぞれサンプ
ルiとjのk番目の変量の観測データである。
【0024】(b)標準ユークリッド平方距離 サンプルiとサンプルjの標準ユークリッド平方距離を
ijとすると、dijは下式のようになる。
【数2】
【0025】(c)マハラノビスの汎距離 サンプルiとサンプルjのマハラノビスの汎距離dij
は次式により定義する。
【数3】
【0026】ここで、νkmはx,x,…,x
分散共分散行列の逆行列の(k,m)要素である。
【0027】(d)相関係数に基づく距離 サンプルiとサンプルjの相関係数γijは次式により
定義する。
【数4】 サンプルiとサンプルjの相関係数に基づく距離dij
は上記相関係数γijを用いて下式のように定義する。
【0028】dij=1−γij
【0029】次に、複数サンプルを含むクラスター間の
距離の概念について簡単に説明する。上述した距離の概
念を使用してクラスター(単数のサンプルからなるクラ
スターを含む)を統合してゆく分類手法は種々開発され
ている。現在よく使用されている分類手法には最近隣
法、最遠隣法、重心法、ウォード法等がある。以
下にこれらの分類手法について項分けして簡単に説明す
る。
【0030】 最近隣法 最近隣法によれば、2つのクラスター間の距離を決める
のに際し、それぞれのクラスターに含まれるサンプル間
の距離のうち最短距離をそれらのクラスター間の距離と
する。
【0031】すなわち、最近隣法は、もっとも近接する
サンプル間の距離が短いクラスターほど互いに類似する
クラスターとしてクラスター統合する方法である。サン
プル間の距離の計算については上述した通りである。
【0032】 最遠隣法 最遠隣法によれば、2つのクラスター間の距離を決める
のに際し、それぞれのクラスターに含まれるサンプル間
の距離のうち最長距離をそれらのクラスター間の距離と
する。
【0033】すなわち、最遠隣法は、もっとも遠く離れ
ているサンプル間の距離が短いクラスターほど互いに類
似するクラスターとしてクラスター統合するものであ
る。サンプル間の距離の計算については上述した通りで
ある。
【0034】 重心法 重心法によれば、クラスターの位置は含まれるサンプル
の平均座標、すなわち重心で定義され、p次元の座標で
表わされる。2つのクラスター間の距離は、各クラスタ
ーの重心間の距離と定義する。
【0035】すなわち、重心法は、含まれるサンプルの
重心が近い関係にあるクラスターほど類似するクラスタ
ーとしてクラスター統合する方法である。
【0036】 ウォード法 ウォード法によれば、クラスター間の距離は2つのクラ
スターを統合したときの偏差平方和の増分で定義され
る。
【0037】すなわち、ウォード法は、クラスター統合
した場合にサンプルの偏差すなわち、平均に対するばら
つきがその段階で最小となるクラスターを互いに類似す
るクラスターとして統合する方法である。
【0038】以上、最近隣法〜ウォード法のいずれ
の分類手法によっても、距離が最も短い関係にあるクラ
スター同士を類似クラスターとして統合するものであ
る。
【0039】要約すれば、従来のクラスター分析は、多
変量サンプル間の相違を各変量の観測データの総合的な
量として計算できる距離という概念を導入し、距離の適
用を複数サンプルを含むクラスターに広げることによ
り、距離が最も短いクラスター同士を類似クラスターと
して一つ上の階層のクラスターとして統合してゆくもの
であった。
【0040】従来のクラスター分析は、類似するクラス
ターを上位のクラスターとして統合することであり、分
類されたクラスターの集団特性の分析はクラスター分析
とは別個の段階で人間によって処理していた。
【0041】
【発明が解決しようとする課題】しかしながら、上記従
来のクラスター分析によると、以下の問題があった。 クラスターに分類されたサンプル群の共通の性質を
把握するのが困難であった。
【0042】従来の方法では、距離の計算をする際に、
ユークリッド平方距離等の計算式からわかるように、サ
ンプル間の各変量の観測データ{xij}の差の和を基
礎としてこれに種々の加工を施して種々の距離を求めて
いる。
【0043】しかし、類似するとして同一クラスターに
分類されたサンプルは、距離が近いとされた変量と全く
関係のない変量によって特徴づけられる集合であること
が現実には非常に多い。
【0044】たとえば、非常に単純な例であるが、ある
商品を購買したか否かという事象を変量として顧客をク
ラスターに分類する場合を考えると、商品を購買した顧
客は購買したという事象によって一つのクラスターとし
て分類される。しかし、この分類されたクラスターに含
まれる顧客は、購買したという事象と関係のない属性、
たとえば特定の年齢、性別、職業等を有する人々である
ということによって特徴づけられることが非常に頻繁に
起こる。
【0045】このような場合には、従来のクラスター分
析では、要因分析をする際に、前記年齢、性別、職業等
の属性を発見するのは専ら人間の直感とパターン認識能
力に頼らざるを得なかった。実際には、分析者が同一ク
ラスター内の顧客の顧客像を想像しながら、顧客データ
から必要な属性データを抽出し、これに種々の統計的処
理を施して、顧客の属性、すなわち当該クラスターの集
団特性を明らかにしていた。
【0046】なお、上記例において、商品を購買したか
否かの事象も変量であり、また、上記顧客の年齢、性
別、職業等の属性も変量である。本明細書では、前者の
ような分類の目的となる変量を被説明変量、後者のよう
な各クラスターの分類要因を説明する変量を説明変量と
いうことにする。説明変量と被説明変量は通常ともに、
複数の変量、すなわち、それぞれ多変量である。
【0047】本発明が解決しようとする課題は、被説明
変量に対して説明変量が存在する多変量サンプルに対し
て、被説明変量の観測データが互いに類似するとして分
類されたクラスターについて、説明変量の属性が明確な
形でそのクラスターの集団特性を表しているクラスター
分析装置を提供することにある。
【0048】なお、本明細書にいう「要因分析」は、い
わゆる多変量解析にいう「主成分分析」とは全く異なる
ものである。
【0049】多変量解析にいう「主成分分析」は、分類
の目的となる変量(被説明変量)を線形結合して新たな
変量(被説明変量)を生成し、この新たな変量によって
サンプルを分類し、クラスターの分離度をより高くする
ことを目的とする手法である。
【0050】主成分分析を取り入れたクラスター分析で
は、クラスター間の分離度が高くなるが、類似度あるい
は分離度を評価する変量自体が合成された変量であるた
め、変量のもつ意味が不明になり、クラスターの集団特
性がさらに不明瞭になり、要因分析はより困難になる傾
向にある。
【0051】「主成分分析」によるクラスター分析で
は、本発明が目的とするような、被説明変量に対する説
明変量を明確な形で明らかにしながらクラスター分類を
行うクラスター分析装置を提供することはできなかっ
た。
【0052】 従来のクラスター分析では、あるサン
プルがどのクラスターに属するのかを判断するには、各
クラスターとの距離を計算しなければならず、サンプル
の持つ属性や特徴から即座に判断することができず、実
用上問題が多かった。
【0053】従来のクラスター分析では、ユークリッド
平方距離等の距離の計算により、最短距離にあるクラス
ターを類似するクラスターとして一つ上の階層のクラス
ターとして統合して行くものであった。
【0054】上記距離の計算とクラスター統合は、数値
計算によって機械的に進められる。したがって、人間の
パターン認識能力からすると、異なるクラスターに分類
すべきであると判断した場合があっても、人間の考察や
推論と異なる形でクラスターの樹形図が完成することが
ある。
【0055】このような、人間の考察と異なる形の樹形
図のクラスターに対して事後的に要因分析を行えば、歪
められた要因分析にならざるを得ない。
【0056】そこで、本発明の解決しようとする他の課
題は、人間の考察あるいは論理的な推論による最適なク
ラスター分類を柔軟に取り入れられるクラスター分類を
行うことが可能なクラスター分析装置を提供することに
ある。
【0057】
【課題を解決するための手段】本願請求項1に係る分類
ルール探求式クラスター分析装置は、多変量を有するサ
ンプルの観測データを記憶するサンプルデータ記憶手段
と、クラスター分類の繰返し処理の継続と停止の条件、
あるいは評価式を含む評価条件を設定した評価条件設定
手段と、前記サンプルデータ記憶手段に記憶されたサン
プルデータの変量の一覧を出力する変量一覧出力手段
と、前記変量一覧出力手段が出力したサンプルの変量に
ついてユーザーに説明変量と被説明変量とを選択させる
変量選択手段と、ユーザーが前記変量選択手段によって
所定の説明変量と被説明変量とを選択すると、前記説明
変量の属性の組合せにより、評価用のクラスターを仮分
類し、それぞれの評価用クラスターの評価用サンプルデ
ータファイルを生成する評価用サンプルファイル生成手
段と、前記評価用サンプルデータファイル生成手段が生
成した評価用サンプルデータファイルを入力し、前記被
説明変量の観測データについて各評価用クラスターのク
ラスター分離度を評価する評価手段と、前記評価手段の
評価結果と、前記評価条件設定手段の評価条件とに基づ
き、最適なクラスター分類を決定し、クラスター分類の
継続と停止を判断しあるいはユーザーに判断させるクラ
スター分類手段と、を有することを特徴とするものであ
る。
【0058】本願請求項2に係るクラスター分析装置
は、請求項1のクラスター分析装置において、前記サン
プルデータ記憶手段から、連続的な値をとる変量の観測
データを入力し、それらの観測データを最適に区分して
各区分が前記変量の属性となるようなヒストグラム分析
を行い、ヒストグラム分析によるそれらの変量の属性を
前記変量一覧出力手段に出力するヒストグラム分析手段
を有していることを特徴とするものである。
【0059】本願請求項3に係るクラスター分析装置
は、請求項1,2のクラスター分析装置において、前記
クラスター分類手段によって決定されたクラスター分類
を入力し、当該クラスター分類に基づく樹形図と、各ク
ラスター分類に係る説明変量の属性とを表示する樹形図
生成手段を有していることを特徴とするものである。
【0060】本願請求項4に係るクラスター分析装置
は、請求項3のクラスター分析装置において、前記樹形
図生成手段によって生成されたクラスターの樹形図に対
して表示装置の画面上でクラスター分類の追加、変更、
削除の編集処理を行う樹形図編集手段を有していること
を特徴とするものである。
【0061】本願請求項5に係るクラスター分析装置
は、請求項1〜4のいずれかのクラスター分析装置にお
いて、前記変量選択手段は、前記変量一覧出力手段によ
って表示された説明変量のうち任意の説明変量をユーザ
ーに選択させるように構成されていることを特徴とする
ものである。
【0062】本願請求項6に係るクラスター分析装置
は、請求項1〜5のいずれかのクラスター分析装置にお
いて、外部のデータベースにアクセスし、クラスター分
類を行おうとするサンプルに関連するデータを検索して
入力する外部データベース検索入力手段を有しているこ
とを特徴とするものである。
【0063】
【発明の実施の形態】以下に本発明の一実施形態による
「分類ルール探求式クラスター分析装置」について願書
に添付の図面を用いて説明する。 1. 本発明のクラスター分析装置へのコンピュータの適
用とその処理の目的 はじめに、本発明の「分類ルール探求式クラスター分析
装置」へのコンピュータの適用と、その処理の目的につ
いて説明する。
【0064】図1に、本発明によるクラスター分析装置
を実現するためのコンピュータの適用方法と、その入力
と出力とを示す。
【0065】本発明によるクラスター分析装置は、好ま
しくは本明細書全体によって明らかにされるクラスター
分析のための諸処理をするようにプログラムによって制
御されたコンピュータによって実現される。
【0066】図1に示すように、本発明のクラスター分
析装置として作動するコンピュータは、データ入力装置
と、記憶装置と、CPU(中央処理ユニット)と、処理
命令入力装置と、出力装置とを有している。
【0067】データ入力装置は、大量のデータを入力可
能な装置である限り該当し、キーボードやポインティン
グディバイスのほか、光学的なデータ読取装置や、外部
の記憶装置にアクセスして所定のファイルを入力する通
信手段等、種々のものが考えられる。
【0068】処理命令入力装置は、主にユーザーがコン
ピュータを操作して処理をする命令を入力するためのも
のであり、キーボードやポインティングデバイス等があ
る。
【0069】CPUは、データの処理や計算を行うデー
タ処理のための主要部分である。CPUは、プログラム
の制御によって種々のデータ処理を行い得るものであ
り、後述する本発明のヒストグラム分析手段、評価手段
等は、それぞれの処理をするようにプログラムによって
制御されたCPUである。なお、本明細書ではCPUは
処理のためのメモリを含むものとする。
【0070】出力装置は、CPUの処理の結果を出力す
るためのものであり、プリンタ、表示装置のほか、デー
タをデータファイルとして出力する通信手段である場合
もある。
【0071】このクラスター分析装置として作動するコ
ンピュータは、サンプルデータの母集合をその処理の対
象とする。ここで、サンプルデータの母集合は、未処理
の状態のサンプルデータの集合である。未処理の状態の
サンプルデータとは、一サンプルに多数の変量について
の観測データがあり、それぞれのサンプルが如何なる集
合(クラスター)に属するかが不明な状態のものであ
る。
【0072】本発明のクラスター分析装置は、上記未処
理のサンプルデータの母集合に対して、所定の変量の属
性またはそれらの組合せが同一のサンプルを同一クラス
ターとして分類し、かつ、分類されたサンプルは分類に
使用した変量以外の変量の観測データが互いに“類似”
し、全体的なクラスターの分類体系を明らかにすること
を目的とする。クラスターの分類体系を明らかにしたも
のとしてクラスター分類樹形図がある。
【0073】すなわち、本発明のクラスター分析装置
は、整理されていない状態の多変量データから、所定の
変量の観測データが互いに類似するサンプルを集め、か
つ、集められたサンプル群が如何なる共通の属性を有し
ているかを明らかにすることができるものである。
【0074】上記未処理のサンプルデータの母集合を入
力してクラスター分類体系を明らかにしたものを出力す
るまで、クラスター分析装置のデータ入力装置、記憶装
置、CPU、処理命令入力装置、出力装置は、それぞれ
の機能に応じて、図1に示すように協働して処理を行
う。 2. 本発明の一実施形態によるクラスター分析装置の構
成と処理の流れ 図2に本発明の一実施形態によるクラスター分析装置の
構成と処理の流れを示す。
【0075】2.1 クラスター分析装置の構成 図2に示すように、本実施形態のクラスター分析装置1
は、外部データベース検索入力手段2と、サンプルデー
タ記憶手段3と、ヒストグラム分析手段4と、変量一覧
出力手段5と、変量選択手段6と、評価用サンプルデー
タファイル生成手段7と、評価手段8と、クラスター分
類手段9と、樹形図生成手段10と、樹形図編集手段1
1と、評価条件設定手段12とを有している。なお、図
2において、クラスター分析装置1の各構成手段にはそ
れぞれの処理を行うコンピュータの諸装置名を付記し
た。
【0076】外部データベース検索入力手段2は、クラ
スター分析装置1の外部に存在するデータベースにアク
セスしてクラスター分析をしようとするサンプルの関係
データを検索し、それらを収集して入力する手段であ
る。外部データベース検索入力手段2は、データ入力装
置とそれを制御するCPUとからなり、好ましくは、検
索エンジンと通信手段とを備えたものとする。
【0077】なお、外部データベース検索入力手段2
は、クラスター分析装置に必須のものではない。すなわ
ち、外部のデータベースから検索することなく、サンプ
ルデータをクラスター分析装置内に取り込むことができ
る場合には、外部データベース検索入力手段を省略する
ことができる。
【0078】サンプルデータ記憶手段3は、未処理のサ
ンプルデータを記憶する手段である。
【0079】ヒストグラム分析手段4は、連続的な値を
とる変量の観測データに対し、それらの観測データを最
適に区分して各区分がその変量の属性となるようなヒス
トグラムを生成する手段である。
【0080】たとえば、顧客データをサンプルデータと
した場合、「年齢」という顧客データの変量は、その観
測データは連続的な分布を有している。
【0081】この連続的な値をとる「年齢」の分布を適
当に区分することにより、「年齢」という変量の属性が
生成される。たとえば、何歳か以上を「高齢」、何歳か
以下を「若年」という区分にすれば、「年齢」に対して
「高齢」と「若年」は、「年齢」という変量の属性とな
る。
【0082】「高齢」と「若年」という大きな区分をす
る場合と同様に、細かく所定の年齢幅ごとに一つの区分
とした場合、区分された各年齢帯も、年齢という変量に
対して属性となる。たとえば、「0歳〜10歳」、「1
1歳〜20歳」等は、年齢に対する属性である。
【0083】ヒストグラム分析手段4は、最適な区分に
よるヒストグラムを作成することを目的とする。ヒスト
グラム分析においては、区分の幅により、情報量が失わ
れたり、失われなかったりすることが知られている。
“最適な区分”とは、情報量の損失が最小である区分を
いう。
【0084】たとえば、特定の年齢帯の顧客が「購買」
という事象を集中的に行っているとしたら、「高齢」
「若年」というような区分では、どの年齢帯の顧客が集
中的に「購買」しているかという情報量が大きく失われ
る。これに対して、適当な年齢幅による区分であれば、
上記特定の年齢帯について「購買」という事象が観測さ
れるという情報量が失われない。
【0085】一方、極めて詳細な区分をする場合には、
情報量の損失は少ないが、情報の抽出が困難になること
は説明するまでもない。
【0086】このため、ヒストグラム分析手段4は、連
続的な値をとる変量の観測データを入力し、それをさま
ざまな幅で区分を試み、所定の事象の度数がもっとも明
確に分離される区分を最適なヒストグラムとして採用す
る。なお、具体的なヒストグラム分析の方法について
は、様々なヒストグラム分析の方法が提案されており、
本発明では任意の公知のものを採用することができる。
【0087】なお、ヒストグラム分析手段4も、本発明
のクラスター分析装置にとっては必須のものではない。
すなわち、連続的な値をとる変量を扱わないクラスター
分析装置も存在することがあり、この場合には、ヒスト
グラム分析手段は省略することができる。
【0088】変量一覧出力手段5は、サンプルデータの
変量を一覧表の形式でユーザーに示す手段である。
【0089】本発明によるクラスター分析装置は、特定
の変量の観測データ間の類似度が高いサンプルをクラス
ターに分類する一方、前記特定変量に対して説明的な変
量の属性の組合せをクラスター分類の基準とする。
【0090】このため、クラスター分類に使用する変量
(説明変量)、および、クラスター内のサンプル間の類
似を評価するための変量(被説明変量)を、ユーザーに
明らかな形で示す必要がある。
【0091】変量一覧出力手段5は、処理の最初の段階
ではサンプルデータの変量のすべてを表示し、クラスタ
ー分類の繰返し処理の途中ではその段階での選択可能な
説明変量を表示することができる。
【0092】変量選択手段6は、前記変量一覧出力手段
5が表示した変量の中から、ユーザーに説明変量と被説
明変量とを選択させる手段である。
【0093】すでに説明したように、被説明変量とは、
サンプルの類似度を評価するための変量である。説明変
量とは、本発明でクラスター分類に使用する変量であっ
て、前記被説明変量が特定の分布に集約される理由を説
明することができる変量である。
【0094】評価用サンプルデータファイル生成手段7
は、ユーザーが変量選択手段6によって所定の説明変量
と被説明変量とを選択した場合に、選択された説明変量
の属性またはそれらの組合せに応じて評価用のクラスタ
ーを複数個仮分類し、それぞれの評価用クラスターのサ
ンプルデータファイルを生成する手段である。
【0095】評価手段8は、評価用サンプルデータファ
イル生成手段7が生成したサンプルデータファイルを入
力し、各評価用クラスターのクラスター分離度を評価す
る手段である。クラスター分離度の評価方法については
後述する。
【0096】クラスター分類手段9は、評価手段8の評
価結果と、評価条件設定手段12の評価条件とに基づ
き、最適なクラスター分類と、クラスター分類の継続と
停止とを判断する手段である。
【0097】評価条件設定手段12は、クラスター分類
の繰返し処理の継続と停止の条件、あるいは評価式等の
評価条件を設定した手段である。
【0098】なお、「評価条件を設定した手段である」
とは、評価条件を予め設定してあって変更できない場合
と、ユーザーの入力により評価条件を適宜設定できる場
合の双方の場合を含む意である。また、必要に応じて、
クラスター分類の繰返し処理の継続と停止の条件は、評
価条件には含まれず、再分類の必要性についての判断は
ユーザーに任せてもよい。
【0099】2.2 本実施形態によるクラスター分析装
置の処理の流れ 次に、本実施形態によるクラスター分析装置1の処理の
流れについて、図2の処理の流れに沿って以下に説明す
る。なお、理解を容易にし、本発明による処理を明らか
にするために、図3のような極めて簡単な多変量データ
を例にして、各段階の処理を説明する。本実施形態のク
ラスター分析装置1によってクラスター分析をしようと
するときは、必要に応じて最初に評価条件設定手段12
により評価条件を設定する。評価条件とは、前述した通
り、クラスター分類の繰返し処理の継続と停止の条件、
あるいは評価式等である。
【0100】次に、図2に示すように、外部データベー
ス検索入力手段2によって、外部のデータベースから必
要なサンプルデータを検索して収集する。
【0101】外部データベース検索入力手段2は、好ま
しくは所定のキーワードにより、既存の種々の外部デー
タベースにアクセスして、クラスター分析をしようとす
るサンプルデータを収集する機能を有するようにする。
【0102】たとえば、図3のような商品のルート別販
売シェアについてクラスター分析をしようとする場合、
商品の種々の属性情報は、複数の外部データベースに別
々に格納されていることが多い。この場合、外部データ
ベース検索入力手段2は、商品のID(識別情報)等に
より、複数の外部のデータベースを検索し、それらの外
部データベースから商品の情報を収集して入力する。
【0103】上記外部データベース検索入力手段2によ
って入力されたサンプルデータはサンプルデータ記憶手
段3に記憶され、本装置によるクラスター分析に供され
る。各サンプルデータは、図3における各行の横方向に
配列されたデータである。
【0104】次に、ヒストグラム分析手段4は、上記サ
ンプルデータ記憶手段3からサンプルデータを入力し、
ヒストグラム分析をする。
【0105】ヒストグラム分析は、上述したように連続
的な値をとる変量がある場合に、最適な区分幅により適
当な度数を有する属性を生成する処理である。この属性
はそれぞれある集団特性を表している。
【0106】連続的な値をとる変量がない場合には、ヒ
ストグラム分析手段4による処理は行われない。図3の
例では、説明変量はすべて非連続的な値をとるので、ヒ
ストグラム分析手段4による処理は行われない。
【0107】変量一覧出力手段5は、クラスター分析が
行われるサンプルデータの変量を一覧表示する。
【0108】図3の例では、アイテム、色、デザイン、
ルート別販売シェアA,B,C,…は、それぞれサンプ
ル(商品)の変量として一覧表示される。
【0109】アイテムの下位のTシャツ、セーターは、
アイテムという変量の属性となる。色等についての白、
赤等も、同様に変量の属性である。
【0110】次に、ユーザーは、変量一覧出力手段5に
よって一覧表示された変量から、変量選択手段6の機能
により説明変量と被説明変量とを選択する。なお、被説
明変量は一回選択されると、被説明変量として固定さ
れ、クラスター分類の処理の途中ではユーザーは説明変
量のみを選択することになる。
【0111】なお、図3の例では、ルート別販売シェア
について類似する商品をクラスター分析するので、ルー
ト別販売シェアA,B,C,…が被説明変量として選択
され、ルート別販売シェアA,B,C,…の分布特性を
説明する変量として商品のアイテム、色、デザイン等が
説明変量の候補となる。
【0112】変量一覧出力手段5による説明変量の選択
は、単数あるいは複数の特定の変量を自由に選択できる
ようにする。通常は説明変量の候補は多数にのぼるの
で、ユーザーがそれら説明変量から任意のものを選択す
ることができるようにする。
【0113】なお、以下の説明では、ユーザーはすべて
の変量“アイテム”、“色”、“デザイン”を説明変量
として選択したものとする。
【0114】ユーザーにより特定の説明変量と被説明変
量とが選択されると、この情報はサンプルデータととも
に評価用サンプルデータファイル生成手段7に入力さ
れ、評価用サンプルデータファイル生成手段7により評
価用サンプルのデータファイルが生成される。
【0115】たとえば、ユーザーが“色”という変量を
説明変量として選択した場合、評価用サンプルデータフ
ァイル生成手段7は、“色”の属性により、サンプルデ
ータ全体から、“色=白”のクラスター{0001,0002,00
05}と、“色=赤”のクラスター{0003,0004}とを仮
分類し、それらのルート別販売シェアのデータファイル
を生成する。
【0116】上記“色=白”のクラスター{0001,0002,
0005}と、“色=赤”のクラスター{0003,0004}が、
本明細書にいう評価用クラスターである。
【0117】“色=白”のクラスター{0001,0002,000
5}や“色=赤”のクラスター{0003,0004}の各サンプ
ルのルート別販売シェアデータが、本明細書にいう評価
用クラスターのサンプルデータファイルを構成する。
【0118】なお、“アイテム”についても、“アイテ
ム=Tシャツ”と“アイテム=セーター”の評価用サン
プルデータファイルが生成され、また、“デザイン”に
ついても、“デザイン=定番”と“デザイン=奇抜”の
評価用サンプルデータファイルが生成される。
【0119】次に、上記評価用クラスターのデータファ
イルは、評価手段8に送られ、評価手段8によってクラ
スター分離度を評価される。
【0120】クラスター分離度は、すでに説明したよう
に、同一のクラスターに属するサンプルは互いに類似
し、異なるクラスターに属するサンプルは互いに非類似
する度合いをいう。
【0121】クラスター分離度を評価する評価式は、い
ろいろな形で定義することができる。ここでは、評価式
としてKL情報量によってクラスター分離度を評価する
場合について説明する。
【0122】KL情報量は、以下のように定義される値
である。真の離散分布p={p,p,…,p
と、離散分布モデルq={q,q,…,q}とが
あるときに、事象iが生じたときに、log p/q
いう値をとる確率変数log p/qの期待値
【数5】 をモデルqに関する真の分布のKL情報量という。
【0123】KL情報量は、真の離散分布(観測デー
タ)とモデルによって推定された離散分布(推定分布)
との「近さ」を表したものである。
【0124】本実施形態では、推定分布に対する当該ク
ラスター内のサンプルデータのKL情報量の平均を“ク
ラスターの凝集度”といい、推定分布に対する当該クラ
スター以外のサンプルデータのKL情報量の平均を“ク
ラスター特異度”という。
【0125】言い換えれば、クラスター凝集度はクラス
ター内のサンプルが類似していることの度合いを表し、
クラスター特異度は注目しているクラスター内のサンプ
ルが他のクラスターのサンプルと非類似であることの度
合いを示している。
【0126】本実施形態では、クラスター分類の適否の
評価を(クラスター特異度/クラスター凝集度)の値で
評価するものである。
【0127】なお、上記「推定分布」は、“同一クラス
ターに分類されたサンプルから最も近いであろうと推定
される分布”をいう。この“同一クラスターに分類され
たサンプルから最も近いであろうと推定される分布”
は、各サンプルの平均値、最尤度による推定等種々のも
のが考えられるが、本実施形態では各サンプルの平均値
をそれらのサンプルが属するクラスターの推定分布とす
る。
【0128】上記クラスター凝集度とクラスター特異度
を使った説明変量“色”についてのクラスター分離度の
評価は、以下のようにして評価手段8によって計算され
る。
【0129】“色=白”のクラスター{0001,0002,000
5}のルート別販売シェアの推定分布モデルは、上述し
たように本実施形態では各サンプルの平均値としている
ので、ルート別に各サンプル0001,0002,0005のシェア値
の平均を求める。これにより、ルートA,B,Cの販売
シェアの推定分布q=(0.4, 0.36, 0.23)となる。
【0130】一方、サンプル0001,0002,0005のルート
A,B,Cにおける実際のシェア分布が各サンプルの真
の分布となる。
【0131】したがって、“色=白”のクラスターのク
ラスター凝集度、クラスター特異度、クラスター分離度
は、以下のように計算される。 クラスター凝集度={(0.4log0.4/0.3+0.4log0.4/0.36+0.2log0.2/0.23) +(0.4log0.4/0.4+0.3log0.3/0.36+0.3log0.3/0.23) +(0.4log0.4/0.4+0.4log0.4/0.36+0.2log0.2/0.23)}/3 =0.0077 クラスター特異度={0.55log0.55/0.4+0.25log0.25/0.36+0.2log0.2/0.23}/1 =0.0486 クラスター分離度=クラスター特異度/クラスター凝集度 =0.0486/0.0077 =6.2965 “色=赤”のクラスター{0003,0004}のクラスター凝
集度、クラスター特異度、クラスター分離度も同様に計
算され、以下のようになる。 クラスター凝集度=0.0766 クラスター特異度=0.0491 クラスター分離度=クラスター特異度/クラスター凝集度 =0.6397 “色”という変量全体に対するクラスター分離度の評価
は、上記“色=白”と“色=赤”のクラスター分離度の
重み付き平均値をとり、6.2965*(3/5)+0.6397*(2/5)=
3.4681となる。
【0132】本実施形態の説明では、説明変量として
“色”のほかに、“アイテム”と“デザイン”をも選択
しているので、説明変量“アイテム”と“デザイン”に
ついても同様にしてクラスター分離度の評価を行う。 “アイテム”による分類のクラスター分離度=0.9512 “デザイン”による分類のクラスター分離度=2.3028 上記評価手段8によるクラスター分離度の評価の結果
は、クラスター分類手段9に渡される。
【0133】クラスター分類手段9は、評価手段8によ
る評価結果を入力し、評価条件設定手段12に設定され
ている評価条件を参照し、最適なクラスター分類を決定
し、クラスター分類の継続停止条件が設定されている場
合には、クラスター分類の継続と停止を判断する。クラ
スター分類の継続停止条件が設定されていない場合に
は、クラスター分類手段9はユーザーにクラスター分類
の継続と停止を判断させる。
【0134】図3の例では、“色”、“アイテム”、
“デザイン”の各属性によるクラスター分離度は、以下
のようになった。
【0135】 “色” による分類のクラスター分離度=3.4681 “アイテム”による分類のクラスター分離度=0.9512 “デザイン”による分類のクラスター分離度=2.3028 したがって、この場合はクラスター分類手段9は、
“色”によるクラスター分類を採用する。
【0136】なお、クラスター分類の継続または停止の
条件は、クラスター分類の繰返し処理を継続する利益が
あるか否かを基準に判断するものであれば種々のものが
考えられる。たとえば、クラスター分類によるクラスタ
ー分離度の改善が鈍化した場合に、クラスター分離度の
値の傾斜が所定値より小さくなるので、それ以上のクラ
スター分類を停止するようしてもよい。また、一クラス
ターに属するサンプル数が所定数以下になった場合に
は、クラスターの集団特性を論じる一般性が失われるの
で、それ以上のクラスター分類を停止するようにしても
よい。あるいは、処理の効率を考慮し、所定の階層数の
クラスター分類を行ったら、それ以上のクラスター分類
を停止するようにしてもよい。
【0137】クラスター分類手段9は、クラスター分類
の継続を決定した場合は、その回の処理で得られた最適
なクラスター分類と、クラスター分類を継続する旨の信
号を出力する。このクラスター分類を継続する旨の信号
は、後に樹形図編集手段11の処理後に変量一覧出力手
段5の処理に戻す命令となる。
【0138】一方、クラスター分類手段9がクラスター
分類の停止を決定した場合は、その段階で最適なクラス
ター分類を特定し、クラスター分類を中止する旨の信号
を出力する。このクラスター分類を中止する旨の信号
は、後に樹形図編集手段11の処理後にクラスター分析
の処理を終了する命令となる。
【0139】図3の例では、“色”によるクラスター分
類ではクラスター分類の繰返し処理を継続するものとす
る。
【0140】クラスター分類手段9の処理が終了する
と、次に、樹形図生成手段10の処理が開始される。
【0141】樹形図生成手段10は、クラスター分類手
段9によって決定されたクラスター分類を入力し、当該
クラスター分類に基づく樹形図と、各クラスター分類に
係る説明変量の属性とを表示する。
【0142】図3の例におけるクラスター分析によって
得られるクラスター分類樹形図を図4に示す。なお、図
4の樹形図は、すべてのクラスター分類を完了した姿を
示しているが、説明変量“色”でクラスター分類しただ
けであれば、クラスター分類樹形図は、最初の階層、す
なわち“色=白”と“色=赤”のクラスターのみ生成さ
れる。
【0143】樹形図生成手段10は、図4に示すよう
に、好ましくは各クラスター分類の分岐において、その
クラスター分類に係る説明変数の属性を表示するように
する。図4の各分岐枝に表示された“色=白”、“色=
赤”、“デザイン=奇抜”、“デザイン=定番”がクラ
スター分類に係る説明変数の属性である。
【0144】樹形図生成手段10によってクラスター分
類樹形図が生成されることにより、ユーザーは現在のク
ラスター分類の状態を視覚的に把握できる。
【0145】次に、樹形図編集手段11は、ユーザーに
樹形図生成手段10によって生成されたクラスター分類
樹形図に対して表示装置画面上でクラスター分類の追
加、変更、削除の編集をさせる。
【0146】クラスター分類の追加、変更、削除は、所
定のクラスターを指定してその下位にさらに分類すべき
クラスターの説明変量を指定したり、複数のクラスター
を統合したり、あるいは、所定のクラスター分類の枝を
削除するなど、画面上でユーザーが処理命令入力装置を
用いて行う。樹形図編集手段11は、画面上のユーザー
の編集作業を支援する種々のツールを提供するととも
に、ユーザーによるクラスター分類の編集の意味を読み
取り、それに応じて各クラスターのデータファイルを自
動修正する。
【0147】また、好ましくは樹形図編集手段11は、
クラスター分類手段9によるクラスター分類の継続停止
の判断を提示し、ユーザーに最終判断を入力させる。
【0148】この結果、クラスター分類の繰返し処理を
継続する場合には、処理は変量一覧出力手段5に戻さ
れ、上述した変量一覧出力手段5から樹形図編集手段1
1までの処理が繰り返される。
【0149】一方、クラスター分類の繰返し処理を中止
する場合には、樹形図編集手段11から最終的分類によ
るクラスター分類樹形図等が出力される。
【0150】なお、図4のクラスター分類樹形図は、第
一回目のクラスター分類では説明変量“色”によってク
ラスター分類が行われ、第二回目のクラスター分類では
“色=白”のクラスターについて説明変量“デザイン”
によってクラスター分類が行われ、そこでクラスター分
類の繰返し処理が停止されている、状態を示している。
【0151】図4に示したクラスター分類樹形図によれ
ば、サンプルデータの母集合{0001, … ,0005} が最
終的には、3つのクラスター{0002}, {0001,0005},{000
3,0004}に分類されている。このクラスター分類から以
下の重要な情報を得ることができる。
【0152】第一のクラスター{0002}の商品は、ルート
A,B,Cの販売シェアがそれぞれ0.4, 0.3, 0.3であ
り、この販売シェア分布の商品は“色=白”かつ“デザ
イン=奇抜”の商品であることがわかる。
【0153】また、第二のクラスター{0001,0005}の商
品は、ルートA,B,Cの販売シェアがそれぞれ0.4,
0.4, 0.2に極めて近い商品であり、それらはすべて“色
=白”かつ“デザイン=奇抜”の商品であることがわか
る。
【0154】第三のクラスター{0003,0004}の商品は、
ルートA,B,Cの販売シェアがそれぞれ0.55, 0.25,
0.2に極めて近い商品であり、それらは “色=赤”の商
品であることがわかる。
【0155】このように、本実施形態のクラスター分析
装置1によれば、分類の目的とする変量の観測データが
互いに類似しているサンプルを同一クラスターに分類
し、同時に、各クラスターに属するサンプルが如何なる
共通の属性を有しているか、すなわち各クラスターが如
何なる集団特性を有しているかを明らかにすることがで
きる。
【0156】これにより、たとえばある商品の色、デザ
インが明らかであれば、その商品のルートA,B,Cに
おける販売シェアをかなりの確率で予測することができ
るのである。
【0157】また、本実施形態のクラスター分析装置1
によれば、クラスター分類の途中でユーザーが樹形図編
集手段11によりクラスター分類樹形図を編集すること
もできるので、人間の思考に沿って好ましい説明変数の
属性によってた分類を行うことができるので、最終的に
分類されたクラスターについて自然な理由による要因分
析をすることができる。
【0158】なお、上記分析された要因は、クラスター
を分類する際のルールでもあるので、本明細書において
「分類ルール」というものと同義である。
【0159】以上が本実施形態によるクラスター分析装
置1の処理の流れである。なお、上記説明では、分類さ
れたクラスターの分離度評価においてKL情報量を使用
したが、クラスター分離度の評価は被説明変量の観測デ
ータの推定分布に対する各サンプルの真の分布の近さを
評価できるものであれば任意のものとするができる。こ
の評価基準または評価式は、分析者が独自に定めること
ができるし、従来の“距離”の概念を使用することもで
きる。
【0160】
【発明の効果】上記説明から明らかなように、本発明に
よる「分類ルール探求式クラスター分析装置」によれ
ば、あるサンプルの母集合から類似するサンプルを抽出
するときに、抽出されるサンプルの類似性の説明となる
変量の属性によってサンプル分類をしている。
【0161】これにより、分類されたクラスター(サン
プルの集合)は、互いに類似する集団であるとともに、
共通の他の属性を有している。
【0162】これにより、分類されたクラスターの集団
特性は、明確な形で直ちに把握でき、従来のクラスター
分類と異なり、分類されたクラスターの要因分析が困難
で集団特性が不明であることがない。
【0163】また、本発明による樹形図編集手段を有す
るクラスター分析装置では、クラスター分析の処理の途
中で、人間の判断により、クラスターの追加、変更、削
除をすることができる。これにより、人間の経験に基づ
く思考に沿った自然なクラスター分類を行うことがで
き、従来のクラスター分類のように人間の考察あるいは
論理的な推論と一致しないクラスター分類をすることが
ない。
【図面の簡単な説明】
【図1】本発明によるクラスター分析装置へのコンピュ
ータの適用とその処理の目的を説明した図。
【図2】本発明の一実施形態によるクラスター分析装置
の構成とその処理の流れを示したブロック図。
【図3】本発明の一実施形態によるクラスター分析装置
の処理を説明するために用いるサンプルデータを表形式
で示した図。
【図4】本発明の一実施形態によるクラスター分析装置
の処理によって出力されるクラスター分類樹形図。
【図5】サンプル間の距離の計算で使用される要素を示
した図。
【図6】距離行列を示した図。
【図7】クラスターの分類系統を示したクラスター分類
樹形図。
【符号の説明】
1 クラスター分析装置 2 外部データベース検索入力手段 3 サンプルデータ記憶手段 4 ヒストグラム分析手段 5 変量一覧出力手段 6 変量選択手段 7 評価用サンプルデータファイル生成手段 8 評価手段 9 クラスター分類手段 10 樹形図生成手段 11 樹形図編集手段 12 評価条件設定手段

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】多変量を有するサンプルの観測データを記
    憶するサンプルデータ記憶手段と、 クラスター分類の繰返し処理の継続と停止の条件、ある
    いは評価式を含む評価条件を設定した評価条件設定手段
    と、 前記サンプルデータ記憶手段に記憶されたサンプルデー
    タの変量の一覧を出力する変量一覧出力手段と、 前記変量一覧出力手段が出力したサンプルの変量につい
    てユーザーに説明変量と被説明変量とを選択させる変量
    選択手段と、 ユーザーが前記変量選択手段によって所定の説明変量と
    被説明変量とを選択すると、前記説明変量の属性の組合
    せにより、評価用のクラスターを仮分類し、それぞれの
    評価用クラスターの評価用サンプルデータファイルを生
    成する評価用サンプルファイル生成手段と、 前記評価用サンプルデータファイル生成手段が生成した
    評価用サンプルデータファイルを入力し、前記被説明変
    量の観測データについて各評価用クラスターのクラスタ
    ー分離度を評価する評価手段と、 前記評価手段の評価結果と、前記評価条件設定手段の評
    価条件とに基づき、最適なクラスター分類を決定し、ク
    ラスター分類の継続と停止を判断しあるいはユーザーに
    判断させるクラスター分類手段と、 を有することを特徴とする分類ルール探求式クラスター
    分析装置。
  2. 【請求項2】前記サンプルデータ記憶手段から、連続的
    な値をとる変量の観測データを入力し、それらの観測デ
    ータを最適に区分して各区分が前記変量の属性となるよ
    うなヒストグラム分析を行い、ヒストグラム分析による
    それらの変量の属性を前記変量一覧出力手段に出力する
    ヒストグラム分析手段を有していることを特徴とする請
    求項1に記載のクラスター分析装置。
  3. 【請求項3】前記クラスター分類手段によって決定され
    たクラスター分類を入力し、当該クラスター分類に基づ
    く樹形図と、各クラスター分類に係る説明変量の属性と
    を表示する樹形図生成手段を有していることを特徴とす
    る請求項1または2に記載のクラスター分析装置。
  4. 【請求項4】前記樹形図生成手段によって生成されたク
    ラスターの樹形図に対して表示装置の画面上でクラスタ
    ー分類の追加、変更、削除の編集処理を行う樹形図編集
    手段を有していることを特徴とする請求項3に記載のク
    ラスター分析装置。
  5. 【請求項5】前記変量選択手段は、前記変量一覧出力手
    段によって表示された説明変量のうち任意の説明変量を
    ユーザーに選択させるように構成されていることを特徴
    とする請求項1ないし4のいずれかに記載のクラスター
    分析装置。
  6. 【請求項6】外部のデータベースにアクセスし、クラス
    ター分類を行おうとするサンプルに関連するデータを検
    索して入力する外部データベース検索入力手段を有して
    いることを特徴とする請求項1ないし5のいずれかに記
    載のクラスター分析装置。
JP30109698A 1998-10-22 1998-10-22 分類ルール探求式クラスター分析装置 Expired - Fee Related JP4194697B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP30109698A JP4194697B2 (ja) 1998-10-22 1998-10-22 分類ルール探求式クラスター分析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP30109698A JP4194697B2 (ja) 1998-10-22 1998-10-22 分類ルール探求式クラスター分析装置

Publications (2)

Publication Number Publication Date
JP2000132558A true JP2000132558A (ja) 2000-05-12
JP4194697B2 JP4194697B2 (ja) 2008-12-10

Family

ID=17892815

Family Applications (1)

Application Number Title Priority Date Filing Date
JP30109698A Expired - Fee Related JP4194697B2 (ja) 1998-10-22 1998-10-22 分類ルール探求式クラスター分析装置

Country Status (1)

Country Link
JP (1) JP4194697B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002352244A (ja) * 2001-05-30 2002-12-06 Hitachi Systems & Services Ltd データ分類装置およびデータ分類方法
JP2007058603A (ja) * 2005-08-24 2007-03-08 Nippon Telegr & Teleph Corp <Ntt> パターン認識方法及び装置及びプログラム
CN100405241C (zh) * 2000-11-28 2008-07-23 音质技术公司 用于数据压缩的群集
JP2009205615A (ja) * 2008-02-29 2009-09-10 Internatl Business Mach Corp <Ibm> 変化分析システム、方法及びプログラム
JP2010211385A (ja) * 2009-03-09 2010-09-24 Dentsu Inc 情報提供装置及び情報提供方法並びに情報提供用プログラム
WO2011092830A1 (ja) 2010-01-28 2011-08-04 日立建機株式会社 作業機械の監視診断装置
JP2012503235A (ja) * 2008-09-15 2012-02-02 グーグル・インコーポレーテッド エンティティとカテゴリの関連付け
JP2016018435A (ja) * 2014-07-09 2016-02-01 株式会社Ihi パラメータ分類装置
JP2020087465A (ja) * 2018-11-16 2020-06-04 ソニー株式会社 情報処理装置、情報処理方法及びプログラム

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100405241C (zh) * 2000-11-28 2008-07-23 音质技术公司 用于数据压缩的群集
JP4682339B2 (ja) * 2001-05-30 2011-05-11 株式会社日立ソリューションズ データ分類装置およびデータ分類方法
JP2002352244A (ja) * 2001-05-30 2002-12-06 Hitachi Systems & Services Ltd データ分類装置およびデータ分類方法
JP2007058603A (ja) * 2005-08-24 2007-03-08 Nippon Telegr & Teleph Corp <Ntt> パターン認識方法及び装置及びプログラム
JP4715389B2 (ja) * 2005-08-24 2011-07-06 日本電信電話株式会社 パターン認識方法及び装置及びプログラム
JP2009205615A (ja) * 2008-02-29 2009-09-10 Internatl Business Mach Corp <Ibm> 変化分析システム、方法及びプログラム
US8417648B2 (en) 2008-02-29 2013-04-09 International Business Machines Corporation Change analysis
JP2012503235A (ja) * 2008-09-15 2012-02-02 グーグル・インコーポレーテッド エンティティとカテゴリの関連付け
JP2010211385A (ja) * 2009-03-09 2010-09-24 Dentsu Inc 情報提供装置及び情報提供方法並びに情報提供用プログラム
WO2011092830A1 (ja) 2010-01-28 2011-08-04 日立建機株式会社 作業機械の監視診断装置
US8838324B2 (en) 2010-01-28 2014-09-16 Hitachi Construction Machinery Co., Ltd. Monitoring and diagnosing device for working machine
JP2016018435A (ja) * 2014-07-09 2016-02-01 株式会社Ihi パラメータ分類装置
JP2020087465A (ja) * 2018-11-16 2020-06-04 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
JP7392411B2 (ja) 2018-11-16 2023-12-06 ソニーグループ株式会社 情報処理装置、情報処理方法及びプログラム

Also Published As

Publication number Publication date
JP4194697B2 (ja) 2008-12-10

Similar Documents

Publication Publication Date Title
US6654744B2 (en) Method and apparatus for categorizing information, and a computer product
US6321217B1 (en) Data analyzing method for generating rules
US8312049B2 (en) News group clustering based on cross-post graph
US20020124002A1 (en) Analysis of massive data accumulations using patient rule induction method and on-line analytical processing
JP2001522095A (ja) オンライン・データベース・マイニング
KR20040101477A (ko) 계층적 시각화를 통한 다차원 데이터의 뷰잉
Elovici et al. A decision-theoretic approach to data mining
JP5391637B2 (ja) データ類似度計算システム、データ類似度計算方法およびデータ類似度計算プログラム
CN114186121A (zh) 一种基于服务记录的混合型推荐算法系统
CN110443290A (zh) 一种基于大数据的产品竞争关系量化生成方法及装置
Hao et al. Intelligent visual analytics queries
JP2001117947A (ja) 高次元データを分類するための方法及びそれにより形成される分類木並びにコンピュータシステム
JP4194697B2 (ja) 分類ルール探求式クラスター分析装置
US20060293945A1 (en) Method and device for building and using table of reduced profiles of paragons and corresponding computer program
Mehlstäubl et al. Data mining in product portfolio and variety management–literature review on use cases and research potentials
Kiang et al. A comparative analysis of an extended SOM network and K-means analysis
Kowalczyk et al. Rough-set inspired approach to knowledge discovery in business databases
Chakrabarti et al. Towards a Rule-based Visualization Recommendation System.
Desmet Buying behavior study with basket analysis: pre-clustering with a Kohonen map
Patil et al. Efficient processing of decision tree using ID3 & improved C4. 5 algorithm
KR20070058936A (ko) 시간 가중치 엔트로피를 이용한 결정 트리 생성 방법 및이를 기록한 기록매체
Das Adaptation of fuzzy reasoning and rule generation for customers’ choice in retail FMCG business
Phyu et al. To development manufacturing and education using data mining: a review
JP4126166B2 (ja) モデル変換型データ分析装置、記録媒体及びプログラム
Abusair et al. A Business Recommender System Based on Zones and Commercial Data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080523

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080722

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080829

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080924

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111003

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111003

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121003

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121003

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131003

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees