JP4194697B2 - 分類ルール探求式クラスター分析装置 - Google Patents

分類ルール探求式クラスター分析装置 Download PDF

Info

Publication number
JP4194697B2
JP4194697B2 JP30109698A JP30109698A JP4194697B2 JP 4194697 B2 JP4194697 B2 JP 4194697B2 JP 30109698 A JP30109698 A JP 30109698A JP 30109698 A JP30109698 A JP 30109698A JP 4194697 B2 JP4194697 B2 JP 4194697B2
Authority
JP
Japan
Prior art keywords
cluster
evaluation
variable
classification
sample data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP30109698A
Other languages
English (en)
Other versions
JP2000132558A (ja
Inventor
崎 健 寺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP30109698A priority Critical patent/JP4194697B2/ja
Publication of JP2000132558A publication Critical patent/JP2000132558A/ja
Application granted granted Critical
Publication of JP4194697B2 publication Critical patent/JP4194697B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、一サンプルが複数の変量を有する多数のサンプルデータを処理対象とし、変量の観測値が互いに“類似”する関係にあるサンプルを同一クラスターのサンプルとして分類し、分類されたクラスターの構成と、各クラスターに属するサンプルと、各クラスターの特性とを出力するクラスター分析装置に関する。
【0002】
同一クラスター内のサンプルが互いに“類似”であり、かつ、相違するクラスターのサンプルの観測データが互いに“非類似”である度合いを評価するための変量を「被説明変量」とし、被説明変量の分布特性の成立を説明することができる変量を「説明変量」とすると、本発明は特に、「説明変量の属性が同一」であって「被説明変量の観測データが互いに類似する」クラスターを発見、分類するクラスター分析装置に関する。
【0003】
言い換えれば、本発明のクラスター分析装置は、大量の多変量データから、所定の観測データが互いに類似している同一属性の集合(クラスター)を分類し、クラスター間の類似の度合いを明示する分類体系を出力する装置に関する。
【0004】
【従来の技術】
クラスター分析は、一般的には、多変量解析の分野において多数の観測対象(サンプル)に対して、特定の計算基準(評価基準)により、“類似するもの”を集めて分類する手法を意味する。
【0005】
すなわち、一般的には、クラスター分析は、観測された多数のサンプルに対して、類似するもの同士を同一グループに単に“分類”するものをいう。
【0006】
一般的な用語の「クラスター分析」で“分析”の語が使用されているのは、特定のサンプルがどのクラスターに属するかを“評価判定”する処理を含むためである。
【0007】
従来のクラスター分析は、「クラスター分離度」を算出することによって評価判定していた。ここで、「クラスター分離度」は、同一のクラスターに属するサンプルは互いに類似しており、異なるクラスターのサンプルからは相違している度合いをいう。従来は、このクラスター分離度を算出し、クラスター分離度が最も高くなるように、クラスターを分類していた。
【0008】
なお、上記「クラスター」は集合のことであり、木構造に分類された場合において上位下位のいずれのレベルの集合をもいう。最下位のクラスターは一つのサンプルのみを含むものであり、最上位のクラスターは全部のサンプルを含むものである。下位のクラスターほどサンプルの属性(変量)が少数のものに特定され、上位のクラスターほどサンプルの属性がばらつく。
【0009】
このように、あるサンプルデータの母集合に対して、クラスター分離度がもっとも高くなるようにクラスターに分類した後は、分類されたクラスターの要因分析をしなければならない。要因分析することにより、分類されたデータを活用することができるようになるからである。
【0010】
要因分析は、分類クラスターの特性を求めることであり、あるサンプルがあるクラスターに属すると判断された原因を求めることである。言葉を変えると、要因分析は、同一クラスター内でサンプルが如何なる点で類似するか、を求めることである。
【0011】
従来は、クラスター分析と要因分析は、別々の段階と方法で処理されていた。つまり、クラスター分析をクラスター分析のためのアルゴリズムによって先に行い、その後で別のアルゴリズムによって分類されたクラスターの要因を分析していた。
【0012】
従来のクラスター分析は、代表的には、クラスター間の類似度の尺度としてクラスター間の“距離”を計算し、算出された“距離”がもっとも短いクラスターを類似として上位のクラスターとして統合していく方法が行われていた。この従来のクラスター分析のために、コンピュータの利用が種々提案されていた。
【0013】
一方、従来の要因分析は、分類されたクラスターに対して、人間の直感、あるいは人間の直感に基づき統計解析手法により、事後的に各クラスターに属するサンプルの共通性を、分析していた。
【0014】
このように、従来はサンプル間の類似の度合いによってクラスター分析することと、要因分析することとは、別々の処理または装置によるものであって、本発明のような要因分析とクラスター分類を同時に行い、双方の評価基準を同時に満たす「分類ルール探求式クラスター分析装置」は、存在していなかった。
【0015】
なお、この「従来の技術」の欄では、本発明によるクラスター分析装置と従来のクラスター分析の相違を明らかにするために、従来のクラスター分析と要因分析の方法とについて概略説明する。
【0016】
従来のクラスター分析では、“類似”するサンプル(クラスター)同士を上位の階層のクラスターとして統合する。この“類似”の尺度として“距離”の概念が使用されている。
【0017】
今、n個のサンプルについてp種の変量で観測したデータ{xij}(i=1,2,…,n;j=1,2,…,p)があるとすると{xij}は図5のようになる。
【0018】
上記与えられた観測データに基づいてクラスター分析をするには、最初に図6に示すような、サンプル間の類似度を表す“距離行列”を作成する。距離としては後述するユークリッド距離、マハラノビスの距離、相関係数等を計算する。
【0019】
上記“距離行列”が作成されると、後述する分類手法により、“最短距離”の関係にあるクラスターを類似するとして上位の階層のクラスターとして統合する。一つの階層のクラスターが作成されると、再びクラスター間の距離を計算し、距離行列を作成し、最短距離にあるクラスターを求めてさらに一つ上の階層のクラスターを作成する。このようにして、最終的には図7に示すような樹形図(デンドログラム)を作成する。
【0020】
樹形図において所定の階層で統合されたクラスター内のサンプルは、何らかの類似関係によりその階層で最短距離の関係にあったために統合されたということができる。その類似関係にあるサンプルは、共通してある性質を有しているということができ、その性質を明らかにすることによりそのクラスターの集団の特性を明らかにすることができる。
【0021】
従来は、分類されたクラスターの集団特性について、上述したように、事後的に解釈・分析していた。すなわち、距離が短い関係にあるサンプルは、如何なる属性の組合せにおいて類似しているかを、主に人間の直感あるいはパターン認識能力を駆使し、事後的に考察していたのである。
【0022】
上述した“距離”の代表的なものを簡単に説明する。
代表的な距離の種類としては、(a)ユークリッド平方距離、(b)標準ユークリッド平方距離、(c)マハラノビスの汎距離、(d)相関係数に基づく距離がある。以下にそれぞれの距離について項分けして簡単に説明しておく。
(a)ユークリッド平方距離
サンプルiとしてサンプルjのユークリッド平方距離をdijとすると、dijは下式のようになる。
【数1】
Figure 0004194697
【0023】
ここで、xik,xjkはそれぞれサンプルiとjのk番目の変量の観測データである。
【0024】
(b)標準ユークリッド平方距離
サンプルiとサンプルjの標準ユークリッド平方距離をdijとすると、
ijは下式のようになる。
【数2】
Figure 0004194697
【0025】
(c)マハラノビスの汎距離
サンプルiとサンプルjのマハラノビスの汎距離dijは次式により定義する。
【数3】
Figure 0004194697
【0026】
ここで、νkmはx,x,…,xの分散共分散行列の逆行列の(k,m)要素である。
【0027】
(d)相関係数に基づく距離
サンプルiとサンプルjの相関係数γijは次式により定義する。
【数4】
Figure 0004194697
サンプルiとサンプルjの相関係数に基づく距離dijは上記相関係数γijを用いて下式のように定義する。
【0028】
ij=1−γij
【0029】
次に、複数サンプルを含むクラスター間の距離の概念について簡単に説明する。
上述した距離の概念を使用してクラスター(単数のサンプルからなるクラスターを含む)を統合してゆく分類手法は種々開発されている。現在よく使用されている分類手法には▲1▼最近隣法、▲2▼最遠隣法、▲3▼重心法、▲4▼ウォード法等がある。以下にこれらの分類手法について項分けして簡単に説明する。
【0030】
▲1▼ 最近隣法
最近隣法によれば、2つのクラスター間の距離を決めるのに際し、それぞれのクラスターに含まれるサンプル間の距離のうち最短距離をそれらのクラスター間の距離とする。
【0031】
すなわち、最近隣法は、もっとも近接するサンプル間の距離が短いクラスターほど互いに類似するクラスターとしてクラスター統合する方法である。サンプル間の距離の計算については上述した通りである。
【0032】
▲2▼ 最遠隣法
最遠隣法によれば、2つのクラスター間の距離を決めるのに際し、それぞれのクラスターに含まれるサンプル間の距離のうち最長距離をそれらのクラスター間の距離とする。
【0033】
すなわち、最遠隣法は、もっとも遠く離れているサンプル間の距離が短いクラスターほど互いに類似するクラスターとしてクラスター統合するものである。サンプル間の距離の計算については上述した通りである。
【0034】
▲3▼ 重心法
重心法によれば、クラスターの位置は含まれるサンプルの平均座標、すなわち重心で定義され、p次元の座標で表わされる。2つのクラスター間の距離は、各クラスターの重心間の距離と定義する。
【0035】
すなわち、重心法は、含まれるサンプルの重心が近い関係にあるクラスターほど類似するクラスターとしてクラスター統合する方法である。
【0036】
▲4▼ ウォード法
ウォード法によれば、クラスター間の距離は2つのクラスターを統合したときの偏差平方和の増分で定義される。
【0037】
すなわち、ウォード法は、クラスター統合した場合にサンプルの偏差すなわち、平均に対するばらつきがその段階で最小となるクラスターを互いに類似するクラスターとして統合する方法である。
【0038】
以上、▲1▼最近隣法〜▲4▼ウォード法のいずれの分類手法によっても、距離が最も短い関係にあるクラスター同士を類似クラスターとして統合するものである。
【0039】
要約すれば、従来のクラスター分析は、多変量サンプル間の相違を各変量の観測データの総合的な量として計算できる距離という概念を導入し、距離の適用を複数サンプルを含むクラスターに広げることにより、距離が最も短いクラスター同士を類似クラスターとして一つ上の階層のクラスターとして統合してゆくものであった。
【0040】
従来のクラスター分析は、類似するクラスターを上位のクラスターとして統合することであり、分類されたクラスターの集団特性の分析はクラスター分析とは別個の段階で人間によって処理していた。
【0041】
【発明が解決しようとする課題】
しかしながら、上記従来のクラスター分析によると、以下の問題があった。
▲1▼ クラスターに分類されたサンプル群の共通の性質を把握するのが困難であった。
【0042】
従来の方法では、距離の計算をする際に、ユークリッド平方距離等の計算式からわかるように、サンプル間の各変量の観測データ{xij}の差の和を基礎としてこれに種々の加工を施して種々の距離を求めている。
【0043】
しかし、類似するとして同一クラスターに分類されたサンプルは、距離が近いとされた変量と全く関係のない変量によって特徴づけられる集合であることが現実には非常に多い。
【0044】
たとえば、非常に単純な例であるが、ある商品を購買したか否かという事象を変量として顧客をクラスターに分類する場合を考えると、商品を購買した顧客は購買したという事象によって一つのクラスターとして分類される。しかし、この分類されたクラスターに含まれる顧客は、購買したという事象と関係のない属性、たとえば特定の年齢、性別、職業等を有する人々であるということによって特徴づけられることが非常に頻繁に起こる。
【0045】
このような場合には、従来のクラスター分析では、要因分析をする際に、前記年齢、性別、職業等の属性を発見するのは専ら人間の直感とパターン認識能力に頼らざるを得なかった。実際には、分析者が同一クラスター内の顧客の顧客像を想像しながら、顧客データから必要な属性データを抽出し、これに種々の統計的処理を施して、顧客の属性、すなわち当該クラスターの集団特性を明らかにしていた。
【0046】
なお、上記例において、商品を購買したか否かの事象も変量であり、また、上記顧客の年齢、性別、職業等の属性も変量である。本明細書では、前者のような分類の目的となる変量を被説明変量、後者のような各クラスターの分類要因を説明する変量を説明変量ということにする。説明変量と被説明変量は通常ともに、複数の変量、すなわち、それぞれ多変量である。
【0047】
本発明が解決しようとする課題は、被説明変量に対して説明変量が存在する多変量サンプルに対して、被説明変量の観測データが互いに類似するとして分類されたクラスターについて、説明変量の属性が明確な形でそのクラスターの集団特性を表しているクラスター分析装置を提供することにある。
【0048】
なお、本明細書にいう「要因分析」は、いわゆる多変量解析にいう「主成分分析」とは全く異なるものである。
【0049】
多変量解析にいう「主成分分析」は、分類の目的となる変量(被説明変量)を線形結合して新たな変量(被説明変量)を生成し、この新たな変量によってサンプルを分類し、クラスターの分離度をより高くすることを目的とする手法である。
【0050】
主成分分析を取り入れたクラスター分析では、クラスター間の分離度が高くなるが、類似度あるいは分離度を評価する変量自体が合成された変量であるため、変量のもつ意味が不明になり、クラスターの集団特性がさらに不明瞭になり、要因分析はより困難になる傾向にある。
【0051】
「主成分分析」によるクラスター分析では、本発明が目的とするような、被説明変量に対する説明変量を明確な形で明らかにしながらクラスター分類を行うクラスター分析装置を提供することはできなかった。
【0052】
▲2▼ 従来のクラスター分析では、あるサンプルがどのクラスターに属するのかを判断するには、各クラスターとの距離を計算しなければならず、サンプルの持つ属性や特徴から即座に判断することができず、実用上問題が多かった。
【0053】
従来のクラスター分析では、ユークリッド平方距離等の距離の計算により、最短距離にあるクラスターを類似するクラスターとして一つ上の階層のクラスターとして統合して行くものであった。
【0054】
上記距離の計算とクラスター統合は、数値計算によって機械的に進められる。したがって、人間のパターン認識能力からすると、異なるクラスターに分類すべきであると判断した場合があっても、人間の考察や推論と異なる形でクラスターの樹形図が完成することがある。
【0055】
このような、人間の考察と異なる形の樹形図のクラスターに対して事後的に要因分析を行えば、歪められた要因分析にならざるを得ない。
【0056】
そこで、本発明の解決しようとする他の課題は、人間の考察あるいは論理的な推論による最適なクラスター分類を柔軟に取り入れられるクラスター分類を行うことが可能なクラスター分析装置を提供することにある。
【0057】
【課題を解決するための手段】
本願請求項1に係る分類ルール探求式クラスター分析装置は、
多変量を有するサンプルの観測データを記憶するサンプルデータ記憶手段と、
クラスター分類の繰返し処理の継続と停止の条件、あるいは評価式を含む評価条件を設定した評価条件設定手段と、
前記サンプルデータ記憶手段に記憶されたサンプルデータの変量の一覧を出力する変量一覧出力手段と、
前記変量一覧出力手段が出力したサンプルの変量についてユーザーに少なくとも一つの説明変量と少なくとも一つの被説明変量とを選択させる変量選択手段と、
ユーザーが前記変量選択手段によって所定の説明変量と被説明変量とを選択すると、前記各説明変量の各属性によって前記サンプルデータを評価用のクラスター仮分類し、それぞれの評価用クラスターの評価用サンプルデータファイルを生成する評価用サンプルファイル生成手段と、
前記評価用サンプルデータファイル生成手段が生成した評価用サンプルデータファイルを入力し、前記被説明変量の観測データについて各評価用クラスターのクラスター分離度と各説明変量の説明変量としてのクラスター分離度を評価する評価手段と、
前記評価手段の評価結果と、前記評価条件設定手段の評価条件とに基づき、最適なクラスター分類を決定し、クラスター分類の継続と停止を判断しあるいはユーザーに判断させるクラスター分類手段と、を有し、
前記サンプルデータ記憶手段に多変量を有するサンプルの観測データを記憶し、前記変量一覧出力手段により前記サンプルデータの変量の一覧を出力し、前記変量選択手段によりユーザーに前記サンプルデータの変量から少なくとも一つの説明変量と少なくとも一つの被説明変量を選択させ、次に、前記評価用サンプルファイル生成手段によりユーザーが選択した各説明変量の各属性について、該属性を有するサンプルデータを有する評価用クラスターとそれ以外の属性を有するサンプルデータを有する評価用クラスターに仮分類し、各評価用クラスターの評価用サンプルデータファイルを生成し、次に、前記評価手段により前記評価用サンプルデータファイルを入力し、前記評価条件設定手段で設定した評価式に基づいて前記各評価用サンプルデータファイルの前記被説明変量の観測データに対するクラスター分離度を評価し、各説明変量の各属性について算出したクラスター分離度から各説明変量の説明変量としてのクラスター分離度を算出し、説明変量としてのクラスター分離度がもっとも高い説明変量を採用してその属性によってサンプルデータをクラスター分類し、前記評価条件設定手段が設定した評価条件により、残りの説明変量についてさらに評価用クラスターの分類とその評価とクラスター分類を行うか、それともそれ以上のクラスター分類を停止するかを決定する、ことを特徴とする。
【0058】
本願請求項2に係るクラスター分析装置は、請求項1のクラスター分析装置において、
前記サンプルデータ記憶手段から、連続的な値をとる変量の観測データを入力し、それらの観測データを最適に区分して各区分が前記変量の属性となるようなヒストグラム分析を行い、ヒストグラム分析によるそれらの変量の属性を前記変量一覧出力手段に出力するヒストグラム分析手段を有していることを特徴とするものである。
【0059】
本願請求項3に係るクラスター分析装置は、請求項1,2のクラスター分析装置において、
前記クラスター分類手段によって決定されたクラスター分類を入力し、当該クラスター分類に基づく樹形図と、各クラスター分類に係る説明変量の属性とを表示する樹形図生成手段を有していることを特徴とするものである。
【0060】
本願請求項4に係るクラスター分析装置は、請求項3のクラスター分析装置において、
前記樹形図生成手段によって生成されたクラスターの樹形図に対して表示装置の画面上でクラスター分類の追加、変更、削除の編集処理を行う樹形図編集手段を有していることを特徴とするものである。
【0061】
本願請求項5に係るクラスター分析装置は、請求項1〜4のいずれかのクラスター分析装置において、
前記変量選択手段は、前記変量一覧出力手段によって表示された説明変量のうち任意の説明変量をユーザーに選択させるように構成されていることを特徴とするものである。
【0062】
本願請求項6に係るクラスター分析装置は、請求項1〜5のいずれかのクラスター分析装置において、
外部のデータベースにアクセスし、クラスター分類を行おうとするサンプルに関連するデータを検索して入力する外部データベース検索入力手段を有していることを特徴とするものである。
【0063】
【発明の実施の形態】
以下に本発明の一実施形態による「分類ルール探求式クラスター分析装置」について願書に添付の図面を用いて説明する。
1. 本発明のクラスター分析装置へのコンピュータの適用とその処理の目的
はじめに、本発明の「分類ルール探求式クラスター分析装置」へのコンピュータの適用と、その処理の目的について説明する。
【0064】
図1に、本発明によるクラスター分析装置を実現するためのコンピュータの適用方法と、その入力と出力とを示す。
【0065】
本発明によるクラスター分析装置は、好ましくは本明細書全体によって明らかにされるクラスター分析のための諸処理をするようにプログラムによって制御されたコンピュータによって実現される。
【0066】
図1に示すように、本発明のクラスター分析装置として作動するコンピュータは、データ入力装置と、記憶装置と、CPU(中央処理ユニット)と、処理命令入力装置と、出力装置とを有している。
【0067】
データ入力装置は、大量のデータを入力可能な装置である限り該当し、キーボードやポインティングディバイスのほか、光学的なデータ読取装置や、外部の記憶装置にアクセスして所定のファイルを入力する通信手段等、種々のものが考えられる。
【0068】
処理命令入力装置は、主にユーザーがコンピュータを操作して処理をする命令を入力するためのものであり、キーボードやポインティングデバイス等がある。
【0069】
CPUは、データの処理や計算を行うデータ処理のための主要部分である。CPUは、プログラムの制御によって種々のデータ処理を行い得るものであり、後述する本発明のヒストグラム分析手段、評価手段等は、それぞれの処理をするようにプログラムによって制御されたCPUである。なお、本明細書ではCPUは処理のためのメモリを含むものとする。
【0070】
出力装置は、CPUの処理の結果を出力するためのものであり、プリンタ、表示装置のほか、データをデータファイルとして出力する通信手段である場合もある。
【0071】
このクラスター分析装置として作動するコンピュータは、サンプルデータの母集合をその処理の対象とする。ここで、サンプルデータの母集合は、未処理の状態のサンプルデータの集合である。未処理の状態のサンプルデータとは、一サンプルに多数の変量についての観測データがあり、それぞれのサンプルが如何なる集合(クラスター)に属するかが不明な状態のものである。
【0072】
本発明のクラスター分析装置は、上記未処理のサンプルデータの母集合に対して、所定の変量の属性またはそれらの組合せが同一のサンプルを同一クラスターとして分類し、かつ、分類されたサンプルは分類に使用した変量以外の変量の観測データが互いに“類似”し、全体的なクラスターの分類体系を明らかにすることを目的とする。クラスターの分類体系を明らかにしたものとしてクラスター分類樹形図がある。
【0073】
すなわち、本発明のクラスター分析装置は、整理されていない状態の多変量データから、所定の変量の観測データが互いに類似するサンプルを集め、かつ、集められたサンプル群が如何なる共通の属性を有しているかを明らかにすることができるものである。
【0074】
上記未処理のサンプルデータの母集合を入力してクラスター分類体系を明らかにしたものを出力するまで、クラスター分析装置のデータ入力装置、記憶装置、CPU、処理命令入力装置、出力装置は、それぞれの機能に応じて、図1に示すように協働して処理を行う。
2. 本発明の一実施形態によるクラスター分析装置の構成と処理の流れ
図2に本発明の一実施形態によるクラスター分析装置の構成と処理の流れを示す。
【0075】
2.1 クラスター分析装置の構成
図2に示すように、本実施形態のクラスター分析装置1は、外部データベース検索入力手段2と、サンプルデータ記憶手段3と、ヒストグラム分析手段4と、変量一覧出力手段5と、変量選択手段6と、評価用サンプルデータファイル生成手段7と、評価手段8と、クラスター分類手段9と、樹形図生成手段10と、樹形図編集手段11と、評価条件設定手段12とを有している。なお、図2において、クラスター分析装置1の各構成手段にはそれぞれの処理を行うコンピュータの諸装置名を付記した。
【0076】
外部データベース検索入力手段2は、クラスター分析装置1の外部に存在するデータベースにアクセスしてクラスター分析をしようとするサンプルの関係データを検索し、それらを収集して入力する手段である。外部データベース検索入力手段2は、データ入力装置とそれを制御するCPUとからなり、好ましくは、検索エンジンと通信手段とを備えたものとする。
【0077】
なお、外部データベース検索入力手段2は、クラスター分析装置に必須のものではない。すなわち、外部のデータベースから検索することなく、サンプルデータをクラスター分析装置内に取り込むことができる場合には、外部データベース検索入力手段を省略することができる。
【0078】
サンプルデータ記憶手段3は、未処理のサンプルデータを記憶する手段である。
【0079】
ヒストグラム分析手段4は、連続的な値をとる変量の観測データに対し、それらの観測データを最適に区分して各区分がその変量の属性となるようなヒストグラムを生成する手段である。
【0080】
たとえば、顧客データをサンプルデータとした場合、「年齢」という顧客データの変量は、その観測データは連続的な分布を有している。
【0081】
この連続的な値をとる「年齢」の分布を適当に区分することにより、「年齢」という変量の属性が生成される。たとえば、何歳か以上を「高齢」、何歳か以下を「若年」という区分にすれば、「年齢」に対して「高齢」と「若年」は、「年齢」という変量の属性となる。
【0082】
「高齢」と「若年」という大きな区分をする場合と同様に、細かく所定の年齢幅ごとに一つの区分とした場合、区分された各年齢帯も、年齢という変量に対して属性となる。たとえば、「0歳〜10歳」、「11歳〜20歳」等は、年齢に対する属性である。
【0083】
ヒストグラム分析手段4は、最適な区分によるヒストグラムを作成することを目的とする。
ヒストグラム分析においては、区分の幅により、情報量が失われたり、失われなかったりすることが知られている。“最適な区分”とは、情報量の損失が最小である区分をいう。
【0084】
たとえば、特定の年齢帯の顧客が「購買」という事象を集中的に行っているとしたら、「高齢」「若年」というような区分では、どの年齢帯の顧客が集中的に「購買」しているかという情報量が大きく失われる。これに対して、適当な年齢幅による区分であれば、上記特定の年齢帯について「購買」という事象が観測されるという情報量が失われない。
【0085】
一方、極めて詳細な区分をする場合には、情報量の損失は少ないが、情報の抽出が困難になることは説明するまでもない。
【0086】
このため、ヒストグラム分析手段4は、連続的な値をとる変量の観測データを入力し、それをさまざまな幅で区分を試み、所定の事象の度数がもっとも明確に分離される区分を最適なヒストグラムとして採用する。なお、具体的なヒストグラム分析の方法については、様々なヒストグラム分析の方法が提案されており、本発明では任意の公知のものを採用することができる。
【0087】
なお、ヒストグラム分析手段4も、本発明のクラスター分析装置にとっては必須のものではない。すなわち、連続的な値をとる変量を扱わないクラスター分析装置も存在することがあり、この場合には、ヒストグラム分析手段は省略することができる。
【0088】
変量一覧出力手段5は、サンプルデータの変量を一覧表の形式でユーザーに示す手段である。
【0089】
本発明によるクラスター分析装置は、特定の変量の観測データ間の類似度が高いサンプルをクラスターに分類する一方、前記特定変量に対して説明的な変量の属性の組合せをクラスター分類の基準とする。
【0090】
このため、クラスター分類に使用する変量(説明変量)、および、クラスター内のサンプル間の類似を評価するための変量(被説明変量)を、ユーザーに明らかな形で示す必要がある。
【0091】
変量一覧出力手段5は、処理の最初の段階ではサンプルデータの変量のすべてを表示し、クラスター分類の繰返し処理の途中ではその段階での選択可能な説明変量を表示することができる。
【0092】
変量選択手段6は、前記変量一覧出力手段5が表示した変量の中から、ユーザーに説明変量と被説明変量とを選択させる手段である。
【0093】
すでに説明したように、被説明変量とは、サンプルの類似度を評価するための変量である。説明変量とは、本発明でクラスター分類に使用する変量であって、前記被説明変量が特定の分布に集約される理由を説明することができる変量である。
【0094】
評価用サンプルデータファイル生成手段7は、ユーザーが変量選択手段6によって所定の説明変量と被説明変量とを選択した場合に、選択された説明変量の属性またはそれらの組合せに応じて評価用のクラスターを複数個仮分類し、それぞれの評価用クラスターのサンプルデータファイルを生成する手段である。
【0095】
評価手段8は、評価用サンプルデータファイル生成手段7が生成したサンプルデータファイルを入力し、各評価用クラスターのクラスター分離度を評価する手段である。
クラスター分離度の評価方法については後述する。
【0096】
クラスター分類手段9は、評価手段8の評価結果と、評価条件設定手段12の評価条件とに基づき、最適なクラスター分類と、クラスター分類の継続と停止とを判断する手段である。
【0097】
評価条件設定手段12は、クラスター分類の繰返し処理の継続と停止の条件、あるいは評価式等の評価条件を設定した手段である。
【0098】
なお、「評価条件を設定した手段である」とは、評価条件を予め設定してあって変更できない場合と、ユーザーの入力により評価条件を適宜設定できる場合の双方の場合を含む意である。また、必要に応じて、クラスター分類の繰返し処理の継続と停止の条件は、評価条件には含まれず、再分類の必要性についての判断はユーザーに任せてもよい。
【0099】
2.2 本実施形態によるクラスター分析装置の処理の流れ
次に、本実施形態によるクラスター分析装置1の処理の流れについて、図2の処理の流れに沿って以下に説明する。
なお、理解を容易にし、本発明による処理を明らかにするために、図3のような極めて簡単な多変量データを例にして、各段階の処理を説明する。
本実施形態のクラスター分析装置1によってクラスター分析をしようとするときは、必要に応じて最初に評価条件設定手段12により評価条件を設定する。評価条件とは、前述した通り、クラスター分類の繰返し処理の継続と停止の条件、あるいは評価式等である。
【0100】
次に、図2に示すように、外部データベース検索入力手段2によって、外部のデータベースから必要なサンプルデータを検索して収集する。
【0101】
外部データベース検索入力手段2は、好ましくは所定のキーワードにより、既存の種々の外部データベースにアクセスして、クラスター分析をしようとするサンプルデータを収集する機能を有するようにする。
【0102】
たとえば、図3のような商品のルート別販売シェアについてクラスター分析をしようとする場合、商品の種々の属性情報は、複数の外部データベースに別々に格納されていることが多い。この場合、外部データベース検索入力手段2は、商品のID(識別情報)等により、複数の外部のデータベースを検索し、それらの外部データベースから商品の情報を収集して入力する。
【0103】
上記外部データベース検索入力手段2によって入力されたサンプルデータはサンプルデータ記憶手段3に記憶され、本装置によるクラスター分析に供される。各サンプルデータは、図3における各行の横方向に配列されたデータである。
【0104】
次に、ヒストグラム分析手段4は、上記サンプルデータ記憶手段3からサンプルデータを入力し、ヒストグラム分析をする。
【0105】
ヒストグラム分析は、上述したように連続的な値をとる変量がある場合に、最適な区分幅により適当な度数を有する属性を生成する処理である。この属性はそれぞれある集団特性を表している。
【0106】
連続的な値をとる変量がない場合には、ヒストグラム分析手段4による処理は行われない。図3の例では、説明変量はすべて非連続的な値をとるので、ヒストグラム分析手段4による処理は行われない。
【0107】
変量一覧出力手段5は、クラスター分析が行われるサンプルデータの変量を一覧表示する。
【0108】
図3の例では、アイテム、色、デザイン、ルート別販売シェアA,B,C,…は、それぞれサンプル(商品)の変量として一覧表示される。
【0109】
アイテムの下位のTシャツ、セーターは、アイテムという変量の属性となる。色等についての白、赤等も、同様に変量の属性である。
【0110】
次に、ユーザーは、変量一覧出力手段5によって一覧表示された変量から、変量選択手段6の機能により説明変量と被説明変量とを選択する。なお、被説明変量は一回選択されると、被説明変量として固定され、クラスター分類の処理の途中ではユーザーは説明変量のみを選択することになる。
【0111】
なお、図3の例では、ルート別販売シェアについて類似する商品をクラスター分析するので、ルート別販売シェアA,B,C,…が被説明変量として選択され、ルート別販売シェアA,B,C,…の分布特性を説明する変量として商品のアイテム、色、デザイン等が説明変量の候補となる。
【0112】
変量一覧出力手段5による説明変量の選択は、単数あるいは複数の特定の変量を自由に選択できるようにする。通常は説明変量の候補は多数にのぼるので、ユーザーがそれら説明変量から任意のものを選択することができるようにする。
【0113】
なお、以下の説明では、ユーザーはすべての変量“アイテム”、“色”、“デザイン”を説明変量として選択したものとする。
【0114】
ユーザーにより特定の説明変量と被説明変量とが選択されると、この情報はサンプルデータとともに評価用サンプルデータファイル生成手段7に入力され、評価用サンプルデータファイル生成手段7により評価用サンプルのデータファイルが生成される。
【0115】
たとえば、ユーザーが“色”という変量を説明変量として選択した場合、評価用サンプルデータファイル生成手段7は、“色”の属性により、サンプルデータ全体から、“色=白”のクラスター{0001,0002,0005}と、“色=赤”のクラスター{0003,0004}とを仮分類し、それらのルート別販売シェアのデータファイルを生成する。
【0116】
上記“色=白”のクラスター{0001,0002,0005}と、“色=赤”のクラスター{0003,0004}が、本明細書にいう評価用クラスターである。
【0117】
“色=白”のクラスター{0001,0002,0005}や“色=赤”のクラスター{0003,0004}の各サンプルのルート別販売シェアデータが、本明細書にいう評価用クラスターのサンプルデータファイルを構成する。
【0118】
なお、“アイテム”についても、“アイテム=Tシャツ”と“アイテム=セーター”の評価用サンプルデータファイルが生成され、また、“デザイン”についても、“デザイン=定番”と“デザイン=奇抜”の評価用サンプルデータファイルが生成される。
【0119】
次に、上記評価用クラスターのデータファイルは、評価手段8に送られ、評価手段8によってクラスター分離度を評価される。
【0120】
クラスター分離度は、すでに説明したように、同一のクラスターに属するサンプルは互いに類似し、異なるクラスターに属するサンプルは互いに非類似する度合いをいう。
【0121】
クラスター分離度を評価する評価式は、いろいろな形で定義することができる。ここでは、評価式としてKL情報量によってクラスター分離度を評価する場合について説明する。
【0122】
KL情報量は、以下のように定義される値である。
真の離散分布p={p,p,…,p}と、離散分布モデルq={q,q,…,q}とがあるときに、事象iが生じたときに、log p/qという値をとる確率変数log p/qの期待値
【数5】
Figure 0004194697
をモデルqに関する真の分布のKL情報量という。
【0123】
KL情報量は、真の離散分布(観測データ)とモデルによって推定された離散分布(推定分布)との「近さ」を表したものである。
【0124】
本実施形態では、推定分布に対する当該クラスター内のサンプルデータのKL情報量の平均を“クラスターの凝集度”といい、推定分布に対する当該クラスター以外のサンプルデータのKL情報量の平均を“クラスター特異度”という。
【0125】
言い換えれば、クラスター凝集度はクラスター内のサンプルが類似していることの度合いを表し、クラスター特異度は注目しているクラスター内のサンプルが他のクラスターのサンプルと非類似であることの度合いを示している。
【0126】
本実施形態では、クラスター分類の適否の評価を(クラスター特異度/クラスター凝集度)の値で評価するものである。
【0127】
なお、上記「推定分布」は、“同一クラスターに分類されたサンプルから最も近いであろうと推定される分布”をいう。この“同一クラスターに分類されたサンプルから最も近いであろうと推定される分布”は、各サンプルの平均値、最尤度による推定等種々のものが考えられるが、本実施形態では各サンプルの平均値をそれらのサンプルが属するクラスターの推定分布とする。
【0128】
上記クラスター凝集度とクラスター特異度を使った説明変量“色”についてのクラスター分離度の評価は、以下のようにして評価手段8によって計算される。
【0129】
“色=白”のクラスター{0001,0002,0005}のルート別販売シェアの推定分布モデルは、上述したように本実施形態では各サンプルの平均値としているので、ルート別に各サンプル0001,0002,0005のシェア値の平均を求める。これにより、ルートA,B,Cの販売シェアの推定分布q=(0.4, 0.36, 0.23)となる。
【0130】
一方、サンプル0001,0002,0005のルートA,B,Cにおける実際のシェア分布が各サンプルの真の分布となる。
【0131】
したがって、“色=白”のクラスターのクラスター凝集度、クラスター特異度、クラスター分離度は、以下のように計算される。
クラスター凝集度={(0.4log0.4/0.3+0.4log0.4/0.36+0.2log0.2/0.23)
+(0.4log0.4/0.4+0.3log0.3/0.36+0.3log0.3/0.23)
+(0.4log0.4/0.4+0.4log0.4/0.36+0.2log0.2/0.23)}/3
=0.0077
クラスター特異度={0.55log0.55/0.4+0.25log0.25/0.36+0.2log0.2/0.23}/1
=0.0486
クラスター分離度=クラスター特異度/クラスター凝集度
=0.0486/0.0077
=6.2965
“色=赤”のクラスター{0003,0004}のクラスター凝集度、クラスター特異度、クラスター分離度も同様に計算され、以下のようになる。
クラスター凝集度=0.0766
クラスター特異度=0.0491
クラスター分離度=クラスター特異度/クラスター凝集度
=0.6397
“色”という変量全体に対するクラスター分離度の評価は、上記“色=白”と“色=赤”のクラスター分離度の重み付き平均値をとり、
6.2965*(3/5)+0.6397*(2/5)=3.4681となる。
【0132】
本実施形態の説明では、説明変量として“色”のほかに、“アイテム”と“デザイン”をも選択しているので、説明変量“アイテム”と“デザイン”についても同様にしてクラスター分離度の評価を行う。
“アイテム”による分類のクラスター分離度=0.9512
“デザイン”による分類のクラスター分離度=2.3028
上記評価手段8によるクラスター分離度の評価の結果は、クラスター分類手段9に渡される。
【0133】
クラスター分類手段9は、評価手段8による評価結果を入力し、評価条件設定手段12に設定されている評価条件を参照し、最適なクラスター分類を決定し、クラスター分類の継続停止条件が設定されている場合には、クラスター分類の継続と停止を判断する。クラスター分類の継続停止条件が設定されていない場合には、クラスター分類手段9はユーザーにクラスター分類の継続と停止を判断させる。
【0134】
図3の例では、“色”、“アイテム”、“デザイン”の各属性によるクラスター分離度は、以下のようになった。
【0135】
“色” による分類のクラスター分離度=3.4681
“アイテム”による分類のクラスター分離度=0.9512
“デザイン”による分類のクラスター分離度=2.3028
したがって、この場合はクラスター分類手段9は、“色”によるクラスター分類を採用する。
【0136】
なお、クラスター分類の継続または停止の条件は、クラスター分類の繰返し処理を継続する利益があるか否かを基準に判断するものであれば種々のものが考えられる。たとえば、クラスター分類によるクラスター分離度の改善が鈍化した場合に、クラスター分離度の値の傾斜が所定値より小さくなるので、それ以上のクラスター分類を停止するようしてもよい。また、一クラスターに属するサンプル数が所定数以下になった場合には、クラスターの集団特性を論じる一般性が失われるので、それ以上のクラスター分類を停止するようにしてもよい。あるいは、処理の効率を考慮し、所定の階層数のクラスター分類を行ったら、それ以上のクラスター分類を停止するようにしてもよい。
【0137】
クラスター分類手段9は、クラスター分類の継続を決定した場合は、その回の処理で得られた最適なクラスター分類と、クラスター分類を継続する旨の信号を出力する。このクラスター分類を継続する旨の信号は、後に樹形図編集手段11の処理後に変量一覧出力手段5の処理に戻す命令となる。
【0138】
一方、クラスター分類手段9がクラスター分類の停止を決定した場合は、その段階で最適なクラスター分類を特定し、クラスター分類を中止する旨の信号を出力する。このクラスター分類を中止する旨の信号は、後に樹形図編集手段11の処理後にクラスター分析の処理を終了する命令となる。
【0139】
図3の例では、“色”によるクラスター分類ではクラスター分類の繰返し処理を継続するものとする。
【0140】
クラスター分類手段9の処理が終了すると、次に、樹形図生成手段10の処理が開始される。
【0141】
樹形図生成手段10は、クラスター分類手段9によって決定されたクラスター分類を入力し、当該クラスター分類に基づく樹形図と、各クラスター分類に係る説明変量の属性とを表示する。
【0142】
図3の例におけるクラスター分析によって得られるクラスター分類樹形図を図4に示す。なお、図4の樹形図は、すべてのクラスター分類を完了した姿を示しているが、説明変量“色”でクラスター分類しただけであれば、クラスター分類樹形図は、最初の階層、すなわち“色=白”と“色=赤”のクラスターのみ生成される。
【0143】
樹形図生成手段10は、図4に示すように、好ましくは各クラスター分類の分岐において、そのクラスター分類に係る説明変数の属性を表示するようにする。図4の各分岐枝に表示された“色=白”、“色=赤”、“デザイン=奇抜”、“デザイン=定番”がクラスター分類に係る説明変数の属性である。
【0144】
樹形図生成手段10によってクラスター分類樹形図が生成されることにより、ユーザーは現在のクラスター分類の状態を視覚的に把握できる。
【0145】
次に、樹形図編集手段11は、ユーザーに樹形図生成手段10によって生成されたクラスター分類樹形図に対して表示装置画面上でクラスター分類の追加、変更、削除の編集をさせる。
【0146】
クラスター分類の追加、変更、削除は、所定のクラスターを指定してその下位にさらに分類すべきクラスターの説明変量を指定したり、複数のクラスターを統合したり、あるいは、所定のクラスター分類の枝を削除するなど、画面上でユーザーが処理命令入力装置を用いて行う。樹形図編集手段11は、画面上のユーザーの編集作業を支援する種々のツールを提供するとともに、ユーザーによるクラスター分類の編集の意味を読み取り、それに応じて各クラスターのデータファイルを自動修正する。
【0147】
また、好ましくは樹形図編集手段11は、クラスター分類手段9によるクラスター分類の継続停止の判断を提示し、ユーザーに最終判断を入力させる。
【0148】
この結果、クラスター分類の繰返し処理を継続する場合には、処理は変量一覧出力手段5に戻され、上述した変量一覧出力手段5から樹形図編集手段11までの処理が繰り返される。
【0149】
一方、クラスター分類の繰返し処理を中止する場合には、樹形図編集手段11から最終的分類によるクラスター分類樹形図等が出力される。
【0150】
なお、図4のクラスター分類樹形図は、第一回目のクラスター分類では説明変量“色”によってクラスター分類が行われ、第二回目のクラスター分類では“色=白”のクラスターについて説明変量“デザイン”によってクラスター分類が行われ、そこでクラスター分類の繰返し処理が停止されている、状態を示している。
【0151】
図4に示したクラスター分類樹形図によれば、サンプルデータの母集合{0001, … ,0005} が最終的には、3つのクラスター{0002}, {0001,0005},
{0003,0004}に分類されている。このクラスター分類から以下の重要な情報を得ることができる。
【0152】
第一のクラスター{0002}の商品は、ルートA,B,Cの販売シェアがそれぞれ0.4, 0.3, 0.3であり、この販売シェア分布の商品は“色=白”かつ“デザイン=奇抜”の商品であることがわかる。
【0153】
また、第二のクラスター{0001,0005}の商品は、ルートA,B,Cの販売シェアがそれぞれ0.4, 0.4, 0.2に極めて近い商品であり、それらはすべて“色=白”かつ“デザイン=奇抜”の商品であることがわかる。
【0154】
第三のクラスター{0003,0004}の商品は、ルートA,B,Cの販売シェアがそれぞれ0.55, 0.25, 0.2に極めて近い商品であり、それらは “色=赤”の商品であることがわかる。
【0155】
このように、本実施形態のクラスター分析装置1によれば、分類の目的とする変量の観測データが互いに類似しているサンプルを同一クラスターに分類し、同時に、各クラスターに属するサンプルが如何なる共通の属性を有しているか、すなわち各クラスターが如何なる集団特性を有しているかを明らかにすることができる。
【0156】
これにより、たとえばある商品の色、デザインが明らかであれば、その商品のルートA,B,Cにおける販売シェアをかなりの確率で予測することができるのである。
【0157】
また、本実施形態のクラスター分析装置1によれば、クラスター分類の途中でユーザーが樹形図編集手段11によりクラスター分類樹形図を編集することもできるので、人間の思考に沿って好ましい説明変数の属性によってた分類を行うことができるので、最終的に分類されたクラスターについて自然な理由による要因分析をすることができる。
【0158】
なお、上記分析された要因は、クラスターを分類する際のルールでもあるので、本明細書において「分類ルール」というものと同義である。
【0159】
以上が本実施形態によるクラスター分析装置1の処理の流れである。
なお、上記説明では、分類されたクラスターの分離度評価においてKL情報量を使用したが、クラスター分離度の評価は被説明変量の観測データの推定分布に対する各サンプルの真の分布の近さを評価できるものであれば任意のものとするができる。この評価基準または評価式は、分析者が独自に定めることができるし、従来の“距離”の概念を使用することもできる。
【0160】
【発明の効果】
上記説明から明らかなように、本発明による「分類ルール探求式クラスター分析装置」によれば、あるサンプルの母集合から類似するサンプルを抽出するときに、抽出されるサンプルの類似性の説明となる変量の属性によってサンプル分類をしている。
【0161】
これにより、分類されたクラスター(サンプルの集合)は、互いに類似する集団であるとともに、共通の他の属性を有している。
【0162】
これにより、分類されたクラスターの集団特性は、明確な形で直ちに把握でき、従来のクラスター分類と異なり、分類されたクラスターの要因分析が困難で集団特性が不明であることがない。
【0163】
また、本発明による樹形図編集手段を有するクラスター分析装置では、クラスター分析の処理の途中で、人間の判断により、クラスターの追加、変更、削除をすることができる。これにより、人間の経験に基づく思考に沿った自然なクラスター分類を行うことができ、従来のクラスター分類のように人間の考察あるいは論理的な推論と一致しないクラスター分類をすることがない。
【図面の簡単な説明】
【図1】本発明によるクラスター分析装置へのコンピュータの適用とその処理の目的を説明した図。
【図2】本発明の一実施形態によるクラスター分析装置の構成とその処理の流れを示したブロック図。
【図3】本発明の一実施形態によるクラスター分析装置の処理を説明するために用いるサンプルデータを表形式で示した図。
【図4】本発明の一実施形態によるクラスター分析装置の処理によって出力されるクラスター分類樹形図。
【図5】サンプル間の距離の計算で使用される要素を示した図。
【図6】距離行列を示した図。
【図7】クラスターの分類系統を示したクラスター分類樹形図。
【符号の説明】
1 クラスター分析装置
2 外部データベース検索入力手段
3 サンプルデータ記憶手段
4 ヒストグラム分析手段
5 変量一覧出力手段
6 変量選択手段
7 評価用サンプルデータファイル生成手段
8 評価手段
9 クラスター分類手段
10 樹形図生成手段
11 樹形図編集手段
12 評価条件設定手段

Claims (6)

  1. 多変量を有するサンプルの観測データを記憶するサンプルデータ記憶手段と、
    クラスター分類の繰返し処理の継続と停止の条件、あるいは評価式を含む評価条件を設定した評価条件設定手段と、
    前記サンプルデータ記憶手段に記憶されたサンプルデータの変量の一覧を出力する変量一覧出力手段と、
    前記変量一覧出力手段が出力したサンプルの変量についてユーザーに少なくとも一つの説明変量と少なくとも一つの被説明変量とを選択させる変量選択手段と、
    ユーザーが前記変量選択手段によって所定の説明変量と被説明変量とを選択すると、前記各説明変量各属性によって前記サンプルデータを評価用のクラスター仮分類し、それぞれの評価用クラスターの評価用サンプルデータファイルを生成する評価用サンプルファイル生成手段と、
    前記評価用サンプルデータファイル生成手段が生成した評価用サンプルデータファイルを入力し、前記被説明変量の観測データについて各評価用クラスターのクラスター分離度と各説明変量の説明変量としてのクラスター分離度を評価する評価手段と、
    前記評価手段の評価結果と、前記評価条件設定手段の評価条件とに基づき、最適なクラスター分類を決定し、クラスター分類の継続と停止を判断しあるいはユーザーに判断させるクラスター分類手段と、を有し、
    前記サンプルデータ記憶手段に多変量を有するサンプルの観測データを記憶し、前記変量一覧出力手段により前記サンプルデータの変量の一覧を出力し、前記変量選択手段によりユーザーに前記サンプルデータの変量から少なくとも一つの説明変量と少なくとも一つの被説明変量を選択させ、次に、前記評価用サンプルファイル生成手段によりユーザーが選択した各説明変量の各属性について、該属性を有するサンプルデータを有する評価用クラスターとそれ以外の属性を有するサンプルデータを有する評価用クラスターに仮分類し、各評価用クラスターの評価用サンプルデータファイルを生成し、次に、前記評価手段により前記評価用サンプルデータファイルを入力し、前記評価条件設定手段で設定した評価式に基づいて前記各評価用サンプルデータファイルの前記被説明変量の観測データに対するクラスター分離度を評価し、各説明変量の各属性について算出したクラスター分離度から各説明変量の説明変量としてのクラスター分離度を算出し、説明変量としてのクラスター分離度がもっとも高い説明変量を採用してその属性によってサンプルデータをクラスター分類し、前記評価条件設定手段が設定した評価条件により、残りの説明変量についてさらに評価用クラスターの分類とその評価とクラスター分類を行うか、それともそれ以上のクラスター分類を停止するかを決定する、ことを特徴とする分類ルール探求式クラスター分析装置。
  2. 前記サンプルデータ記憶手段から、連続的な値をとる変量の観測データを入力し、それらの観測データを最適に区分して各区分が前記変量の属性となるようなヒストグラム分析を行い、ヒストグラム分析によるそれらの変量の属性を前記変量一覧出力手段に出力するヒストグラム分析手段を有していることを特徴とする請求項1に記載のクラスター分析装置。
  3. 前記クラスター分類手段によって決定されたクラスター分類を入力し、当該クラスター分類に基づく樹形図と、各クラスター分類に係る説明変量の属性とを表示する樹形図生成手段を有していることを特徴とする請求項1または2に記載のクラスター分析装置。
  4. 前記樹形図生成手段によって生成されたクラスターの樹形図に対して表示装置の画面上でクラスター分類の追加、変更、削除の編集処理を行う樹形図編集手段を有していることを特徴とする請求項3に記載のクラスター分析装置。
  5. 前記変量選択手段は、前記変量一覧出力手段によって表示された説明変量のうち任意の説明変量をユーザーに選択させるように構成されていることを特徴とする請求項1ないし4のいずれかに記載のクラスター分析装置。
  6. 外部のデータベースにアクセスし、クラスター分類を行おうとするサンプルに関連するデータを検索して入力する外部データベース検索入力手段を有していることを特徴とする請求項1ないし5のいずれかに記載のクラスター分析装置。
JP30109698A 1998-10-22 1998-10-22 分類ルール探求式クラスター分析装置 Expired - Fee Related JP4194697B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP30109698A JP4194697B2 (ja) 1998-10-22 1998-10-22 分類ルール探求式クラスター分析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP30109698A JP4194697B2 (ja) 1998-10-22 1998-10-22 分類ルール探求式クラスター分析装置

Publications (2)

Publication Number Publication Date
JP2000132558A JP2000132558A (ja) 2000-05-12
JP4194697B2 true JP4194697B2 (ja) 2008-12-10

Family

ID=17892815

Family Applications (1)

Application Number Title Priority Date Filing Date
JP30109698A Expired - Fee Related JP4194697B2 (ja) 1998-10-22 1998-10-22 分類ルール探求式クラスター分析装置

Country Status (1)

Country Link
JP (1) JP4194697B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6591405B1 (en) * 2000-11-28 2003-07-08 Timbre Technologies, Inc. Clustering for data compression
JP4682339B2 (ja) * 2001-05-30 2011-05-11 株式会社日立ソリューションズ データ分類装置およびデータ分類方法
JP4715389B2 (ja) * 2005-08-24 2011-07-06 日本電信電話株式会社 パターン認識方法及び装置及びプログラム
JP5159368B2 (ja) 2008-02-29 2013-03-06 インターナショナル・ビジネス・マシーンズ・コーポレーション 変化分析システム、方法及びプログラム
US20100070339A1 (en) * 2008-09-15 2010-03-18 Google Inc. Associating an Entity with a Category
JP5015978B2 (ja) * 2009-03-09 2012-09-05 株式会社電通 情報提供装置及び情報提供方法並びに情報提供装置用プログラム
WO2011092830A1 (ja) 2010-01-28 2011-08-04 日立建機株式会社 作業機械の監視診断装置
JP6409375B2 (ja) * 2014-07-09 2018-10-24 株式会社Ihi パラメータ分類装置
JP7392411B2 (ja) * 2018-11-16 2023-12-06 ソニーグループ株式会社 情報処理装置、情報処理方法及びプログラム

Also Published As

Publication number Publication date
JP2000132558A (ja) 2000-05-12

Similar Documents

Publication Publication Date Title
US6654744B2 (en) Method and apparatus for categorizing information, and a computer product
JP4116329B2 (ja) 文書情報表示システム、文書情報表示方法及び文書検索方法
JP2009251850A (ja) 類似画像検索を用いた商品推薦システム
JPH0877010A (ja) データ分析方法および装置
JP2017045434A (ja) データ分析システム、データ分析方法、プログラム、および、記録媒体
Elovici et al. A decision-theoretic approach to data mining
JP2003085194A (ja) プロセス分析方法及び情報システム
JP4194697B2 (ja) 分類ルール探求式クラスター分析装置
US6563952B1 (en) Method and apparatus for classification of high dimensional data
WO2019200739A1 (zh) 数据欺诈识别方法、装置、计算机设备和存储介质
Wilkinson Classification and regression trees
JP5391637B2 (ja) データ類似度計算システム、データ類似度計算方法およびデータ類似度計算プログラム
CN110443290A (zh) 一种基于大数据的产品竞争关系量化生成方法及装置
CN112598405B (zh) 一种基于大数据的商业项目数据管理方法及系统
US7882127B2 (en) Multi-category support for apply output
US7272583B2 (en) Using supervised classifiers with unsupervised data
Liu The evaluation of classification models for credit scoring
JP4234841B2 (ja) データ分析装置
JP2004220236A (ja) データ分析方法、装置、プログラム及び該プログラムを記録した記録媒体
Patel et al. Plant disease detection using image processing and machine learning
Budiyanto et al. The Prediction of Best-Selling Product Using Naïve Bayes Algorithm (A Case Study at PT Putradabo Perkasa)
Wang et al. Stacking based LightGBM-CatBoost-RandomForest algorithm and its application in big data modeling
JP2003141129A (ja) 文書分類装置、文書分類方法、その方法をコンピュータに実行させるプログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体
Patil et al. Efficient processing of decision tree using ID3 & improved C4. 5 algorithm
KR20070058936A (ko) 시간 가중치 엔트로피를 이용한 결정 트리 생성 방법 및이를 기록한 기록매체

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080523

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080722

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080829

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080924

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111003

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111003

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121003

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121003

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131003

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees