JP2005258763A

JP2005258763A - 多変量データクラスタリング装置及びクラスタリングプログラム

Info

Publication number: JP2005258763A
Application number: JP2004068838A
Authority: JP
Inventors: 修平 ▲桑▼田; Shuhei Kuwata; Masatoshi Nishimura; 正寿西村; Masami Hara; 正巳原; Tsutomu Matsunaga; 務松永
Original assignee: NTT Data Corp
Current assignee: NTT Data Group Corp
Priority date: 2004-03-11
Filing date: 2004-03-11
Publication date: 2005-09-22

Abstract

【課題】クラスタそれぞれが持つ意味を抽出可能とする多変量データクラスタリング装置を提供する。
【解決手段】クラスタに含まれるサンプル群から生成される部分空間同士の正準角を求め、この正準角が大きくなるように各クラスタを再構成するクラスタリング手段と、クラスタに含まれるサンプル群から生成される部分空間と、元の空間の基底ベクトルとの類似度を計算することにより、各クラスタの属性を抽出する意味抽出手段とを備える。
【選択図】図１

Description

本発明は、多変量データのクラスタリングを行う装置及びプログラムに関する。

従来から多変量データのクラスタリングを行うものとして、Ｋ平均法が知られている。Ｋ平均法は、あらかじめいくつのクラスタに分類するかを決めておき、各データは無作為にクラスタの１つに割り当てられ、全データが割り当てられると、各クラスタの重心を算出する。そして、あるデータが現在割り当てられているクラスタの重心よりも、他のクラスタの重心に近い場合は、より近いクラスタヘ再度割り当て、全データが最も近いクラスタヘ割り当てられたあと、各クラスタの重心を再度算出する。各クラスタの重心が変化しなくなるまで繰り返すと、クラスタリングが終了するという手法である（例えば、特許文献１や非特許文献１参照）。
特開平０７−２３９８３４号公報 Richard O.Duda, Peter E.Hart, David G.Stork著 ; 尾上守夫監訳版第２刷「パターン識別」新技術コミュニケーションズ，２００３年２月

ところで、データマイニングの１つの目的として、「データから発見されたパターンを人間が解釈して、何らかの目的に使用する」ということがある。この場合、人間が解釈しやすい分析結果を提供することが重要となる。
しかしながら、Ｋ平均法などの既存のクラスタリング手法では、その分析結果から、それぞれのクラスタがどのような意味（視点、観点）で構成されているのかを知ることができないという問題がある。したがって、クラスタリング結果のみを判断材料として、利用者によって、クラスタそれぞれの持つ意味を判断しなければならず、利用者の主観が入る危険性がある。また、大規模なデータに対してクラスタリングを行った場合、各クラスタの意味を判断することは非常に困難である。

本発明は、このような事情に鑑みてなされたもので、クラスタリングを行った際の視点、観点等のクラスタそれぞれが持つ意味を抽出可能とする多変量データクラスタリング装置及びクラスタリングプログラムを提供することを目的とする。

請求項１に記載の発明は、クラスタに含まれるサンプル群から生成される部分空間同士の正準角を求め、該正準角が大きくなるように各クラスタを再構成するクラスタリング手段と、クラスタに含まれるサンプル群から生成される部分空間と、元の空間の基底ベクトルとの類似度を計算することにより、各クラスタの属性を抽出する意味抽出手段とを備えたことを特徴とする。

請求項２に記載の発明は、クラスタリング対象のデータをランダムに分けることにより得られるｎ（ｎは２以上の自然数）個のクラスタ毎に部分空間を求め、ｎ個の部分空間同士の正準角を算出する前処理手段と、前記クラスタに含まれるデータを入れ換えながら、再度クラスタ毎に部分空間を求め、ｎ個の部分空間同士の正準角を算出し、得られた正準角が所定の条件を満たした場合のクラスタ構成をクラスタリングの解とする探索手段と、クラスタリングの解が得られた各クラスタ毎の部分空間を求め、該部分空間と前記データを表現する属性を基底ベクトルとする空間の基底ベクトルとの正準角を求め、この正準角が大きい属性を抽出する意味抽出手段とを備えたことを特徴とする。

請求項３に記載の発明は、クラスタに含まれるサンプル群から生成される部分空間同士の正準角を求め、該正準角が大きくなるように各クラスタを再構成するクラスタリング処理と、クラスタに含まれるサンプル群から生成される部分空間と、元の空間の基底ベクトルとの類似度を計算することにより、各クラスタの属性を抽出する意味抽出処理とをコンピュータに行わせることを特徴とする。

請求項４に記載の発明は、クラスタリング対象のデータをランダムに分けることにより得られるｎ（ｎは２以上の自然数）個のクラスタ毎に部分空間を求め、ｎ個の部分空間同士の正準角を算出する前処理と、前記クラスタに含まれるデータを入れ換えながら、再度クラスタ毎に部分空間を求め、ｎ個の部分空間同士の正準角を算出し、得られた正準角が所定の条件を満たした場合のクラスタ構成をクラスタリングの解とする探索処理と、クラスタリングの解が得られた各クラスタ毎の部分空間を求め、該部分空間と前記データを表現する属性を基底ベクトルとする空間の基底ベクトルとの正準角を求め、この正準角が大きい属性を抽出する意味抽出処理とをコンピュータに行わせることを特徴とする。

本発明によれば、抽出したクラスタの意味を通して、クラスタリングの有効性を判断することができるため、作業の効率化、有効性の判断にかかる時間、人的資源の削減を実現することができる。また、人間が今まで気付かなかった新たな視点を得ることができ、新たな価値創造、知識発見につながる。
また、クラスタの意味を見て、クラスタの構成に強く影響している属性を取り除くことなどが可能となるため、明確な意図を持って次の行動を起こすことができ、作業効率を向上させることが可能となる。
また、対象のサンプルを入れ換えるなどして複数のクラスタリング結果が得られた場合、様々な視点を得ることが可能となり、幅広い意志決定支援サービスを提供することができる。

以下、本発明の一実施形態による多変量データクラスタリング装置を図面を参照して説明する。図１は同実施形態の構成を示すブロック図である。この図において、符号１は、クラスタリング対象のデータを入力するデータ入力部である。符号２は、データ入力部１から入力したクラスタリング対象データを記憶するデータ記憶部である。符号３は、データ記憶部２に記憶されているデータのクラスタリングを行うクラスタリング処理部であり、初期解の評価点を算出する前処理部４と、ｎ個（ｎは２以上の自然数）のクラスタに分ける探索部５とからなる。符号６は、クラスタリング処理部３によってクラスタリングされたデータを記憶するクラスタ記憶部である。符号７は、クラスタ記憶部６に記憶されているｎ個のクラスタそれぞれの意味を抽出する意味抽出部である。

ここで、データ入力部１が、外部からデータを入力し、データ記憶部２へ記憶するクラスタリング対象のデータについて説明する。このクラスタリング対象のデータには、それぞれに対して、複数の属性が付与されている。例えば、図７に示す動物データ（参考文献；徳高、藤村、山川著「自己組織化マップの応用−多次元情報の２次元可視化」海文堂出版、２００２年）の場合、１６件のデータ（ハト、メンドリ、アヒル、…、ウシ）に対して、１６個の属性データ（小さい、中ぐらい、大きい、…、草食性）が付与されている。ここでは、データ記憶部２には、図７に示す動物データが記憶されているものとして説明する。

本発明によるクラスタリング手法は、クラスタ間の距離を、各クラスタに含まれるサンプル群から生成される正準角と呼ばれる部分空間のなす角を用いて定義し、部分空間のなす角度が最も大きくなる（つまり、各クラスタ間の類似度が小さくなる）ようなサンプルの組合せを求め、クラスタリング終了後に、各クラスタから生成される部分空間と、元の空間の基底ベクトルとの関連（類似度）を把握することにより、クラスタの意味（どのような属性によってクラスタが構成されているか）を抽出するものである。

次に、図２〜図４を参照して、図１に示す装置の動作を説明する。初めに図２を参照して、図１に示す前処理部４の動作を説明する。まず、前処理部４は、データ記憶部２に記憶されている１６件のデータを読み出して、ｎ個のクラスタをランダムに生成し、得られたクラスタ構成を初期解とし、クラスタ記憶部６へ記憶する（ステップＳ１）。続いて、前処理部４は、ｎ個のクラスタに含まれるサンプルを用いて部分空間を求める（ステップＳ２）。これにより、各クラスタを特徴付ける部分空間（基底ベクトル）がｎ個得られることになる。

次に、前処理部４は、クラスタ毎に求めた部分空間（基底ベクトル）を用いて、クラスタ間の類似度を、_ｎＣ_２個求め（ステップＳ３）、得られた_ｎＣ_２個の類似度を用いて、初期解の評価点を算出する（ステップＳ４）。この評価点は、部分空間同士のなす角度（「正準角」と呼ぶ）を算出することによる。そして、後の処理において用いる、解の更新条件を設定する（ステップＳ５）。

ここで用いるクラスタリング手法は、クラスタ構成の評価点が最も高くなるようなクラスタ構成を探索的に求める。ここで、「クラスタ構成の評価点が最も高くなる」とは、「クラスタ同士の特徴が最も離れる」→「クラスタ同士の類似度が最も離れる」→「クラスタ毎に得られる部分空間同士の類似度が最も離れる」ことであり、部分空間同士の類似度を、部分空間同士のなす角度（「正準角」）で算出する（図５参照）。すなわち、クラスタ数を２とした場合、クラスタ毎に得られる部分空間同士の正準角が９０度になるとき、「クラスタ構成の評価点が最も高くなる」ことを意味する。

次に、図３を参照して、探索部５の動作を説明する。まず、探索部５は、現在保持している解（一番最初は初期解を指す）をもとにクラスタの構成を変え、これを新たな解の候補とする（ステップＳ１１）。ここでは、得られたクラスタ構成を解候補と呼ぶことにする。続いて、探索部５は、新たなクラスタ構成において、各クラスタに含まれるサンプルを用いて部分空間を求める（ステップＳ１２）。これにより、各クラスタを特徴付ける部分空間（基底ベクトル）がｎ個得られる。そして、探索部５は、クラスタ毎に求めた部分空間（基底ベクトル）を用いて、クラスタ間の類似度を、_ｎＣ_２個求める（ステップＳ１３）。次に、探索部５は、得られた_ｎＣ_２個の類似度を用いて、解候補の評価点を算出する（ステップＳ１４）。そして、探索部５は、この解候補の評価点をもとに、解の更新条件を満たした場合のみ、解候補を新たな解として保持する（ステップＳ１５）。そして、ステップＳ１１〜Ｓ１５をある解の更新条件のもとで、十分な回数繰り返す。続いて、解の更新条件を変更し（ステップＳ１６）、再度ステップＳ１１〜Ｓ１６を十分な回数繰り返す。

前述した探索手法によって、評価点が最も高くなるようなクラスタ構成を求めているが、最適解が得られたかどうかは、理論的に判断できない。すなわち、いつ最適解が求まるか判断できない。そこで、十分な回数繰り返すことで、解の更新が十分行われたと判断し、最適解（クラスタ構成）が得られたとみなす。

ここで、解の更新条件について説明する。ステップＳ１４において求めた評価点が、現在保持している解の評価点と比べた場合、「解候補の評価点＞＝現在の解の評価点」か、「解候補の評価点＜現在の解の評価点」の２つのどちらかになる。ここで、「解候補の評価点＞＝現在の解の評価点」の場合には、解候補を新たな解とし、「解候補の評価点＜現在の解の評価点」である場合には、ｅｘｐ（−（現在の評価点−解候補の評価点）／Ｔ）の確率で解候補を新たな解とする。

解候補が現在の解よりも悪くなっている場合であっても、新たな解として更新することで（理論的には）大域的な最適解が得られる。ここで、Ｔは新たな解として認める確率を調節するパラメータであり、Ｓ１６の解の更新条件を変更することは、このＴの値を変化させる（小さくする）ことである。Ｔの初期値については、初期状態において適切に設定しておく。このような探索方法は、シミュレーテッド・アニーリング法（焼きなまし法）として知られており、ここでは、評価点が最も高くなるクラスタ構成を探索する際の１つの探索手法として使用している。

この動作によって、クラスタ記憶部６には、ｎ個のクラスタに分けられたデータが記憶されることとなり、クラスタリングが終了したことになる。

次に、図４を参照して、各クラスタの意味を抽出する動作を説明する。まず、意味抽出部７は、各クラスタに含まれるサンプルを用いて部分空間を求める（ステップＳ２１）。これにより、各クラスタを特徴付ける部分空間（基底ベクトル）がｎ個得られることになる。続いて、意味抽出部７は、得られた部分空間と、原空間（データを表現する属性を基底ベクトルとする空間）の基底ベクトルとの関連度を求める（ステップＳ２２）。得られた部分空間は、そのクラスタの特徴を表しており、原空間の基底ベクトル、すなわちデータを表現する属性と、部分空間との関連度を見ることにより、そのクラスタがどの属性に影響を受けているかが分かる。ここでは、クラスタ（部分空間）と属性（原空間の基底ベクトル）との関連度を、正準角によって算出する（図６参照）。

次に、意味抽出部７は、関連度の高い基底ベクトルを数個抽出する（ステップＳ２３）。ステップＳ２１によって、ある１つのクラスタにつき、複数の関連度が得られる。ここで、関連度が大きいほど、対応する属性がそのクラスタに影響を与えていると考え、関連度の大きい順に、対応する属性を数個抽出する。そして、抽出された属性を、そのクラスタを構成するサンプル群に共通する特徴とし、クラスタの意味とする。

このように、クラスタ間の距離を、各クラスタに含まれるサンプル群から生成される正準角と呼ばれる部分空間のなす角を用いて定義し、部分空間のなす角度が最も大きくなるようなサンプルの組合せを求め、クラスタリング終了後に、各クラスタから生成される部分空間と、元の空間の基底ベクトルとの関連を把握することにより、クラスタの意味を抽出するようにしたため、抽出したクラスタの意味を通して、クラスタリングの有効性を判断することができる。

次に、サンプルデータを用いた検証実験の結果について説明する。
＜実験の概要＞
前述した手法の有効性を、サンプルデータを用いて検証するために、クラスタ数は２とし、サンプルデータとして、図７に示す動物データ（サンプルの数１６、属性の数１６）を用いた。この動物データは、（１）鳥類と哺乳類、（２）草食と肉食に分けられることが予め分かっている。
初期解は、サンプルＮｏ．が偶数番と奇数番で２つのクラスタに分け、シミュレーテッド・アニーリングを行うのに必要な、温度などパラメータの値は、既存の手法を用いて設定し、繰り返し数は実験的に求めた。

＜実験１＞
本発明による手法を用いて、クラスタリングと意味抽出を行った結果を図８に示す。
この実験の結果、クラスタ１は、「羽根を持つ」、「２本足を持つ」、「小さい」、「飛ぶことを好む」という属性を抽出することができた。
また、クラスタ２は、「毛を持つ」、「４本足を持つ」、「走ることを好む」、「大きい」という属性を抽出することができた。
このクラスタリングにより、鳥類と哺乳類に分類できることが検証できた。

＜実験２＞
実験１によって抽出された属性、すなわちクラスタ１とクラスタ２において正準角の余弦の差が大きい属性を取り除いて（図９参照）、再度クラスタリングと意味抽出を行った結果を図１０に示す。
この実験の結果、クラスタ１は、「草食性」、「ひづめを持つ」という属性を抽出することができ、また、クラスタ２は、「狩猟を好む」、「夜行性」という属性を抽出することができた。
このように、クラスタリングに強い影響を与えている属性を取り除くことで新たなクラスタリング結果（草食類よ肉食類）得ることできることを検証できた。

以上のように、部分空間を用いることによってクラスタの意味（視点、観点）が抽出可能なクラスタリング手法を使用した実験の結果、この手法の有効性を確認することができた。また、扱う属性によって、異なるクラスタリング結果とクラスタの意味を抽出することができることを確認することができた。

なお、前述説明では、シミュレーテッド・アニーリングによって最適なクラスタを構成することを説明したが、１つの手段として便宜的に用いただけで、他の探索方法でもクラスタリング自体は実行可能である。また、クラスタに含まれるサンプルを、排他的、かつ、同数としたが、これらは必然ではなく、１つのサンプルが複数のクラスタに含まれる、どのクラスタにも含まれないサンプルがある、クラスタに含まれるサンプル数がクラスタごとに異なるようなクラスタリングも可能である。また、事前に設定するクラスタの数が「２」の場合でのみ実験を行ったが、「２」である必要はなく、クラスタの数は自由に設定可能である。

また、図１における処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによりクラスタリング処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。

本発明の一実施形態の構成を示すブロック図である。図１に示す装置の動作を示すフローチャートである。図１に示す装置の動作を示すフローチャートである。図１に示す装置の動作を示すフローチャートである。部分空間同士の類似度を、部分空間同士のなす角度（正準角）で算出する方法を示す説明図である。クラスタ（部分空間）と属性（原空間の基底ベクトル）との関連度を、正準角によって算出する方法を示す説明図である。サンプルデータを示す説明図である。実験結果を示す説明図である。実験結果を示す説明図である。実験結果を示す説明図である。

符号の説明

１・・・データ入力部、２・・・データ記憶部、３・・・クラスタリング処理部、４・・・前処理部、５・・・探索部、６・・・クラスタ記憶部、７・・・意味抽出部

Claims

クラスタに含まれるサンプル群から生成される部分空間同士の正準角を求め、該正準角が大きくなるように各クラスタを再構成するクラスタリング手段と、
クラスタに含まれるサンプル群から生成される部分空間と、元の空間の基底ベクトルとの類似度を計算することにより、各クラスタの属性を抽出する意味抽出手段と
を備えたことを特徴とする多変量データクラスタリング装置。
クラスタリング対象のデータをランダムに分けることにより得られるｎ（ｎは２以上の自然数）個のクラスタ毎に部分空間を求め、ｎ個の部分空間同士の正準角を算出する前処理手段と、
前記クラスタに含まれるデータを入れ換えながら、再度クラスタ毎に部分空間を求め、ｎ個の部分空間同士の正準角を算出し、得られた正準角が所定の条件を満たした場合のクラスタ構成をクラスタリングの解とする探索手段と、
クラスタリングの解が得られた各クラスタ毎の部分空間を求め、該部分空間と前記データを表現する属性を基底ベクトルとする空間の基底ベクトルとの正準角を求め、この正準角が大きい属性を抽出する意味抽出手段と
を備えたことを特徴とする多変量データクラスタリング装置。
クラスタに含まれるサンプル群から生成される部分空間同士の正準角を求め、該正準角が大きくなるように各クラスタを再構成するクラスタリング処理と、
クラスタに含まれるサンプル群から生成される部分空間と、元の空間の基底ベクトルとの類似度を計算することにより、各クラスタの属性を抽出する意味抽出処理と
をコンピュータに行わせることを特徴とする多変量データのクラスタリングプログラム。
クラスタリング対象のデータをランダムに分けることにより得られるｎ（ｎは２以上の自然数）個のクラスタ毎に部分空間を求め、ｎ個の部分空間同士の正準角を算出する前処理と、
前記クラスタに含まれるデータを入れ換えながら、再度クラスタ毎に部分空間を求め、ｎ個の部分空間同士の正準角を算出し、得られた正準角が所定の条件を満たした場合のクラスタ構成をクラスタリングの解とする探索処理と、
クラスタリングの解が得られた各クラスタ毎の部分空間を求め、該部分空間と前記データを表現する属性を基底ベクトルとする空間の基底ベクトルとの正準角を求め、この正準角が大きい属性を抽出する意味抽出処理と
をコンピュータに行わせることを特徴とする多変量データのクラスタリングプログラム。