JP4292293B2

JP4292293B2 - ｋ−ｍｅａｎｓ法を用いるクラスタ分析装置、クラスタ分析方法、クラスタ分析プログラム、及びそのプログラムを記録した記録媒体

Info

Publication number: JP4292293B2
Application number: JP2004026764A
Authority: JP
Inventors: 卓工藤; 隆久田口
Original assignee: National Institute of Advanced Industrial Science and Technology AIST
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2004-02-03
Filing date: 2004-02-03
Publication date: 2009-07-08
Anticipated expiration: 2024-02-03
Also published as: JP2005222138A

Description

本発明は、複数のデータをクラスタに分類するｋ−ｍｅａｎｓ法を用いるクラスタ分析装置、クラスタ分析方法、クラスタ分析プログラム、及びそのプログラムを記録した記録媒体に関する。

ｋ−ｍｅａｎｓ法は、比較的実行速度が速く、明確なクラスタを得ることが出来るクラスタ分析法として知られている。通常、ｋ−ｍｅａｎｓ法では、複数のデータを分類するクラスタの数、及び各クラスタ中心の初期位置を予め指定した後に処理が実行される。

一方、下記特許文献１には、ｋ−ｍｅａｎｓ法を使用し、花と葉の画像データから草花を自動的に認識する方法が開示されており、その中で、クラスタ中心の初期位置を自動的に決定し、これを用いてｋ−ｍｅａｎｓ法を実行することが開示されている。
特開２０００−２０３２４２号公報

従来のｋ−ｍｅａｎｓ法では、処理の前にクラスタ数及びクラスタ中心の初期位置を指定することが必要であり、従って、必ず人の仲介が必要であり、自動的実行が困難であった。

また、クラスタ数及びクラスタ中心の初期位置は主観で設定され、それによってクラスタ分析の結果が異なるという問題があった。例えば、図１５は、神経細胞の神経活動電位を測定した同じ波形データについて、異なるクラスタ数及び異なるクラスタ中心の初期位置を指定し、ｋ−ｍｅａｎｓ法でクラスタ分析した結果を示す。図１５では、所定の時間幅の神経活動電位波形を折れ線グラフで重畳して表示しており、同じクラスタに属する折れ線グラフを同じ輝度で表示している。このように、クラスタ数及びクラスタ中心の初期位置の設定によって、分析結果が大きく影響を受ける。

また、上記した特許文献１に開示された方法では、クラスタ中心の初期位置を自動的に計算することはできるが、解析空間を格子状に分割する分割数を予め指定しなければならず、分析結果が指定者の主観、経験に依存する問題がある。例えば、図１６には、同じデータに対して、異なる分割数を指定してクラスタ中心の初期位置を求めた結果を示す。（ａ）は縦軸及び横軸の分割数を共に１０に指定した場合、（ｂ）は縦軸及び横軸の分割数を共に２５に指定した場合の結果である。その結果、クラスタ中心の数が、（ａ）では１０個であるが、（ｂ）では２個と大きく異なる。このように、解析空間の分割数を予め指定してクラスタ中心の初期位置を自動生成する方法においては、分割数により結果が大きく異なる。

本発明の目的は、上記の課題を解決すべく、事前にクラスタ数や初期クラスタ中心位置を設定することなく、クラスタを構成するデータ数の下限値のみを初期条件として指定すれば、分析対象のデータから適切なクラスタ数及びクラスタ中心の初期位置を決定することができるｋ−ｍｅａｎｓ法を用いるクラスタ分析装置、クラスタ分析方法、クラスタ分析プログラム、及びそのプログラムを記録した記録媒体を提供することにある。

本発明の目的は、以下の手段によって達成される。

即ち、本発明に係るクラスタ分析装置（１）は、複数のパラメータを成分とする、複数の多次元ベクトルデータを、ｋ−ｍｅａｎｓ法を用いてクラスタ分析するクラスタ分析装置であって、複数の前記パラメータの中から１つのパラメータを特定パラメータとして選択し、該特定パラメータに対応する複数のデータを、値の大きさに応じて昇順若しくは降順に並べ替える並べ替え手段と、並び替えられた前記データについて、隣接するデータ間の差である要素間距離を計算する距離算出手段と、前記要素間距離から分割幅を決定する分割幅算出手段と、前記並べ替え手段による並べ替え、前記距離算出手段による前記要素間距離の計算、および前記分割幅算出手段による前記分割幅の決定が、異なる前記特定パラメータの全てについて実行された後、複数の前記パラメータの各々に対応する軸を有する解析空間を、前記分割幅を使用して該分割幅に対応する前記軸を等間隔に分割することによって、小格子空間に分割する空間分割手段と、前記小格子空間の中から最大個数の前記多次元ベクトルデータを含む最大小格子空間を検出し、該最大小格子空間及び該最大小格子空間の周囲の小格子空間を使用してクラスタ中心初期位置を計算する中心算出手段と、前記クラスタ中心初期位置を使用してｋ−ｍｅａｎｓ法によるクラスタ分析を実行する分析実行手段とを備え、前記分割幅算出手段が、並べ替えられた前記データの中から、前記要素間距離が所定の閾値よりも大きいデータを仮分節点データとして選択し、前記仮分節点データの中から、各々の前記仮分節点データと隣接する前記仮分節点データとの間に所定個数以上の前記データが存在する仮分節点データを分節点データとして選択し、隣接する前記分節点データの差の中の最小値を前記分割幅として決定し、前記中心算出手段が、前記最大小格子空間の検出において、既に検出された前記最大小格子空間から所定範囲内に含まれる前記小格子空間を除いた前記解析空間を検出の対象とし、前記最大小格子空間の検出及び前記クラスタ中心初期位置の計算を繰り返し実行することを特徴としている。

本発明に係るクラスタ分析装置（２）は、上記のクラスタ分析装置（１）において、前記閾値が、前記要素間距離の平均値及び標準偏差の和であることを特徴としている。

本発明に係るクラスタ分析装置（３）は、上記のクラスタ分析装置（１）又は（２）において、前記クラスタ中心初期位置が、前記小格子空間に含まれる前記データの個数を重みとし、前記小格子空間の代表ベクトルから計算される重心位置であることを特徴としている。

本発明に係るクラスタ分析方法（１）は、複数のパラメータを成分とする、複数の多次元ベクトルデータを、ｋ−ｍｅａｎｓ法を用いてクラスタ分析する方法であって、複数の前記パラメータの中から１つのパラメータを特定パラメータとして選択し、該特定パラメータに対応する複数のデータを、値の大きさに応じて昇順若しくは降順に並べ替える並べ替えステップと、並び替えられた前記データについて、隣接するデータとの差である要素間距離を計算する距離算出ステップと、並べ替えられた前記データの中から、前記要素間距離が所定の閾値よりも大きいデータを仮分節点データとして選択し、前記仮分節点データの中から、各々の前記仮分節点データと隣接する前記仮分節点データとの間に所定個数以上の前記データが存在する仮分節点データを分節点データとして選択し、隣接する前記分節点データの差の中の最小値を分割幅として決定する分割幅算出ステップと、前記並べ替えステップ、前記距離算出ステップ、および前記分割幅算出ステップが、異なる前記特定パラメータの全てについて実行されたされた後、複数の前記パラメータの各々に対応する軸を有する解析空間を、前記分割幅を使用して該分割幅に対応する前記軸を等間隔に分割することによって、小格子空間に分割する空間分割ステップと、前記小格子空間の中から最大個数の前記データを含む最大小格子空間を検出し、該最大小格子空間及び該最大小格子空間の周囲の小格子空間を使用してクラスタ中心初期位置を計算する中心算出ステップと、前記クラスタ中心初期位置を使用してｋ−ｍｅａｎｓ法によるクラスタ分析を実行する分析実行ステップとを含み、前記最大小格子空間の検出において、既に検出された前記最大小格子空間から所定範囲内に含まれる前記小格子空間を除いた前記解析空間を検出の対象とし、前記中心算出ステップを繰り返し実行することを特徴としている。

本発明に係るクラスタ分析方法（２）は、上記のクラスタ分析方法（１）において、前記閾値が、前記要素間距離の平均値及び標準偏差の和であることを特徴としている。

本発明に係るクラスタ分析方法（３）は、上記のクラスタ分析方法（１）又は（２）において、前記クラスタ中心初期位置が、前記小格子空間に含まれる前記データの個数を重みとし、前記小格子空間の代表ベクトルから計算される重心位置であることを特徴としている。

本発明に係るクラスタ分析プログラム（１）は、記録手段を備えたコンピュータに、複数のパラメータを成分とする、複数の多次元ベクトルデータを、ｋ−ｍｅａｎｓ法を用いてクラスタ分析させるプログラムであって、前記コンピュータに、複数の前記パラメータの中から選択された１つのパラメータである特定パラメータに対応する複数のデータを前記記録手段から読み出して、値の大きさに応じて昇順若しくは降順に並べ替える機能と、並び替えられた前記データについて、隣接するデータ間の差である要素間距離を計算する機能と、並べ替えられた前記データの中から、前記要素間距離が所定の閾値よりも大きいデータを仮分節点データとして選択し、前記仮分節点データの中から、各々の前記仮分節点データと隣接する前記仮分節点データとの間に所定個数以上の前記データが存在する仮分節点データを分節点データとして選択し、隣接する前記分節点データの差の中の最小値
を分割幅として決定する機能と、前記並べ替える機能、前記要素間距離を計算する機能、および前記分割幅を決定する機能が、異なる前記特定パラメータの全てについて実行されたされた後、複数の前記パラメータに対応する軸を有する解析空間を、前記分割幅を使用して該パラメータに対応する前記軸を等間隔に分割することによって、小格子空間に分割する機能と、前記小格子空間の中から最大個数の前記データを含む最大小格子空間を検出し、該最大小格子空間及び該最大小格子空間の周囲の小格子空間を使用してクラスタ中心初期位置を計算する機能と、前記クラスタ中心初期位置を使用してｋ−ｍｅａｎｓ法によるクラスタ分析を実行する機能とを実現させ、前記最大小格子空間の検出において、既に検出された前記最大小格子空間から所定範囲内に含まれる前記小格子空間を除いた前記解析空間を検出の対象とし、前記クラスタ中心初期位置の計算を繰り返し実行させることを特徴としている。

本発明に係るクラスタ分析プログラム（２）は、上記のクラスタ分析プログラム（１）において、前記閾値が、前記要素間距離の平均値及び標準偏差の和であることを特徴としている。

本発明に係るクラスタ分析プログラム（３）は、上記のクラスタ分析プログラム（１）又は（２）において、前記クラスタ中心初期位置が、前記小格子空間に含まれる前記データの個数を重みとし、前記小格子空間の代表ベクトルから計算される重心位置であることを特徴としている。

本発明に係るコンピュータ読み取り可能な記録媒体は、上記のクラスタ分析プログラム（１）〜（３）の何れかを記録していることを特徴としている。

本発明に係るｋ−ｍｅａｎｓ法を用いるクラスタ分析装置、クラスタ分析方法、クラスタ分析プログラム、及びそのプログラムを記録した記録媒体によれば、クラスタを構成するデータ数の下限値のみを指定すれば、クラスタ中心の初期位置の算出及びこれを用いたｋ−ｍｅａｎｓ法によるクラスタ分析を自動的に実行することができる。従って、クラスタ数、クラスタ中心の初期位置、解析空間の分割数を予め指定する必要がなく、クラスタ分析の結果がこれらの影響を受けることがない。

また、仮の分節点を選択する閾値として、要素間距離の平均値及び標準偏差の和を使用することによって、より適切な仮の分節点を決定することができ、従って、より適切な分節点、分割幅、及びクラスタ中心の初期位置を決定することができるので、ｋ−ｍｅａｎｓ法によるクラスタ分析を効率的に行うことができる。

また、クラスタ中心の初期位置の計算に使用する小格子空間に含まれるデータの個数を重みとし、小格子空間の代表ベクトルを使用して重心位置を計算することによって、小格子空間に含まれる各々のデータを使用して重心位置を計算する場合よりも高速にクラスタ
中心の初期位置を計算することができる。

以下、本発明に係る実施の形態を、添付した図面に基づいて説明する。

図１は、本発明の実施の形態に係るｋ−ｍｅａｎｓ法を用いるクラスタ分析装置の概略構成を示すブロック図である。本クラスタ分析装置は、複数の分析対象データの順序を並べ替える並べ替え部１と、並べ替えたデータの隣接するデータ値の差を計算する距離算出部２と、パラメータを軸としてデータをプロットした解析空間を複数の領域に分割する分割幅を計算する分割幅算出部３と、分割幅を使用して解析空間を小格子空間に分割する空間分割部４と、ｋ−ｍｅｎａｓ法で使用するクラスタ中心の初期位置を計算する中心算出部５と、決定されたクラスタ中心の初期位置を使用してｋ−ｍｅａｎｓ法によるクラスタ分析を実行する分析実行部６と、分析対象データを記録する記録部７とを備えている。

図２は、図１に示したクラスタ分析装置の動作を説明するフローチャートである。以下、図１を参照しながら、図２のフローチャートに従って本クラスタ分析装置の動作に関して説明する。ここで、図１に示した並べ替え部１、距離算出部２、分割幅算出部３、空間分割部４、及び中心算出部５は、内部メモリ（図示せず）を備えており、演算処理を行うためのワークエリア及び処理結果の一時記録手段として使用する。内部メモリに一時記録した処理結果のデータが次のブロックに伝送されることによって、次のブロックでの処理が実行される。また、これらのブロックは、必要に応じて記録部７から分析対象データを読み出して使用する。また、分析対象データＸ（ｉ）は、ｎ次元パラメータ（パラメータがｎ種類）を成分とする座標で表現される、即ちＸ（ｉ）＝（Ｐ₁（ｉ），・・，Ｐ_j（ｉ），・・）（ｉ＝１〜Ｎ_p、ｊ＝１〜ｎ、Ｎ_pは全データ数）であるとする。一例として、図３に、２次元パラメータの場合に、各パラメータを横軸（Ｐ₁軸）、縦軸（Ｐ₂軸）として分析対象データを２次元の解析空間にプロットした散布図を示す。

まず、ステップＳ１において、初期設定として、入力手段（図１において図示せず）を介して、初期値Ｎｃの入力を受け付ける。初期値Ｎｃは、後述するように解析後のクラスタに含まれる要素（データ）数の下限値であり、通常、分析対象データの総数や、分析対象データを測定した実験の位置付け（例えば、予備的実験、初期的実験、または最終的実験など）に応じて決定される。

ステップＳ２において、並べ替え部１が、繰り返し処理のカウンタｋ１を“１”にセットする。

ステップＳ３において、並べ替え部１が、カウンタｋ１に対応するパラメータのデータＰ_k1（ｉ）（ｉ＝１〜Ｎ_p）を記録部７から読み出し、昇順に、即ち値の小さい順に１か
ら新たな番号を付与する。順番が変更されたデータをｐ_k1（ｉ）（ｉ＝１〜Ｎ_p）とする
。

ステップＳ４において、距離算出部２が、順番変更後のデータｐ_k1（ｉ）（ｉ＝１〜Ｎ_p）に関して、番号が隣接するデータｐ_k1（ｉ）の差（以下、要素間距離と記す）ｄ_k1（
ｉ）＝ｐ_k1（ｉ＋１）−ｐ_k1（ｉ）を算出する。ここで、ｄ_k1（ｉ）≧０である。図４は、図３に示した２次元パラメータの場合に、横軸に対応するパラメータＰ₁について要素
間距離ｄ_k1（ｉ）とデータｐ_k1（ｉ）との関係を示す図である。

ステップＳ５において、分割幅算出部３が、ステップＳ４で計算された要素間距離ｄ_k1（ｉ）（ｉ＝１〜ｎ−１）の平均Ａ（ｋ１）、標準偏差Ｓ（ｋ１）、及び閾値Ｔ（ｋ１）を次式で求める。

Ｔ（ｋ１）＝Ａ（ｋ１）＋Ｓ（ｋ１）
ステップＳ６において、データの集合を異なるクラスタに分類する境界である分節点の候補である仮の分節点を求める。即ち、分割幅算出部３が、全てのデータｐ_k1（ｉ）（ｉ＝１〜Ｎ_p）の中から、ｄ_k1（ｍ）＞Ｔ（ｋ１）を満たすｍに対応するデータｐ_k1（ｍ）
を選択し、これを要素とする新たなデータ集合を生成する。このとき、上記の条件を満たさないデータｐ_k1（ｉ）は新たな集合には含まれない。従って、新たなデータ集合の要素をｐ_k1（ｉ）で表すとｉについて連続番号とならないので、連続番号となるように新たに番号を付け直したデータをｃｐ_k1（ｊ）で表す。データｐ_k1（ｍ）＝ｃｐ_k1（ｊ）が仮の分節点データである。

ステップＳ７において、分節点を求め、それらを用いて分割幅ｗ_k1を決定する。即ち、分割幅算出部３が、番号が隣接する要素ｃｐ_k1（ｊ）の差Δ_k1（ｊ）＝ｃｐ_k1（ｊ＋１）−ｃｐ_k1（ｊ）を計算し、ステップＳ６で番号ｊ、ｊ＋１を新たに付与した元のデータをそれぞれｐ_k1（ｉ₁）、ｐ_k1（ｉ₂）として、Δ_k1（ｊ）の内、ｉ₂−ｉ₁＞Ｎｃを満たす最小値を分割幅ｗ_k1として決定する。ｉ₂−ｉ₁＞Ｎｃの条件は、２つのデータｐ_k1（ｉ₁）
＝ｃｐ_k1（ｊ）とｐ_k1（ｉ₂）＝ｃｐ_k1（ｊ＋１）との間にＮｃ個以上のデータｐ_k1（ｉ
）が存在する条件であり、ここでは、この条件を満たすデータｐ_k1（ｉ₁）＝ｃｐ_k1（ｊ
）を分節点データとする。図５は、図４に示したデータに対して、Ｐ₁軸に対応するパラ
メータについて分割幅ｗ_k1を求める処理を説明する図である。図５は、折れ線グラフ（ｄ_k1（ｉ））の内、水平の破線（閾値Ｔ（ｋ１））を超えるｄ_k1（ｉ）が選択され、それらに対応する元のデータの差から分割幅ｗ_k1が決定されることを表している（ここで、ｋ１＝１である）。

ステップＳ８において、分割幅算出部３が、別のパラメータに関する分析対象データの有無を判断し、分析対象データがあれば、ステップＳ９に移行してカウンタｋ１を１増加させ、ステップＳ３に戻る。以上によって、各パラメータに対する分割幅ｗ_k1（ｋ１＝１〜ｎ）が決定される。

ステップＳ１０において、空間分割部４が、ｎ個のパラメータを軸として形成されるｎ次元解析空間を格子状に区切り、各小格子空間の代表ベクトルＧを決定し、各小格子空間に含まれる要素数Ｎ_cs（Ｇ）を計算する。このとき、分割幅ｗ_k1（ｋ１＝１〜ｎ）を格子間隔としてパラメータＰ_k1（ｋ１＝１〜ｎ）に対応する軸を等分割する（図６参照）。また、各小格子空間の代表ベクトルＧを、格子点の位置を用いて、Ｇ＝（ａ₁×ｗ₁，ａ₂×
ｗ₂，・・，ａ_n×ｗ_n）とする。ａ_k1（ｋ１＝１〜ｎ）は、パラメータＰ_k1に対応する座
標成分を、分割幅ｗ_k1を単位として整数値で表したものである。

ステップＳ１１において、中心算出部５が、繰り返し処理のカウンタｋ２に“１”をセットし、各々の小格子空間に対応する走査フラグを“１”にセットする。

ステップＳ１２において、中心算出部５が、走査フラグが“１”である小格子空間を対象として、ステップＳ１０で求めた要素数Ｎ_cs（Ｇ）の中の最大の要素数Ｎ_cs（Ｇ_max）
を持つ格子空間を決定する。ここで、Ｇ_maxは、最大の要素数を持つ小格子空間の代表ベ
クトルである。最大の要素数を持つ複数の小格子空間が存在する場合には、その中の最初
に検出した小格子空間を最大の要素数を持つ小格子空間として決定する。

ステップＳ１３において、中心算出部５が、最大の要素数を持つ小格子空間とそれに隣接する小格子空間とを使用して、各々の要素数Ｎ_cs（Ｇ）を重さとして重心の座標を求める。即ち、重心ベクトルＣ_def（ｋ２）を、

によって求める。ここで、演算記号Σは、最大の要素数Ｎ_cs（Ｇ_max）に対応する小格子
空間及びそれに隣接する小格子空間の代表ベクトルＧｊについて加算することを表し、Ｎ₀はそれら小格子空間の総数である。例えば、２次元の場合Ｎ₀＝３²＝９であり、ｎ次元
の場合Ｎ₀＝３ⁿである。ここで、重心ベクトルの計算では、走査フラグの値の如何に依らず、最大の要素数を持つ小格子空間の周囲の小格子空間を全て使用する。一例として、図７に、２次元解析空間に関して、小格子空間及び重心ベクトルの位置関係について示す。図７では、各小格子空間の中央に、その中に含まれる要素数を記載しており、９個の小格子空間の内、中央の小格子空間の要素数が２０で最大である。白丸で表したＣ_def（ｋ２
）は、周囲の小格子空間を含んだ９個の小格子空間の代表ベクトルから計算された重心位置（重心ベクトルの終点）を表している。

ステップＳ１４において、中心算出部５が、ステップＳ１３で重心計算の中心として使用した最大の要素数を持つ小格子空間から、所定距離の範囲内にある小格子空間に対応する走査フラグを“０”にセットする。所定距離は、各軸方向について分割幅ｗ_k1の整数倍で指定する。例えば、所定距離を“１”に設定すれば、最大の要素数を持つ小格子空間の周囲２格子以内にある（２×１＋１）ⁿ＝３ⁿ個の小格子空間に対応する走査フラグを“０”にセットする。例えば、図８において、図７に示した９個の小格子空間に対応する走査フラグに“０”をセットする。

ステップＳ１５において、中心算出部５が、走査フラグが“１”であり、且つ要素数Ｎ_cs（Ｇ）が“０”以外の小格子空間が存在するか否かを判断し、存在すると判断した場合、ステップＳ１６に移行してｋ２を１増加させ、ステップＳ１２に戻る。例えば、図８において、図７に示した９個の小格子空間を除いた領域における要素数を比較し、要素数が１６の小格子空間を最大要素数の小格子空間として決定する。

以上によって、分析対象データに関する重心ベクトルＣ_def（ｋ２）（ｋ２は１以上の
整数）が全て求められる。

最後に、ステップＳ１７において、分析実行部６が、記録部７から分析対象データを読み出し、ステップＳ１５で決定された重心ベクトルＣ_def（ｋ２）（ｋ２は１以上の整数
）をクラスタ中心の初期位置として使用して、通常のｋ−ｍｅａｎｓ法によるクラスタ分析を行う。まず、分析対象の全てのデータについて、各々のクラスタ中心の初期位置Ｃ_def（ｋ２）との距離（非類似度）を計算し、各々のデータを最短距離の初期クラスタ中心
に分類、即ち各クラスタの要素とする。ここで、距離に関しては、様々な定義が使用でき、例えばユークリッド平方距離を用いる。次に、各々のクラスタの要素を用いて各々のクラスタ中心を計算し、この中心を新しいクラスタ中心とする。再び、新しく生成されたクラスタ中心と全ての要素とのユークリッド平方距離を計算し、最短距離のクラスタ中心に各データを再分類する。以降同様の処理を、クラスタ中心位置が収束するまで繰り返す。例えば、ｊ回目に計算されたクラスタ中心（Ｃ_k2,j）の座標と、これを用いてデータを分
類し、再計算して得られるクラスタ中心（Ｃ_k2,j+1）の座標との距離が、全てのクラスタ（全てのｋ２）について所定値以下になるまで繰り返す。クラスタ中心位置が収束した後、分析実行部６は、外部の解析結果出力ユニット（例えば、表示装置、印刷装置など）に、分析結果を出力する。

以上によって、分析対処データに対するｋ−ｍｅａｎｓ法によるクラスタ分析が終了する。即ち、クラスタを構成する要素の下限値Ｎｃのみを初期条件として指定すれば、分析対象データに対する適切なクラスタ数及びクラスタ中心の初期位置を自動的に決定し、ｋ−ｍｅａｎｓ法によるクラスタ分析が自動的に実行される。

以上において、図１は、本発明に係るクラスタ分析装置の機能を各ブロックに分割して持たせて構成した一例であるが、これに限定されず、複数の機能ブロックを一つのブロックで構成するなど、種々の構成が可能である。また、各ブロックが処理結果を記録する内部メモリを備え、処理結果を次のブロックが内部メモリから読み出す構成としたが、これに限定されず、共通のメモリを備えてもよく、記録部７を一時記録に使用してもよい。また、中央演算処理装置（ＣＰＵ）を備え、ＣＰＵが各ブロックを集中的に制御する構成としてもよい。

また、上記では、並べ替え部１、距離算出部２、及び分割幅算出部３を各々１つ備え、繰り返し処理（ステップＳ３〜Ｓ９）によって複数のパラメータに関して分割幅を決定する場合を説明したが、これに限定されない。並べ替え部１、距離算出部２、及び分割幅算出部３を各々複数備え、複数のパラメータに関して、分割幅を決定する一連の処理（ステップＳ３〜Ｓ７）を同時に並行して行ってもよい。

また、上記では、閾値Ｔ（ｋ１）を平均値Ａ（ｋ１）と標準偏差Ｓ（ｋ１）の和としたが、これに限定されない。例えば、適切な正の数αを用いてＴ（ｋ１）＝Ａ（ｋ１）＋α×Ｓ（ｋ１）、又はＴ（ｋ１）＝（１＋α）×Ａ（ｋ１）などを使用してもよい。

また、上記では、並べ替え部１がデータを昇順に並べ替える場合を説明したが、これに限定されず、データを降順に並べ替えてもよい。その場合、要素間距離ｄ_k1（ｉ）は、ｄ_k1（ｉ）＝ｐ_k1（ｉ）−ｐ_k1（ｉ＋１）で計算すればよい（ｄ_k1（ｉ）≧０）。また、上記と同じｄ_k1（ｉ）＝ｐ_k1（ｉ＋１）−ｐ_k1（ｉ）を使用する場合には、ｄ_k1（ｉ）≦０であることを考慮して、データの選別に使用する閾値Ｔ（ｋ１）の決定、及び閾値Ｔ（ｋ１）との比較を行えばよい。その場合、平均値Ａ（ｋ１）≦０、標準偏差Ｓ（ｋ１）≧０であるので、例えば、Ｔ（ｋ１）＝Ａ（ｋ１）−Ｓ（ｋ１）とし、判定条件をｄ_k1（ｉ）＜Ｔ（ｋ１）とすればよい。

また、上記では、各小格子空間の代表ベクトルを使用し、各小格子空間に含まれるデータの個数を重みとして重心位置を計算する場合を説明したが、これに限定されず、重心位置の計算に使用される小格子空間に含まれる各々のデータを表すベクトルを使用して重心位置を計算してもよい。

また、上記では、最大個数の要素を含む小格子空間の周囲の小格子空間を全て重心位置の計算に使用する場合を説明したが、これに限定されず、周囲の小格子空間の一部を使用してもよい。例えば、周囲の小格子空間の内、含まれる要素の個数が多いものから順に所定個数の小格子空間を使用する、又は、最大個数の要素を含んでいる小格子空間の要素個数の所定割合以上の要素を含む小格子空間を使用するなどであってもよい。

また、上記では、各小格子空間の代表ベクトルとして原点と格子点とを結ぶベクトルを使用する場合を説明したが、これに限定されない。小格子空間の代表ベクトルとして、格
子点から所定のオフセットベクトル分だけずれたベクトルを使用してもよい。その場合、オフセットベクトルをベクトル（ｇ₁，ｇ₂，・・，ｇ_n）とすると、各小格子空間の代表
ベクトルＧは、Ｇ＝（ａ₁×ｗ₁＋ｇ₁，ａ₂×ｗ₂＋ｇ₂，・・，ａ_n×ｗ_n＋ｇ_n）で表され
、これを使用してステップＳ１３での重心ベクトルの計算を行えばよい。

以下に実施例を示し、本発明の特徴とするところをより一層明確にする。

以下では、本発明を、細胞外電極から記録された神経細胞活動電位のクラスタ分析に適用した例を示す。本実施例では、活動電位の振幅と減衰時間とをパラメータとした２次元のクラスタ分析を行った。

分析対象のデータは、振幅に関して、図９、１０に示すような分布であった。図９は、２分間の神経細胞活動電位波形に関して、横軸を振幅とし、振幅が各範囲内の値になった頻度をヒストグラムとして表示した図である。また、図１０は、横軸を振幅とし、各振幅値をひし形（◆）で直線上にプロットした図である。図１０には参考のために、図の一部を拡大して、要素間距離の一部ｄ１〜ｄ８を付記している。また、減衰時間に関しても同様の分布が作成できるが、ここでは省略する。

図９、１０のデータに対して、図２のステップＳ３及びＳ４の処理を実施した結果を図１１に示す。図１１では、横軸を振幅とし、各要素間距離ｄｎをひし形（◆）でプロットした折れ線グラフとして表示している。ここで、正方形（■）の系列のグラフは、要素間距離との比較のために、図９に示したヒストグラムを折れ線グラフで表示したものである。図１１から、要素間距離が大きいポイントでは度数分布の山が低く、データを異なるクラスタに振り分ける境界である分節点の候補として有望であることが確認できる。

図１１の結果に対して、要素間距離の中から明確に長い距離の要素間距離を算出する処理、即ち図２のステップＳ５及びＳ６の処理を実施した結果を図１２に示す。図１２では、図１０で示したデータ分布（ひし形（◆））の内、要素間距離の差Δ₁（ｊ）が所定の
閾値を越えるデータを白色の正方形（□）で表示している。ここで、白色の正方形（□）には、図２のステップＳ６の説明で使用した符合ｃｐ₁〜ｃｐ₈を付している。

図１２に示したデータ分布を見れば、データ分布（ひし形（◆））における仮の分節点（□）が適切に検出されていることが分かる。しかし、図１２において矢印で示した点（ｃｐ₆〜ｃｐ₈）は、データ密度が非常に低く、独立したクラスタが形成されるには不十分なデータ領域に位置しており、必要以上に分割されていると言える。実施の形態で説明したように、図２のステップＳ１で初期条件として設定される解析後クラスタに含まれる要素の数の下限値Ｎｃを基準として用いれば、これらｃｐ₆〜ｃｐ₈を排除することができる。即ち、Ｎｃ＝３としてステップＳ７の処理を実行した結果、仮の分節点ｃｐ₆〜ｃｐ₈を排除してｃｐ₁〜ｃｐ₅を分節点として決定できた。さらに、決定された分節点ｃｐ₁〜ｃ
ｐ₅を使用して分節点間の距離を求め、その中の最小値をこのパラメータに対する分割幅
ｗ₁として決定した。

もう一方のパラメータである減衰時間のデータについても同様の処理を実行し、減衰時間に関する分割幅ｗ₂を決定した。決定された分割幅ｗ₁、ｗ₂を使用して、図２に示した
ステップＳ１０の処理を行った。その結果、振幅及び減衰時間を軸として形成される２次元空間の８．５〜３８．７μＶ×０．０５〜１．６ミリ秒の領域を、２５×３０の小格子空間に分割した。さらに、ステップＳ１１〜Ｓ１６の処理を行うことによって、クラスタ中心の初期位置を決定した。続いて、クラスタ中心の初期位置を用いてｋ−ｍｅａｎｓ法によるクラスタ分析を実行した。

以上の結果得られたクラスタ中心の初期位置と、これを使用したｋ−ｍｅａｎｓ法によるクラスタ分析の結果得られた最終的なクラスタ中心の位置を図１３に示す。これは解析結果出力ユニットによる出力結果の一例である。図１３において、１を付した白丸（○）がクラスタ中心の初期位置を表し、１’を付した黒丸（●）が対応する最終結果のクラスタ中心の位置を表す。同様に、２を付した白丸（○）が別のクラスタ中心の初期位置を表し、２’を付した黒丸（●）が対応する最終結果のクラスタ中心の位置を表す。

同様に、異なるデータに対して本発明を適用した結果を図１４に示す。この場合、大きい分割幅が得られたので、クラスタ中心の計算を非常に高速に行うことができた。

以上では、神経細胞活動電位のデータに本発明を適用した実施例を説明したが、これに限定されず、本発明は種々のデータに対して適用することができる。

本発明の実施の形態に係るｋ−ｍｅａｎｓ法を用いるクラスタ分析装置の概略構成を示すブロック図である。本実施の形態に係るクラスタ分析装置の動作を説明するフローチャートである。各パラメータを軸として分析対象データをプロットした散布図である。図３に示したデータに関して、横軸に対応するパラメータＰ₁について要素間距離とデータとの関係を示す図である。図４に示したデータに関して、横軸に対応するパラメータＰ₁について分割幅ｗ₁を求める処理を説明する図である。各小格子空間の代表ベクトルの一例を示す図である。小格子空間の代表ベクトルを使用して重心位置を求める処理を説明する図である。最大要素数の小格子空間を検出する処理を説明する図である。神経細胞活動電位波形の振幅値が各範囲内の値になった頻度をヒストグラムとして表示した図である。神経細胞活動電位波形の振幅値を直線上にプロットした図である。図１０に示したデータに関してステップＳ３及びＳ４の処理を行った結果の要素間距離を示す図である。図１１に示したデータに関して図２のステップＳ５及びＳ６の処理を行った結果を示す図である。クラスタ中心の初期位置と、ｋ−ｍｅａｎｓ法によるクラスタ分析で得られた最終的なクラスタ中心の位置とを解析空間にプロットした図である。別の分析対象データに関して、クラスタ中心の初期位置と、ｋ−ｍｅａｎｓ法によるクラスタ分析で得られた最終的なクラスタ中心の位置とを解析空間にプロットした図である。従来のｋ−ｍｅａｎｓ法でクラスタ分析した結果を示す図であり、（ａ）、（ｂ）は同じデータに対して異なるクラスタ数及び異なるクラスタ中心の初期位置を指定した場合の結果を示す。従来のｋ−ｍｅａｎｓ法でクラスタ分析した結果を示す図であり、（ａ）、（ｂ）は同じデータに対して異なる分割数を指定した場合の結果を示す。

符号の説明

１並べ替え部
２距離算出部
３分割幅算出部
４空間分割部
５中心算出部
６分析実行部
７記録部

Claims

複数のパラメータを成分とする、複数の多次元ベクトルデータを、ｋ−ｍｅａｎｓ法を用いてクラスタ分析するクラスタ分析装置であって、
複数の前記パラメータの中から１つのパラメータを特定パラメータとして選択し、該特定パラメータに対応する複数のデータを、値の大きさに応じて昇順若しくは降順に並べ替える並べ替え手段と、
並び替えられた前記データについて、隣接するデータ間の差である要素間距離を計算する距離算出手段と、
前記要素間距離から分割幅を決定する分割幅算出手段と、
前記並べ替え手段による並べ替え、前記距離算出手段による前記要素間距離の計算、および前記分割幅算出手段による前記分割幅の決定が、異なる前記特定パラメータの全てについて実行された後、複数の前記パラメータの各々に対応する軸を有する解析空間を、前記分割幅を使用して該分割幅に対応する前記軸を等間隔に分割することによって、小格子空間に分割する空間分割手段と、
前記小格子空間の中から最大個数の前記多次元ベクトルデータを含む最大小格子空間を検出し、該最大小格子空間及び該最大小格子空間の周囲の小格子空間を使用してクラスタ中心初期位置を計算する中心算出手段と、
前記クラスタ中心初期位置を使用してｋ−ｍｅａｎｓ法によるクラスタ分析を実行する分析実行手段とを備え、
前記分割幅算出手段が、
並べ替えられた前記データの中から、前記要素間距離が所定の閾値よりも大きいデータを仮分節点データとして選択し、
前記仮分節点データの中から、各々の前記仮分節点データと隣接する前記仮分節点データとの間に所定個数以上の前記データが存在する仮分節点データを分節点データとして選択し、
隣接する前記分節点データの差の中の最小値を前記分割幅として決定し、
前記中心算出手段が、
前記最大小格子空間の検出において、既に検出された前記最大小格子空間から所定範囲内に含まれる前記小格子空間を除いた前記解析空間を検出の対象とし、
前記最大小格子空間の検出及び前記クラスタ中心初期位置の計算を繰り返し実行することを特徴とするｋ−ｍｅａｎｓ法を用いるクラスタ分析装置。
前記閾値が、前記要素間距離の平均値及び標準偏差の和であることを特徴とする請求項
１に記載のｋ−ｍｅａｎｓ法を用いるクラスタ分析装置。
前記クラスタ中心初期位置が、前記小格子空間に含まれる前記データの個数を重みとし、前記小格子空間の代表ベクトルから計算される重心位置であることを特徴とする請求項１又は２に記載のｋ−ｍｅａｎｓ法を用いるクラスタ分析装置。
複数のパラメータを成分とする、複数の多次元ベクトルデータを、ｋ−ｍｅａｎｓ法を用いてクラスタ分析する方法であって、
複数の前記パラメータの中から１つのパラメータを特定パラメータとして選択し、該特定パラメータに対応する複数のデータを、値の大きさに応じて昇順若しくは降順に並べ替える並べ替えステップと、
並び替えられた前記データについて、隣接するデータ間の差である要素間距離を計算する距離算出ステップと、
並べ替えられた前記データの中から、前記要素間距離が所定の閾値よりも大きいデータを仮分節点データとして選択し、前記仮分節点データの中から、各々の前記仮分節点データと隣接する前記仮分節点データとの間に所定個数以上の前記データが存在する仮分節点データを分節点データとして選択し、隣接する前記分節点データの差の中の最小値を分割幅として決定する分割幅算出ステップと、
前記並べ替えステップ、前記距離算出ステップ、および前記分割幅算出ステップが、異なる前記特定パラメータの全てについて実行されたされた後、複数の前記パラメータの各々に対応する軸を有する解析空間を、前記分割幅を使用して該分割幅に対応する前記軸を等間隔に分割することによって、小格子空間に分割する空間分割ステップと、
前記小格子空間の中から最大個数の前記データを含む最大小格子空間を検出し、該最大小格子空間及び該最大小格子空間の周囲の小格子空間を使用してクラスタ中心初期位置を計算する中心算出ステップと、
前記クラスタ中心初期位置を使用してｋ−ｍｅａｎｓ法によるクラスタ分析を実行する分析実行ステップとを含み、
前記最大小格子空間の検出において、既に検出された前記最大小格子空間から所定範囲内に含まれる前記小格子空間を除いた前記解析空間を検出の対象とし、前記中心算出ステップを繰り返し実行することを特徴とするｋ−ｍｅａｎｓ法を用いるクラスタ分析方法。
前記閾値が、前記要素間距離の平均値及び標準偏差の和であることを特徴とする請求項４に記載のｋ−ｍｅａｎｓ法を用いるクラスタ分析方法。
前記クラスタ中心初期位置が、前記小格子空間に含まれる前記データの個数を重みとし、前記小格子空間の代表ベクトルから計算される重心位置であることを特徴とする請求項４又は５に記載のｋ−ｍｅａｎｓ法を用いるクラスタ分析方法。
記録手段を備えたコンピュータに、複数のパラメータを成分とする、複数の多次元ベクトルデータを、ｋ−ｍｅａｎｓ法を用いてクラスタ分析させるプログラムであって、
前記コンピュータに、
複数の前記パラメータの中から選択された１つのパラメータである特定パラメータに対応する複数のデータを前記記録手段から読み出して、値の大きさに応じて昇順若しくは降順に並べ替える機能と、
並び替えられた前記データについて、隣接するデータ間の差である要素間距離を計算する機能と、
並べ替えられた前記データの中から、前記要素間距離が所定の閾値よりも大きいデータを仮分節点データとして選択し、前記仮分節点データの中から、各々の前記仮分節点データと隣接する前記仮分節点データとの間に所定個数以上の前記データが存在する仮分節点データを分節点データとして選択し、隣接する前記分節点データの差の中の最小値を分割
幅として決定する機能と、
前記並べ替える機能、前記要素間距離を計算する機能、および前記分割幅を決定する機能が、異なる前記特定パラメータの全てについて実行されたされた後、複数の前記パラメータに対応する軸を有する解析空間を、前記分割幅を使用して該パラメータに対応する前記軸を等間隔に分割することによって、小格子空間に分割する機能と、
前記小格子空間の中から最大個数の前記データを含む最大小格子空間を検出し、該最大小格子空間及び該最大小格子空間の周囲の小格子空間を使用してクラスタ中心初期位置を計算する機能と、
前記クラスタ中心初期位置を使用してｋ−ｍｅａｎｓ法によるクラスタ分析を実行する機能とを実現させ、
前記最大小格子空間の検出において、既に検出された前記最大小格子空間から所定範囲内に含まれる前記小格子空間を除いた前記解析空間を検出の対象とし、前記クラスタ中心初期位置の計算を繰り返し実行させることを特徴とするｋ−ｍｅａｎｓ法を用いるクラスタ分析プログラム。
前記閾値が、前記要素間距離の平均値及び標準偏差の和であることを特徴とする請求項７に記載のｋ−ｍｅａｎｓ法を用いるクラスタ分析プログラム。
前記クラスタ中心初期位置が、前記小格子空間に含まれる前記データの個数を重みとし、前記小格子空間の代表ベクトルから計算される重心位置であることを特徴とする請求項７又は８に記載のｋ−ｍｅａｎｓ法を用いるクラスタ分析プログラム。
請求項７〜９の何れかの項に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。