JP4292293B2 - k−means法を用いるクラスタ分析装置、クラスタ分析方法、クラスタ分析プログラム、及びそのプログラムを記録した記録媒体 - Google Patents

k−means法を用いるクラスタ分析装置、クラスタ分析方法、クラスタ分析プログラム、及びそのプログラムを記録した記録媒体 Download PDF

Info

Publication number
JP4292293B2
JP4292293B2 JP2004026764A JP2004026764A JP4292293B2 JP 4292293 B2 JP4292293 B2 JP 4292293B2 JP 2004026764 A JP2004026764 A JP 2004026764A JP 2004026764 A JP2004026764 A JP 2004026764A JP 4292293 B2 JP4292293 B2 JP 4292293B2
Authority
JP
Japan
Prior art keywords
data
small lattice
lattice space
cluster
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2004026764A
Other languages
English (en)
Other versions
JP2005222138A (ja
Inventor
卓 工藤
隆久 田口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to JP2004026764A priority Critical patent/JP4292293B2/ja
Publication of JP2005222138A publication Critical patent/JP2005222138A/ja
Application granted granted Critical
Publication of JP4292293B2 publication Critical patent/JP4292293B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Complex Calculations (AREA)
  • Image Analysis (AREA)

Description

本発明は、複数のデータをクラスタに分類するk−means法を用いるクラスタ分析装置、クラスタ分析方法、クラスタ分析プログラム、及びそのプログラムを記録した記録媒体に関する。
k−means法は、比較的実行速度が速く、明確なクラスタを得ることが出来るクラスタ分析法として知られている。通常、k−means法では、複数のデータを分類するクラスタの数、及び各クラスタ中心の初期位置を予め指定した後に処理が実行される。
一方、下記特許文献1には、k−means法を使用し、花と葉の画像データから草花を自動的に認識する方法が開示されており、その中で、クラスタ中心の初期位置を自動的に決定し、これを用いてk−means法を実行することが開示されている。
特開2000−203242号公報
従来のk−means法では、処理の前にクラスタ数及びクラスタ中心の初期位置を指定することが必要であり、従って、必ず人の仲介が必要であり、自動的実行が困難であった。
また、クラスタ数及びクラスタ中心の初期位置は主観で設定され、それによってクラスタ分析の結果が異なるという問題があった。例えば、図15は、神経細胞の神経活動電位を測定した同じ波形データについて、異なるクラスタ数及び異なるクラスタ中心の初期位置を指定し、k−means法でクラスタ分析した結果を示す。図15では、所定の時間幅の神経活動電位波形を折れ線グラフで重畳して表示しており、同じクラスタに属する折れ線グラフを同じ輝度で表示している。このように、クラスタ数及びクラスタ中心の初期位置の設定によって、分析結果が大きく影響を受ける。
また、上記した特許文献1に開示された方法では、クラスタ中心の初期位置を自動的に計算することはできるが、解析空間を格子状に分割する分割数を予め指定しなければならず、分析結果が指定者の主観、経験に依存する問題がある。例えば、図16には、同じデータに対して、異なる分割数を指定してクラスタ中心の初期位置を求めた結果を示す。(a)は縦軸及び横軸の分割数を共に10に指定した場合、(b)は縦軸及び横軸の分割数を共に25に指定した場合の結果である。その結果、クラスタ中心の数が、(a)では10個であるが、(b)では2個と大きく異なる。このように、解析空間の分割数を予め指定してクラスタ中心の初期位置を自動生成する方法においては、分割数により結果が大きく異なる。
本発明の目的は、上記の課題を解決すべく、事前にクラスタ数や初期クラスタ中心位置を設定することなく、クラスタを構成するデータ数の下限値のみを初期条件として指定すれば、分析対象のデータから適切なクラスタ数及びクラスタ中心の初期位置を決定することができるk−means法を用いるクラスタ分析装置、クラスタ分析方法、クラスタ分析プログラム、及びそのプログラムを記録した記録媒体を提供することにある。
本発明の目的は、以下の手段によって達成される。
即ち、本発明に係るクラスタ分析装置(1)は、複数のパラメータを成分とする、複数の多次元ベクトルデータをk−means法を用いてクラスタ分析するクラスタ分析装置であって、複数の前記パラメータの中から1つのパラメータを特定パラメータとして選択し、該特定パラメータに対応する複数のデータを、値の大きさに応じて昇順若しくは降順に並べ替える並べ替え手段と、並び替えられた前記データについて、隣接するデータの差である要素間距離を計算する距離算出手段と、前記要素間距離から分割幅を決定する分割幅算出手段と、前記並べ替え手段による並べ替え、前記距離算出手段による前記要素間距離の計算、および前記分割幅算出手段による前記分割幅の決定が、異なる前記特定パラメータの全てについて実行された後、複数の前記パラメータの各々に対応する軸を有する解析空間を、前記分割幅を使用して該分割幅に対応する前記軸等間隔に分割することによって、小格子空間に分割する空間分割手段と、前記小格子空間の中から最大個数の前記多次元ベクトルデータを含む最大小格子空間を検出し、該最大小格子空間及び該最大小格子空間の周囲の小格子空間を使用してクラスタ中心初期位置を計算する中心算出手段と、前記クラスタ中心初期位置を使用してk−means法によるクラスタ分析を実行する分析実行手段とを備え、前記分割幅算出手段が、並べ替えられた前記データの中から、前記要素間距離が所定の閾値よりも大きいデータを仮分節点データとして選択し、前記仮分節点データの中から、各々の前記仮分節点データと隣接する前記仮分節点データとの間に所定個数以上の前記データが存在する仮分節点データを分節点データとして選択し、隣接する前記分節点データの差の中の最小値を前記分割幅として決定し、前記中心算出手段が、前記最大小格子空間の検出において、既に検出された前記最大小格子空間から所定範囲内に含まれる前記小格子空間を除いた前記解析空間を検出の対象とし、前記最大小格子空間の検出及び前記クラスタ中心初期位置の計算を繰り返し実行することを特徴としている。
本発明に係るクラスタ分析装置(2)は、上記のクラスタ分析装置(1)において、前記閾値が、前記要素間距離の平均値及び標準偏差の和であることを特徴としている。
本発明に係るクラスタ分析装置()は、上記のクラスタ分析装置(1)又は2)において、前記クラスタ中心初期位置が、前記小格子空間に含まれる前記データの個数を重みとし、前記小格子空間の代表ベクトルから計算される重心位置であることを特徴としている。
本発明に係るクラスタ分析方法(1)は、複数のパラメータを成分とする、複数の多次元ベクトルデータをk−means法を用いてクラスタ分析する方法であって、複数の前記パラメータの中から1つのパラメータを特定パラメータとして選択し、該特定パラメータに対応する複数のデータを、値の大きさに応じて昇順若しくは降順に並べ替える並べ替えステップと、並び替えられた前記データについて、隣接するデータとの差である要素間距離を計算する距離算出ステップと、並べ替えられた前記データの中から、前記要素間距離が所定の閾値よりも大きいデータを仮分節点データとして選択し、前記仮分節点データの中から、各々の前記仮分節点データと隣接する前記仮分節点データとの間に所定個数以上の前記データが存在する仮分節点データを分節点データとして選択し、隣接する前記分節点データの差の中の最小値を分割幅として決定する分割幅算出ステップと、前記並べ替えステップ、前記距離算出ステップ、および前記分割幅算出ステップが、異なる前記特定パラメータの全てについて実行されたされた後、複数の前記パラメータの各々に対応する軸を有する解析空間を、前記分割幅を使用して該分割幅に対応する前記軸等間隔に分割することによって、小格子空間に分割する空間分割ステップと、前記小格子空間の中から最大個数の前記データを含む最大小格子空間を検出し、該最大小格子空間及び該最大小格子空間の周囲の小格子空間を使用してクラスタ中心初期位置を計算する中心算出ステップと、前記クラスタ中心初期位置を使用してk−means法によるクラスタ分析を実行する分析実行ステップとを含み、前記最大小格子空間の検出において、既に検出された前記最大小格子空間から所定範囲内に含まれる前記小格子空間を除いた前記解析空間を検出の対象とし、前記中心算出ステップを繰り返し実行することを特徴としている。
本発明に係るクラスタ分析方法(2)は、上記のクラスタ分析方法(1)において、前記閾値が、前記要素間距離の平均値及び標準偏差の和であることを特徴としている。
本発明に係るクラスタ分析方法()は、上記のクラスタ分析方法(1)又は2)において、前記クラスタ中心初期位置が、前記小格子空間に含まれる前記データの個数を重みとし、前記小格子空間の代表ベクトルから計算される重心位置であることを特徴としている。
本発明に係るクラスタ分析プログラム(1)は、記録手段を備えたコンピュータに、複数のパラメータを成分とする、複数の多次元ベクトルデータを、k−means法を用いてクラスタ分析させるプログラムであって、前記コンピュータに、複数前記パラメータの中から選択された1つのパラメータである特定パラメータに対応する複数のデータを前記記録手段から読み出して、値の大きさに応じて昇順若しくは降順に並べ替える機能と、並び替えられた前記データについて、隣接するデータの差である要素間距離を計算する機能と、並べ替えられた前記データの中から、前記要素間距離が所定の閾値よりも大きいデータを仮分節点データとして選択し、前記仮分節点データの中から、各々の前記仮分節点データと隣接する前記仮分節点データとの間に所個数以上の前記データが存在する仮分節点データを分節点データとして選択し、隣接する前記分節点データの差の中の最小値
を分割幅として決定する機能と、前記並べ替える機能、前記要素間距離を計算する機能、および前記分割幅を決定する機能が、異なる前記特定パラメータの全てについて実行されたされた後、複数の前記パラメータに対応する軸を有する解析空間を、前記分割幅を使用して該パラメータに対応する前記軸等間隔に分割することによって、小格子空間に分割する機能と、前記小格子空間の中から最大個数の前記データを含む最大小格子空間を検出し、該最大小格子空間及び該最大小格子空間の周囲の小格子空間を使用してクラスタ中心初期位置を計算する機能と、前記クラスタ中心初期位置を使用してk−means法によるクラスタ分析を実行する機能とを実現させ、前記最大小格子空間の検出において、既に検出された前記最大小格子空間から所定範囲内に含まれる前記小格子空間を除いた前記解析空間を検出の対象とし、前記クラスタ中心初期位置の計算を繰り返し実行させることを特徴としている。
本発明に係るクラスタ分析プログラム(2)は、上記のクラスタ分析プログラム(1)において、前記閾値が、前記要素間距離の平均値及び標準偏差の和であることを特徴としている。
本発明に係るクラスタ分析プログラム()は、上記のクラスタ分析プログラム(1)又は2)において、前記クラスタ中心初期位置が、前記小格子空間に含まれる前記データの個数を重みとし、前記小格子空間の代表ベクトルから計算される重心位置であることを特徴としている。
本発明に係るコンピュータ読み取り可能な記録媒体は、上記のクラスタ分析プログラム(1)〜()の何れかを記録していることを特徴としている。
本発明に係るk−means法を用いるクラスタ分析装置、クラスタ分析方法、クラスタ分析プログラム、及びそのプログラムを記録した記録媒体によれば、クラスタを構成するデータ数の下限値のみを指定すれば、クラスタ中心の初期位置の算出及びこれを用いたk−means法によるクラスタ分析を自動的に実行することができる。従って、クラスタ数、クラスタ中心の初期位置、解析空間の分割数を予め指定する必要がなく、クラスタ分析の結果がこれらの影響を受けることがない。
また、仮の分節点を選択する閾値として、要素間距離の平均値及び標準偏差の和を使用することによって、より適切な仮の分節点を決定することができ、従って、より適切な分節点、分割幅、及びクラスタ中心の初期位置を決定することができるので、k−means法によるクラスタ分析を効率的に行うことができる。
また、クラスタ中心の初期位置の計算に使用する小格子空間に含まれるデータの個数を重みとし、小格子空間の代表ベクトルを使用して重心位置を計算することによって、小格子空間に含まれる各々のデータを使用して重心位置を計算する場合よりも高速にクラスタ
中心の初期位置を計算することができる。
以下、本発明に係る実施の形態を、添付した図面に基づいて説明する。
図1は、本発明の実施の形態に係るk−means法を用いるクラスタ分析装置の概略構成を示すブロック図である。本クラスタ分析装置は、複数の分析対象データの順序を並べ替える並べ替え部1と、並べ替えたデータの隣接するデータ値の差を計算する距離算出部2と、パラメータを軸としてデータをプロットした解析空間を複数の領域に分割する分割幅を計算する分割幅算出部3と、分割幅を使用して解析空間を小格子空間に分割する空間分割部4と、k−menas法で使用するクラスタ中心の初期位置を計算する中心算出部5と、決定されたクラスタ中心の初期位置を使用してk−means法によるクラスタ分析を実行する分析実行部6と、分析対象データを記録する記録部7とを備えている。
図2は、図1に示したクラスタ分析装置の動作を説明するフローチャートである。以下、図1を参照しながら、図2のフローチャートに従って本クラスタ分析装置の動作に関して説明する。ここで、図1に示した並べ替え部1、距離算出部2、分割幅算出部3、空間分割部4、及び中心算出部5は、内部メモリ(図示せず)を備えており、演算処理を行うためのワークエリア及び処理結果の一時記録手段として使用する。内部メモリに一時記録した処理結果のデータが次のブロックに伝送されることによって、次のブロックでの処理が実行される。また、これらのブロックは、必要に応じて記録部7から分析対象データを読み出して使用する。また、分析対象データX(i)は、n次元パラメータ(パラメータがn種類)を成分とする座標で表現される、即ちX(i)=(P1(i),・・,Pj(i),・・)(i=1〜Np、j=1〜n、Npは全データ数)であるとする。一例として、図3に、2次元パラメータの場合に、各パラメータを横軸(P1軸)、縦軸(P2軸)として分析対象データを2次元の解析空間にプロットした散布図を示す。
まず、ステップS1において、初期設定として、入力手段(図1において図示せず)を介して、初期値Ncの入力を受け付ける。初期値Ncは、後述するように解析後のクラスタに含まれる要素(データ)数の下限値であり、通常、分析対象データの総数や、分析対象データを測定した実験の位置付け(例えば、予備的実験、初期的実験、または最終的実験など)に応じて決定される。
ステップS2において、並べ替え部1が、繰り返し処理のカウンタk1を“1”にセットする。
ステップS3において、並べ替え部1が、カウンタk1に対応するパラメータのデータPk1(i)(i=1〜Np)を記録部7から読み出し、昇順に、即ち値の小さい順に1か
ら新たな番号を付与する。順番が変更されたデータをpk1(i)(i=1〜Np)とする
ステップS4において、距離算出部2が、順番変更後のデータpk1(i)(i=1〜Np)に関して、番号が隣接するデータpk1(i)の差(以下、要素間距離と記す)dk1
i)=pk1(i+1)−pk1(i)を算出する。ここで、dk1(i)≧0である。図4は、図3に示した2次元パラメータの場合に、横軸に対応するパラメータP1について要素
間距離dk1(i)とデータpk1(i)との関係を示す図である。
ステップS5において、分割幅算出部3が、ステップS4で計算された要素間距離dk1(i)(i=1〜n−1)の平均A(k1)、標準偏差S(k1)、及び閾値T(k1)を次式で求める。
T(k1)=A(k1)+S(k1)
ステップS6において、データの集合を異なるクラスタに分類する境界である分節点の候補である仮の分節点を求める。即ち、分割幅算出部3が、全てのデータpk1(i)(i=1〜Np)の中から、dk1(m)>T(k1)を満たすmに対応するデータpk1(m)
を選択し、これを要素とする新たなデータ集合を生成する。このとき、上記の条件を満たさないデータpk1(i)は新たな集合には含まれない。従って、新たなデータ集合の要素をpk1(i)で表すとiについて連続番号とならないので、連続番号となるように新たに番号を付け直したデータをcpk1(j)で表す。データpk1(m)=cpk1(j)が仮の分節点データである。
ステップS7において、分節点を求め、それらを用いて分割幅wk1を決定する。即ち、分割幅算出部3が、番号が隣接する要素cpk1(j)の差Δk1(j)=cpk1(j+1)−cpk1(j)を計算し、ステップS6で番号j、j+1を新たに付与した元のデータをそれぞれpk1(i1)、pk1(i2)として、Δk1(j)の内、i2−i1>Ncを満たす最小値を分割幅wk1として決定する。i2−i1>Ncの条件は、2つのデータpk1(i1
=cpk1(j)とpk1(i2)=cpk1(j+1)との間にNc個以上のデータpk1(i
)が存在する条件であり、ここでは、この条件を満たすデータpk1(i1)=cpk1(j
)を分節点データとする。図5は、図4に示したデータに対して、P1軸に対応するパラ
メータについて分割幅wk1を求める処理を説明する図である。図5は、折れ線グラフ(dk1(i))の内、水平の破線(閾値T(k1))を超えるdk1(i)が選択され、それらに対応する元のデータの差から分割幅wk1が決定されることを表している(ここで、k1=1である)。
ステップS8において、分割幅算出部3が、別のパラメータに関する分析対象データの有無を判断し、分析対象データがあれば、ステップS9に移行してカウンタk1を1増加させ、ステップS3に戻る。以上によって、各パラメータに対する分割幅wk1(k1=1〜n)が決定される。
ステップS10において、空間分割部4が、n個のパラメータを軸として形成されるn次元解析空間を格子状に区切り、各小格子空間の代表ベクトルGを決定し、各小格子空間に含まれる要素数Ncs(G)を計算する。このとき、分割幅wk1(k1=1〜n)を格子間隔としてパラメータPk1(k1=1〜n)に対応する軸を等分割する(図6参照)。また、各小格子空間の代表ベクトルGを、格子点の位置を用いて、G=(a1×w1,a2×
2,・・,an×wn)とする。ak1(k1=1〜n)は、パラメータPk1に対応する座
標成分を、分割幅wk1を単位として整数値で表したものである。
ステップS11において、中心算出部5が、繰り返し処理のカウンタk2に“1”をセットし、各々の小格子空間に対応する走査フラグを“1”にセットする。
ステップS12において、中心算出部5が、走査フラグが“1”である小格子空間を対象として、ステップS10で求めた要素数Ncs(G)の中の最大の要素数Ncs(Gmax
を持つ格子空間を決定する。ここで、Gmaxは、最大の要素数を持つ小格子空間の代表ベ
クトルである。最大の要素数を持つ複数の小格子空間が存在する場合には、その中の最初
に検出した小格子空間を最大の要素数を持つ小格子空間として決定する。
ステップS13において、中心算出部5が、最大の要素数を持つ小格子空間とそれに隣接する小格子空間とを使用して、各々の要素数Ncs(G)を重さとして重心の座標を求める。即ち、重心ベクトルCdef(k2)を、
によって求める。ここで、演算記号Σは、最大の要素数Ncs(Gmax)に対応する小格子
空間及びそれに隣接する小格子空間の代表ベクトルGjについて加算することを表し、N0はそれら小格子空間の総数である。例えば、2次元の場合N0=32=9であり、n次元
の場合N0=3nである。ここで、重心ベクトルの計算では、走査フラグの値の如何に依らず、最大の要素数を持つ小格子空間の周囲の小格子空間を全て使用する。一例として、図7に、2次元解析空間に関して、小格子空間及び重心ベクトルの位置関係について示す。図7では、各小格子空間の中央に、その中に含まれる要素数を記載しており、9個の小格子空間の内、中央の小格子空間の要素数が20で最大である。白丸で表したCdef(k2
)は、周囲の小格子空間を含んだ9個の小格子空間の代表ベクトルから計算された重心位置(重心ベクトルの終点)を表している。
ステップS14において、中心算出部5が、ステップS13で重心計算の中心として使用した最大の要素数を持つ小格子空間から、所定距離の範囲内にある小格子空間に対応する走査フラグを“0”にセットする。所定距離は、各軸方向について分割幅wk1の整数倍で指定する。例えば、所定距離を“1”に設定すれば、最大の要素数を持つ小格子空間の周囲2格子以内にある(2×1+1)n=3n個の小格子空間に対応する走査フラグを“0”にセットする。例えば、図8において、図7に示した9個の小格子空間に対応する走査フラグに“0”をセットする。
ステップS15において、中心算出部5が、走査フラグが“1”であり、且つ要素数Ncs(G)が“0”以外の小格子空間が存在するか否かを判断し、存在すると判断した場合、ステップS16に移行してk2を1増加させ、ステップS12に戻る。例えば、図8において、図7に示した9個の小格子空間を除いた領域における要素数を比較し、要素数が16の小格子空間を最大要素数の小格子空間として決定する。
以上によって、分析対象データに関する重心ベクトルCdef(k2)(k2は1以上の
整数)が全て求められる。
最後に、ステップS17において、分析実行部6が、記録部7から分析対象データを読み出し、ステップS15で決定された重心ベクトルCdef(k2)(k2は1以上の整数
)をクラスタ中心の初期位置として使用して、通常のk−means法によるクラスタ分析を行う。まず、分析対象の全てのデータについて、各々のクラスタ中心の初期位置Cdef(k2)との距離(非類似度)を計算し、各々のデータを最短距離の初期クラスタ中心
に分類、即ち各クラスタの要素とする。ここで、距離に関しては、様々な定義が使用でき、例えばユークリッド平方距離を用いる。次に、各々のクラスタの要素を用いて各々のクラスタ中心を計算し、この中心を新しいクラスタ中心とする。再び、新しく生成されたクラスタ中心と全ての要素とのユークリッド平方距離を計算し、最短距離のクラスタ中心に各データを再分類する。以降同様の処理を、クラスタ中心位置が収束するまで繰り返す。例えば、j回目に計算されたクラスタ中心(Ck2,j)の座標と、これを用いてデータを分
類し、再計算して得られるクラスタ中心(Ck2,j+1)の座標との距離が、全てのクラスタ(全てのk2)について所定値以下になるまで繰り返す。クラスタ中心位置が収束した後、分析実行部6は、外部の解析結果出力ユニット(例えば、表示装置、印刷装置など)に、分析結果を出力する。
以上によって、分析対処データに対するk−means法によるクラスタ分析が終了する。即ち、クラスタを構成する要素の下限値Ncのみを初期条件として指定すれば、分析対象データに対する適切なクラスタ数及びクラスタ中心の初期位置を自動的に決定し、k−means法によるクラスタ分析が自動的に実行される。
以上において、図1は、本発明に係るクラスタ分析装置の機能を各ブロックに分割して持たせて構成した一例であるが、これに限定されず、複数の機能ブロックを一つのブロックで構成するなど、種々の構成が可能である。また、各ブロックが処理結果を記録する内部メモリを備え、処理結果を次のブロックが内部メモリから読み出す構成としたが、これに限定されず、共通のメモリを備えてもよく、記録部7を一時記録に使用してもよい。また、中央演算処理装置(CPU)を備え、CPUが各ブロックを集中的に制御する構成としてもよい。
また、上記では、並べ替え部1、距離算出部2、及び分割幅算出部3を各々1つ備え、繰り返し処理(ステップS3〜S9)によって複数のパラメータに関して分割幅を決定する場合を説明したが、これに限定されない。並べ替え部1、距離算出部2、及び分割幅算出部3を各々複数備え、複数のパラメータに関して、分割幅を決定する一連の処理(ステップS3〜S7)を同時に並行して行ってもよい。
また、上記では、閾値T(k1)を平均値A(k1)と標準偏差S(k1)の和としたが、これに限定されない。例えば、適切な正の数αを用いてT(k1)=A(k1)+α×S(k1)、又はT(k1)=(1+α)×A(k1)などを使用してもよい。
また、上記では、並べ替え部1がデータを昇順に並べ替える場合を説明したが、これに限定されず、データを降順に並べ替えてもよい。その場合、要素間距離dk1(i)は、dk1(i)=pk1(i)−pk1(i+1)で計算すればよい(dk1(i)≧0)。また、上記と同じdk1(i)=pk1(i+1)−pk1(i)を使用する場合には、dk1(i)≦0であることを考慮して、データの選別に使用する閾値T(k1)の決定、及び閾値T(k1)との比較を行えばよい。その場合、平均値A(k1)≦0、標準偏差S(k1)≧0であるので、例えば、T(k1)=A(k1)−S(k1)とし、判定条件をdk1(i)<T(k1)とすればよい。
また、上記では、各小格子空間の代表ベクトルを使用し、各小格子空間に含まれるデータの個数を重みとして重心位置を計算する場合を説明したが、これに限定されず、重心位置の計算に使用される小格子空間に含まれる各々のデータを表すベクトルを使用して重心位置を計算してもよい。
また、上記では、最大個数の要素を含む小格子空間の周囲の小格子空間を全て重心位置の計算に使用する場合を説明したが、これに限定されず、周囲の小格子空間の一部を使用してもよい。例えば、周囲の小格子空間の内、含まれる要素の個数が多いものから順に所定個数の小格子空間を使用する、又は、最大個数の要素を含んでいる小格子空間の要素個数の所定割合以上の要素を含む小格子空間を使用するなどであってもよい。
また、上記では、各小格子空間の代表ベクトルとして原点と格子点とを結ぶベクトルを使用する場合を説明したが、これに限定されない。小格子空間の代表ベクトルとして、格
子点から所定のオフセットベクトル分だけずれたベクトルを使用してもよい。その場合、オフセットベクトルをベクトル(g1,g2,・・,gn)とすると、各小格子空間の代表
ベクトルGは、G=(a1×w1+g1,a2×w2+g2,・・,an×wn+gn)で表され
、これを使用してステップS13での重心ベクトルの計算を行えばよい。
以下に実施例を示し、本発明の特徴とするところをより一層明確にする。
以下では、本発明を、細胞外電極から記録された神経細胞活動電位のクラスタ分析に適用した例を示す。本実施例では、活動電位の振幅と減衰時間とをパラメータとした2次元のクラスタ分析を行った。
分析対象のデータは、振幅に関して、図9、10に示すような分布であった。図9は、2分間の神経細胞活動電位波形に関して、横軸を振幅とし、振幅が各範囲内の値になった頻度をヒストグラムとして表示した図である。また、図10は、横軸を振幅とし、各振幅値をひし形(◆)で直線上にプロットした図である。図10には参考のために、図の一部を拡大して、要素間距離の一部d1〜d8を付記している。また、減衰時間に関しても同様の分布が作成できるが、ここでは省略する。
図9、10のデータに対して、図2のステップS3及びS4の処理を実施した結果を図11に示す。図11では、横軸を振幅とし、各要素間距離dnをひし形(◆)でプロットした折れ線グラフとして表示している。ここで、正方形(■)の系列のグラフは、要素間距離との比較のために、図9に示したヒストグラムを折れ線グラフで表示したものである。図11から、要素間距離が大きいポイントでは度数分布の山が低く、データを異なるクラスタに振り分ける境界である分節点の候補として有望であることが確認できる。
図11の結果に対して、要素間距離の中から明確に長い距離の要素間距離を算出する処理、即ち図2のステップS5及びS6の処理を実施した結果を図12に示す。図12では、図10で示したデータ分布(ひし形(◆))の内、要素間距離の差Δ1(j)が所定の
閾値を越えるデータを白色の正方形(□)で表示している。ここで、白色の正方形(□)には、図2のステップS6の説明で使用した符合cp1〜cp8を付している。
図12に示したデータ分布を見れば、データ分布(ひし形(◆))における仮の分節点(□)が適切に検出されていることが分かる。しかし、図12において矢印で示した点(cp6〜cp8)は、データ密度が非常に低く、独立したクラスタが形成されるには不十分なデータ領域に位置しており、必要以上に分割されていると言える。実施の形態で説明したように、図2のステップS1で初期条件として設定される解析後クラスタに含まれる要素の数の下限値Ncを基準として用いれば、これらcp6〜cp8を排除することができる。即ち、Nc=3としてステップS7の処理を実行した結果、仮の分節点cp6〜cp8を排除してcp1〜cp5を分節点として決定できた。さらに、決定された分節点cp1〜c
5を使用して分節点間の距離を求め、その中の最小値をこのパラメータに対する分割幅
1として決定した。
もう一方のパラメータである減衰時間のデータについても同様の処理を実行し、減衰時間に関する分割幅w2を決定した。決定された分割幅w1、w2を使用して、図2に示した
ステップS10の処理を行った。その結果、振幅及び減衰時間を軸として形成される2次元空間の8.5〜38.7μV×0.05〜1.6ミリ秒の領域を、25×30の小格子空間に分割した。さらに、ステップS11〜S16の処理を行うことによって、クラスタ中心の初期位置を決定した。続いて、クラスタ中心の初期位置を用いてk−means法によるクラスタ分析を実行した。
以上の結果得られたクラスタ中心の初期位置と、これを使用したk−means法によるクラスタ分析の結果得られた最終的なクラスタ中心の位置を図13に示す。これは解析結果出力ユニットによる出力結果の一例である。図13において、1を付した白丸(○)がクラスタ中心の初期位置を表し、1’を付した黒丸(●)が対応する最終結果のクラスタ中心の位置を表す。同様に、2を付した白丸(○)が別のクラスタ中心の初期位置を表し、2’を付した黒丸(●)が対応する最終結果のクラスタ中心の位置を表す。
同様に、異なるデータに対して本発明を適用した結果を図14に示す。この場合、大きい分割幅が得られたので、クラスタ中心の計算を非常に高速に行うことができた。
以上では、神経細胞活動電位のデータに本発明を適用した実施例を説明したが、これに限定されず、本発明は種々のデータに対して適用することができる。
本発明の実施の形態に係るk−means法を用いるクラスタ分析装置の概略構成を示すブロック図である。 本実施の形態に係るクラスタ分析装置の動作を説明するフローチャートである。 各パラメータを軸として分析対象データをプロットした散布図である。 図3に示したデータに関して、横軸に対応するパラメータP1について要素間距離とデータとの関係を示す図である。 図4に示したデータに関して、横軸に対応するパラメータP1について分割幅w1を求める処理を説明する図である。 各小格子空間の代表ベクトルの一例を示す図である。 小格子空間の代表ベクトルを使用して重心位置を求める処理を説明する図である。 最大要素数の小格子空間を検出する処理を説明する図である。 神経細胞活動電位波形の振幅値が各範囲内の値になった頻度をヒストグラムとして表示した図である。 神経細胞活動電位波形の振幅値を直線上にプロットした図である。 図10に示したデータに関してステップS3及びS4の処理を行った結果の要素間距離を示す図である。 図11に示したデータに関して図2のステップS5及びS6の処理を行った結果を示す図である。 クラスタ中心の初期位置と、k−means法によるクラスタ分析で得られた最終的なクラスタ中心の位置とを解析空間にプロットした図である。 別の分析対象データに関して、クラスタ中心の初期位置と、k−means法によるクラスタ分析で得られた最終的なクラスタ中心の位置とを解析空間にプロットした図である。 従来のk−means法でクラスタ分析した結果を示す図であり、(a)、(b)は同じデータに対して異なるクラスタ数及び異なるクラスタ中心の初期位置を指定した場合の結果を示す。 従来のk−means法でクラスタ分析した結果を示す図であり、(a)、(b)は同じデータに対して異なる分割数を指定した場合の結果を示す。
符号の説明
1 並べ替え部
2 距離算出部
3 分割幅算出部
4 空間分割部
5 中心算出部
6 分析実行部
7 記録部

Claims (10)

  1. 複数のパラメータを成分とする、複数の多次元ベクトルデータを、k−means法を用いてクラスタ分析するクラスタ分析装置であって、
    複数の前記パラメータの中から1つのパラメータを特定パラメータとして選択し、該特定パラメータに対応する複数のデータを、値の大きさに応じて昇順若しくは降順に並べ替える並べ替え手段と、
    並び替えられた前記データについて、隣接するデータ間の差である要素間距離を計算する距離算出手段と、
    前記要素間距離から分割幅を決定する分割幅算出手段と、
    前記並べ替え手段による並べ替え、前記距離算出手段による前記要素間距離の計算、および前記分割幅算出手段による前記分割幅の決定が、異なる前記特定パラメータの全てについて実行された後、複数の前記パラメータの各々に対応する軸を有する解析空間を、前記分割幅を使用して該分割幅に対応する前記軸を等間隔に分割することによって、小格子空間に分割する空間分割手段と、
    前記小格子空間の中から最大個数の前記多次元ベクトルデータを含む最大小格子空間を検出し、該最大小格子空間及び該最大小格子空間の周囲の小格子空間を使用してクラスタ中心初期位置を計算する中心算出手段と、
    前記クラスタ中心初期位置を使用してk−means法によるクラスタ分析を実行する分析実行手段とを備え、
    前記分割幅算出手段が、
    並べ替えられた前記データの中から、前記要素間距離が所定の閾値よりも大きいデータを仮分節点データとして選択し、
    前記仮分節点データの中から、各々の前記仮分節点データと隣接する前記仮分節点データとの間に所定個数以上の前記データが存在する仮分節点データを分節点データとして選択し、
    隣接する前記分節点データの差の中の最小値を前記分割幅として決定し、
    前記中心算出手段が、
    前記最大小格子空間の検出において、既に検出された前記最大小格子空間から所定範囲内に含まれる前記小格子空間を除いた前記解析空間を検出の対象とし、
    前記最大小格子空間の検出及び前記クラスタ中心初期位置の計算を繰り返し実行することを特徴とするk−means法を用いるクラスタ分析装置。
  2. 前記閾値が、前記要素間距離の平均値及び標準偏差の和であることを特徴とする請求項
    1に記載のk−means法を用いるクラスタ分析装置。
  3. 前記クラスタ中心初期位置が、前記小格子空間に含まれる前記データの個数を重みとし、前記小格子空間の代表ベクトルから計算される重心位置であることを特徴とする請求項1又は2に記載のk−means法を用いるクラスタ分析装置。
  4. 複数のパラメータを成分とする、複数の多次元ベクトルデータを、k−means法を用いてクラスタ分析する方法であって、
    複数の前記パラメータの中から1つのパラメータを特定パラメータとして選択し、該特定パラメータに対応する複数のデータを、値の大きさに応じて昇順若しくは降順に並べ替える並べ替えステップと、
    並び替えられた前記データについて、隣接するデータ間の差である要素間距離を計算する距離算出ステップと、
    並べ替えられた前記データの中から、前記要素間距離が所定の閾値よりも大きいデータを仮分節点データとして選択し、前記仮分節点データの中から、各々の前記仮分節点データと隣接する前記仮分節点データとの間に所定個数以上の前記データが存在する仮分節点データを分節点データとして選択し、隣接する前記分節点データの差の中の最小値を分割幅として決定する分割幅算出ステップと、
    前記並べ替えステップ、前記距離算出ステップ、および前記分割幅算出ステップが、異なる前記特定パラメータの全てについて実行されたされた後、複数の前記パラメータの各々に対応する軸を有する解析空間を、前記分割幅を使用して該分割幅に対応する前記軸を等間隔に分割することによって、小格子空間に分割する空間分割ステップと、
    前記小格子空間の中から最大個数の前記データを含む最大小格子空間を検出し、該最大小格子空間及び該最大小格子空間の周囲の小格子空間を使用してクラスタ中心初期位置を計算する中心算出ステップと、
    前記クラスタ中心初期位置を使用してk−means法によるクラスタ分析を実行する分析実行ステップとを含み、
    前記最大小格子空間の検出において、既に検出された前記最大小格子空間から所定範囲内に含まれる前記小格子空間を除いた前記解析空間を検出の対象とし、前記中心算出ステップを繰り返し実行することを特徴とするk−means法を用いるクラスタ分析方法。
  5. 前記閾値が、前記要素間距離の平均値及び標準偏差の和であることを特徴とする請求項に記載のk−means法を用いるクラスタ分析方法。
  6. 前記クラスタ中心初期位置が、前記小格子空間に含まれる前記データの個数を重みとし、前記小格子空間の代表ベクトルから計算される重心位置であることを特徴とする請求項4又は5に記載のk−means法を用いるクラスタ分析方法。
  7. 記録手段を備えたコンピュータに、複数のパラメータを成分とする、複数の多次元ベクトルデータを、k−means法を用いてクラスタ分析させるプログラムであって、
    前記コンピュータに、
    複数の前記パラメータの中から選択された1つのパラメータである特定パラメータに対応する複数のデータを前記記録手段から読み出して、値の大きさに応じて昇順若しくは降順に並べ替える機能と、
    並び替えられた前記データについて、隣接するデータ間の差である要素間距離を計算する機能と、
    並べ替えられた前記データの中から、前記要素間距離が所定の閾値よりも大きいデータを仮分節点データとして選択し、前記仮分節点データの中から、各々の前記仮分節点データと隣接する前記仮分節点データとの間に所定個数以上の前記データが存在する仮分節点データを分節点データとして選択し、隣接する前記分節点データの差の中の最小値を分割
    幅として決定する機能と、
    前記並べ替える機能、前記要素間距離を計算する機能、および前記分割幅を決定する機能が、異なる前記特定パラメータの全てについて実行されたされた後、複数の前記パラメータに対応する軸を有する解析空間を、前記分割幅を使用して該パラメータに対応する前記軸を等間隔に分割することによって、小格子空間に分割する機能と、
    前記小格子空間の中から最大個数の前記データを含む最大小格子空間を検出し、該最大小格子空間及び該最大小格子空間の周囲の小格子空間を使用してクラスタ中心初期位置を計算する機能と、
    前記クラスタ中心初期位置を使用してk−means法によるクラスタ分析を実行する機能とを実現させ、
    前記最大小格子空間の検出において、既に検出された前記最大小格子空間から所定範囲内に含まれる前記小格子空間を除いた前記解析空間を検出の対象とし、前記クラスタ中心初期位置の計算を繰り返し実行させることを特徴とするk−means法を用いるクラスタ分析プログラム。
  8. 前記閾値が、前記要素間距離の平均値及び標準偏差の和であることを特徴とする請求項に記載のk−means法を用いるクラスタ分析プログラム。
  9. 前記クラスタ中心初期位置が、前記小格子空間に含まれる前記データの個数を重みとし、前記小格子空間の代表ベクトルから計算される重心位置であることを特徴とする請求項7又は8に記載のk−means法を用いるクラスタ分析プログラム。
  10. 請求項の何れかの項に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2004026764A 2004-02-03 2004-02-03 k−means法を用いるクラスタ分析装置、クラスタ分析方法、クラスタ分析プログラム、及びそのプログラムを記録した記録媒体 Expired - Lifetime JP4292293B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004026764A JP4292293B2 (ja) 2004-02-03 2004-02-03 k−means法を用いるクラスタ分析装置、クラスタ分析方法、クラスタ分析プログラム、及びそのプログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004026764A JP4292293B2 (ja) 2004-02-03 2004-02-03 k−means法を用いるクラスタ分析装置、クラスタ分析方法、クラスタ分析プログラム、及びそのプログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2005222138A JP2005222138A (ja) 2005-08-18
JP4292293B2 true JP4292293B2 (ja) 2009-07-08

Family

ID=34997736

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004026764A Expired - Lifetime JP4292293B2 (ja) 2004-02-03 2004-02-03 k−means法を用いるクラスタ分析装置、クラスタ分析方法、クラスタ分析プログラム、及びそのプログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP4292293B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108345908A (zh) * 2018-02-10 2018-07-31 武汉轻工大学 电网数据的分类方法、分类设备及存储介质

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1916624B1 (en) * 2006-10-25 2016-11-23 Agfa HealthCare NV Method for segmenting a digital medical image.
KR101688871B1 (ko) * 2015-07-07 2016-12-22 한국지질자원연구원 감마선을 이용한 물리검층자료의 분석 장치 및 방법
CN109685767A (zh) * 2018-11-26 2019-04-26 西北工业大学 一种基于聚类融合算法的双模态脑肿瘤mri分割方法
JP6937359B2 (ja) * 2019-12-25 2021-09-22 株式会社 日立産業制御ソリューションズ クラスタ分割評価装置、クラスタ分割評価方法及びクラスタ分割評価プログラム
JP7460949B2 (ja) 2020-03-11 2024-04-03 公立大学法人会津大学 カテゴリ識別プログラム、カテゴリ識別装置及びカテゴリ識別方法
CN112561129B (zh) * 2020-11-27 2022-09-02 广东电网有限责任公司肇庆供电局 一种基于配电线路故障信息的抢修物资调配方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108345908A (zh) * 2018-02-10 2018-07-31 武汉轻工大学 电网数据的分类方法、分类设备及存储介质

Also Published As

Publication number Publication date
JP2005222138A (ja) 2005-08-18

Similar Documents

Publication Publication Date Title
EP0796474B1 (en) Method for avoiding redundant identification (caused by artifacts in images of bacterial colonies)
EP2617006B1 (en) Image processing apparatus and image processing method
EP1775683A1 (en) Object image detection device, face image detection program, and face image detection method
US20050120293A1 (en) Table column spanning
CN101615217B (zh) 对类似特性的不同设计形状进行分类/显示的装置和方法
EP1246124B1 (en) Image space display method and apparatus
JP4292293B2 (ja) k−means法を用いるクラスタ分析装置、クラスタ分析方法、クラスタ分析プログラム、及びそのプログラムを記録した記録媒体
US20090232400A1 (en) Image evaluation apparatus, method, and program
CN108074025A (zh) 基于表面缺陷分布特征的钢卷表面缺陷判定方法
JP2018124851A (ja) 支援装置および支援方法
CN106033613B (zh) 目标跟踪方法及装置
CN108898153A (zh) 基于l21范式距离度量的特征选择方法
Mike et al. Nonlandmark classification in paleobiology: computational geometry as a tool for species discrimination
US5778105A (en) Method of and apparatus for removing artifacts from a reproduction
KR102073362B1 (ko) 웨이퍼 맵을 불량 패턴에 따라 분류하는 방법 및 컴퓨터 프로그램
CN108227628B (zh) 加工程序解析装置、计算机可读取的记录介质和加工程序解析方法
CN108021900A (zh) 版面分栏方法及装置
JP2005301789A (ja) クラスタ解析装置、クラスタ解析方法、及びクラスタ解析プログラム
JP7252591B2 (ja) 幾何学形状のマッチングによる画像処理方法及び画像処理装置
JP6746851B2 (ja) 地形分類システム、及び地形分類方法
US20030140276A1 (en) Method and apparatus for identifying clusters of fail bits in a bitmap
CN112949699B (zh) 一种遥感图像分类模型建立与验证方法、系统及电子设备
RU2137188C1 (ru) Способ и устройство для определения зоны в объекте, отражающей наивысший уровень структурной организации
JP2006323780A (ja) 画像処理装置、画像処理方法
JPH06340199A (ja) ペンプロッタ作画制御方式

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051004

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080930

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090310

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

R150 Certificate of patent or registration of utility model

Ref document number: 4292293

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term