JP2006039970A - 高次元データを塊に分割する装置 - Google Patents
高次元データを塊に分割する装置 Download PDFInfo
- Publication number
- JP2006039970A JP2006039970A JP2004219285A JP2004219285A JP2006039970A JP 2006039970 A JP2006039970 A JP 2006039970A JP 2004219285 A JP2004219285 A JP 2004219285A JP 2004219285 A JP2004219285 A JP 2004219285A JP 2006039970 A JP2006039970 A JP 2006039970A
- Authority
- JP
- Japan
- Prior art keywords
- cluster
- data
- threshold
- clustering
- clusters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000000284 extract Substances 0.000 claims abstract description 9
- 238000000034 method Methods 0.000 claims description 90
- 230000008569 process Effects 0.000 claims description 60
- 238000012545 processing Methods 0.000 claims description 21
- 238000013075 data extraction Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 11
- 235000012571 Ficus glomerata Nutrition 0.000 claims description 2
- 244000153665 Ficus glomerata Species 0.000 claims description 2
- 238000007796 conventional method Methods 0.000 abstract description 2
- 238000013507 mapping Methods 0.000 abstract 2
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 241001609030 Brosme brosme Species 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 本発明のクラスタリングシステムは、類似性閾値範囲の類似性を有するデータの組合せを抽出する類似集合抽出部と、各データポイントにおけるデータ密度が、密度閾値以上のデータを対象として抽出するデータ抽出部と、クラスタの最小のデータ番号を抽出し、クラスタラベル番号とし、クラスタラベル番号及びクラスタ内のデータ番号の対応表を生成する対応表生成部と、クラスタラベル番号のデータが、他に属することを検出すると、他のクラスタのクラスタラベル番号に書き換えるリスト入替部と複数の閾値組に対するクラスタリング結果を再構成し、適切なクラスタを抽出するクラスタリング再構成部とを有している。
【選択図】 図1
Description
その中でも、特性が似ている(類似性のある)もの、及び違っている(非類似性のある)ものにより、システムが分類のための演算を行い、場合分けをする基準を作り出すクラスタリング方法がある。
このクラスタリング方法にも幾つかの手法があり、以前から知られているクラスタリングのアルゴリズムとしては非階層的クラスタリング法であるk−means法,EM法,階層的クラスタリング法(非特許文献2)、及び密度ベース法(非特許文献1)などがある。
k−means法及びEM法は、アルゴリズムが比較的簡単であり、ある初期分割から始めて、各手法毎に定められた任意の評価基準において良い分割結果が得られる様に、対象を分類し直すことを繰り返して最終的な分割結果を得る。
また、密度ベース法は、所定のデータの密度を有し、距離が近いデータ同士を結合していくものである。
A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise( http://ifsc.ualr.edu/xwxu/publications/kdd-96.pdf) Data Clustering: A Review. ACM Computer Surveys, 31(3), Sept 1999(http://citeseer.nj.nec.com/jain99data.html)
(1)k−means法及びEM法においては、最終的に分類されるクラスタの数を、クラスタリング開始時に指定することが必要であり、その指定数を特定することが困難であった。
例えば、最も良いクラスタの数として、100が良いのかまたは101が良いのかを、実際にクラスタリングする時点において設定することができず、クラスタリングの結果を解析して再設定等を行う必要がある。特に、最終的なクラスタの数が、平均的なクラスタ内の点の数を上回るような場合には、クラスタの数を決定することは不可能であった。
また、地理情報・空間情報などの2次元及び3次元のデータに対するクラスタリングには適しているが、より高次元データに対しては、各データ毎に近傍のデータ密度の演算を行うため、クラスタリングの処理に長い時間がかかる。
本発明のクラスタリングシステムは、各閾値組で生成されたクラスタにおいて、それぞれのクラスタで最も類似性のないデータ間の非類似度が所定の設定非類似度より大きいか否かの検出を行い、前記設定非類似度より大きいクラスタを検出した場合、検出されたクラスタが生成された閾値組より一つ条件の厳しい閾値組におけるクラスタリング結果を目的の結果とするクラスタリング再構成部を有することを特徴とする。
本発明のクラスタリング方法は、前記収束判定過程において、前記検出処理のとき、異なったクラスタに含まれていることを検出した場合、これらのクラスタを結合させ、結合により生成されたクラスタのクラスタラベル番号を、結合したクラスタのクラスタラベル番号の内、最も小さなクラスタラベル番号とすることを特徴とする。
本発明のクラスタリング方法は、クラスタリング結果再構成過程において、各閾値組で生成されたクラスタにおいて、それぞれのクラスタで最も類似性のないデータ間の非類似度が所定の設定非類似度より大きいか否かの検出を行い、前記設定非類似度より大きいクラスタを検出した場合、検出されたクラスタが生成された閾値組より条件の一つ厳しい閾値組におけるクラスタリング結果を目的の結果とすることを特徴とする。
本発明のプログラムは、前記収束判定処理において、前記検出処理を行うとき、異なったクラスタに含まれていることを検出した場合、これらのクラスタを結合させ、結合により生成されたクラスタのクラスタラベル番号を、結合したクラスタのクラスタラベル番号の内、最も小さなクラスタラベル番号とすることを特徴とするコンピュータが実行可能なプログラムである。
本発明のプログラムは、前記クラスタリング結果再構成処理において、各閾値組で生成されたクラスタにおいて、それぞれのクラスタで最も類似性のないデータ間の非類似度が所定の設定非類似度より大きいか否かの検出を行い、前記設定非類似度より大きいクラスタを検出した場合、検出されたクラスタが生成された閾値組より条件の一つ厳しい閾値組におけるクラスタリング結果を目的の結果とすることを特徴とするコンピュータが実行可能なプログラムである。
この類似性の基準としては、2つのデータが似ているか否かを測るための指標として、類似度または非類似度が用いられる。
データ間の類似性を示す距離は非類似度を表すための典型的な例であり、一方、相関係数は類似度の典型的な例である。
本発明のクラスタリングシステムは、類似性を示す基準として、類似度及び非類似度いずれを使用しても構わず、種々の類似性の定義を用いて、クラスタリングを行うことができる。
以降の説明において、非類似度の表現を用いるが、非類似度の閾値に対する大小関係を逆にすることにより、類似度に置き換えても同様である。
データベースDBは、大容量のデータの取り扱いに対応できるRDBMS(Relational DataBase Management System)が用いられており、クラスタリングの対象となるデータを格納している。
今まで、多くのクラスタリングシステムには、主記憶装置を使用することが前提とされていた。しかしながら、主記憶装置は高速にアクセス可能であるが、容量としては限られてしまう。
一方、本発明のクラスタリングシステムは、RDBMSを用いるために、主記憶容量の制限を受けることがない。
ここで、クラスタリング制御部1は、厳しい非類似度閾値及び密度閾値の閾値組から、緩い非類似度閾値及び密度閾値の閾値組まで、各閾値組におけるクラスタリングが終了すると、次の閾値組を選択して、類似度集合抽出部2へ非類似度閾値を出力し、データ抽出部4へ密度閾値ρを出力し、対応表生成部6に初期クラスタを出力する。
X:={x1,x2,…,xn}
D≡{d(i,j)|i,j∈X}
また、類似度集合抽出部2は、上記集合Dにおいて、所定の非類似度閾値ε範囲の類似性を有するデータポイントの組み合わせ、例えば、非類似度が上記非類似度閾値以下となるデータポイントの組合せのデータの集合Dεを抽出する。
Dε≡{d(i,j)∈D|d(i,j)≦ε}
XCORE≡{x∈X|ρ|ε(x)≧ρ}
クラスタリング制御部1は、データ抽出部4の結果を受け取り、直前に行われた閾値組のクラスタリング結果と結合して初期のクラスタQを生成し、対応表生成部6へ出力する。
リスト入替部7は、上記対応表により、クラスタラベル番号であるデータポイントが、他のクラスタに属しているか否かの検出を行い、他のクラスタに属していることが検出されると、このクラスタラベル番号(すなわち、現在のクラスタにおいて最も小さいが、他のクラスタに属していることが検出されたデータポイントのデータ番号)を、上記他のクラスタのクラスタラベル番号に書き換える。
また、リスト入替部7は、書き換え前と書き換え後との対応表が同一、すなわち対応表に変化が無くなることを検出するまで書き換え処理を行う。
収束判定部8は、上記リスト入替部7がクラスタラベル番号を書き換えることにより生成されたクラスタ間において、非類似度閾値ε範囲内のデータポイントが異なったクラスタに含まれているか否かを検出する。
クラスタリング制御部1は、リスト入替部7におけるクラスタラベルの書き換え処理と、収束判定部8における閾値ε範囲内のデータが異なったクラスタに含まれているか否かの検出処理とが、双方の処理結果が収束するまで行わせる。
また、クラスタリング再構成部5は、各非類似度閾値ε及び密度閾値ρの閾値組で生成されたクラスタにおいて、それぞれのクラスタで最も類似性のないデータ間の非類似度が所定の設定非類似度より大きいか否かの検出を行い、上記設定非類似度より大きいクラスタを検出した場合、検出されたクラスタが生成された閾値組より条件の一つ厳しい閾値組のクラスタをクラスタリング結果とする。
すなわち、クラスタリング再構成部5は、クラスタに属するデータ間の非類似度の比較を行うことで、設定された非類似度範囲内にないデータポイントを含むクラスタを淘汰し、得られた複数の閾値組に対するクラスタリング結果を再構成し、再構成された各閾値組におけるクラスタリング結果を、全体として一つのクラスタリング結果として抽出する。
クラスタリングを行うために、2つのデータが似ているか否かを判定するのに、類似度及び非類似度のいずれを用いても同様な処理を行うことが可能であるが、以下の説明においては、非類似度を用いたクラスタリングについて
ステップS1において、クラスタリング制御部1は、まず、複数の非類似度閾値と密度閾値の閾値組{(ε1,ρ1),(ε2,ρ2),...,(εm,ρm)}を、設定する。この各閾値組の非類似度閾値と密度閾値は後述するツリー構造を作成するための基準を満たしている必要がある。
そして、クラスタリング制御部1は、このなかから、厳しい条件の閾値組を選択して、順次、厳しい条件の閾値組から順番に、クラスタリングの処理を実施していく。
全データポイント
X:={x1,x2,…,xn}
に含まれるデータポイント同士の非類似度の集合D
D≡{d(i,j)|i,j∈X}
を生成する。
そして、類似集合抽出部2は、非類似度が非類似度閾値ε以下となるデータ間の組み合わせの集合Dε
Dε≡{d(i,j)∈D|d(i,j)≦ε}
を、集合Dから抽出する。
すなわち、
ρ|ε(x)≧ρ
であり、左辺の密度ρはεを母数(パラメータ)とする密度計算のための関数であり、右辺のρは設定された密度閾値であり、密度計算は、ε以内の非類似度のみが影響を及ぼすような計算方法を用いる。
XCORE≡{x∈X|ρ|ε (x)≧ρ}
として求める。
これにより、非類似度が大きいもの、及び周囲に他のデータポイントが少なく、クラスタが生成される可能性がないデータポイントを排除する。
ここで、クラスタリング制御部1は、データ抽出部4の抽出した各データポイントの所属するクラスタを表現するため、各クラスタに対してクラスタラベルを与える。
また、クラスタリング制御部1は、クラスタの初期値として、直前に実行された閾値組に対する結果を初期クラスタとする。また、この中に含まれておらず、XCOREに含まれているデータポイントは、おのおの一つのクラスタとする。
ここで、対応表生成部6は、クラスタラベル番号を付加することにより、すなわち最も小さいデータポイント番号を代表してクラスタラベル番号としたクラスタをクラスタQとする。
この時点において、クラスタと見なされているクラスタQは、上記クラスタラベル番号により代表されるデータポイントの集合である。
次に、図4を用いて、リスト入替部7によるクラスタQ間の接続処理を説明する。
図4においては、右の表のデータポイント番号をA、クラスタラベル番号をBとし、また左の表のデータポイント番号をC、クラスタラベル番号をDとする。なお、図4の右及び左の2つの表は全く同一のデータの対応、すなわち図3の表を示すものである。
例えば、リスト入替部7は、データポイント番号3(A)がクラスタラベル番号1(B)に対応していることを検出し、そして、このクラスタラベル番号1(B)が左のテーブルにおいて、データポイント番号1(C)に対応していることを検出し、さらに、このデータポイント番号1(C)がクラスタラベル番号1(D)に対応していることを検出する。
一方、リスト入替部7は、データポイント番号4(A)がクラスタラベル番号3(B)に対応していることを検出し、これは、クラスタラベル番号3(B)が左のテーブルにおいてデータポイント番号3(C)に対応していることを検出する。
さらに、リスト入替部7は、データポイント番号3(C)がクラスタラベル番号1(D)に対応していることを検出する。
これにより、リスト入替部7は、クラスタラベル番号3(B)とクラスタラベル番号1(D)が相違しているため、同一のクラスタに属していないことを検出して、データポイント番号4(A)に対応するクラスタ番号を1(D)に変更する。
これにより、リスト入替部7は、クラスタQが複数結合されたクラスタRを作成する。
一方、リスト入替部7は、対応表において、1つでもクラスタラベル番号(B)が変化した場合、ステップS4の処理を繰り返す。
しかしながら、上述したステップS4の処理は、単なる図3の対応表を用いた番号の操作なので、複雑な形状のクラスタに対しては、十分な収束をせず、非類似度の小さなデータポイントを有したクラスタQが分割された状態のままとなる可能性がある。
たとえば、データポイント番号が大きいデータポイント同士がまとまり、クラスタが接続されている場合、上述したように、ステップS4及びS5の操作では収束しない。
このとき、データポイント5及び6が、非類似度において、非類似度閾値εより小さく、類似しているため、この2つのクラスタQ1及びQ2は結合処理されなければならないが、クラスタQ1はクラスタラベル番号1に収束しており、クラスタQ2はクラスタラベル番号2に収束している。
このため、ステップS4及び5における処理では、大きなデータポイント番号が小さなデータポイント番号に置き換えられてしまうため、直接データポイント5及び6が直接に非類似度の検出が行われず、また置き換えられたデータポイント番号1及び2が非類似度閾値εより大きな非類似度であるため、直接の対応関係になく、クラスタQ1及びQ2がリスト入れ替え処理のみで結合されることはない。
すなわち、ステップS6において、収束判定部8は、集合Dεに含まれるデータポイント番号の組み合わせにおいて、異なったクラスタラベル番号と対応関係となっているデータポイント番号の有無の検出を行う。
これにより、収束判定部8は、非類似度が非類似度閾値より小さなデータポイント同士が異なったクラスタに属していることを検出すると、全体としてクラスタリングの処理が収束していないとして、処理をステップS7へ進める。
一方、収束判定部8は、非類似度が非類似度閾値より小さなデータポイント番号の組み合わせにおいて異なったクラスタに属していないことを検出すると、全体としてクラスタリングの処理が収束しているとして、処理をステップS8へ進める。
このとき、このクラスタRに含まれるデータポイントにおいて、最も小さなデータポイント番号を、このクラスタRを代表するクラスタラベル番号とし、テーブルのデータポイント番号(C)に対応するクラスタラベル番号(D)を書き換え、処理をステップS4へ戻し、再度、図3の対応表を用いたリスト入替処理を行う。
つまり、図3に示すテーブルにおいて、データポイント番号1,2,3,4,5,6のデータポイント各々が、クラスタラベル番号1のクラスタに属するように書き換えられる。
そして、クラスタリング制御部1は、閾値組(εi,ρi)が終了したことを検出すると、全ての閾値組のクラスタリングが終了していないことを検出して、処理をステップS2に戻し、次に設定された閾値組に対応したクラスタリングの処理を行う。
このとき、閾値組の非類似度閾値及び密度閾値が序々に緩くなるように、(εm,ρm)→…→(ε2,ρ2)→(ε1,ρ1)と順次設定して、各非類似度閾値毎にステップS2からステップS8の処理を行い、各比類似度閾値及び密度閾値の組毎のクラスタリングを行う。
一方、クラスタリング制御部1は、予め設定した閾値の組み合わせ(例えば、{(ε1,ρ1),(ε2,ρ2),……,(εm,ρm)})における全ての閾値に対してクラスタリングが行われたことを検出すると、処理をステップS9へ進める。
すなわち、緩い閾値を有する閾値組で生成されたクラスタと、厳しい閾値を有する閾値組で生成されたクラスタとは包含関係(緩い閾値を有する閾値組のクラスタが厳しい閾値を有する閾値組のクラスタを包含する)にできる。これは、密度関数・閾値の与え方に依存する。
例えば、非類似度として距離を、密度関数として、「半径ε以内に存在するデータポイントの数」を採用した場合には、密度閾値として一定値を採用し、非類似度閾値として、厳しい方として小さい値を使用し、緩い方として大きい値を採用する。
次に、ステップS9において、クラスタリング結果再構成部5は、閾値組が緩くなる方向に順次並べることにより、各閾値組で生成されたクラスタを上記包含関係とすることができ、図6に示すようにツリー構造を構成する。
すなわち、クラスタリング結果再構成部5は、複数の閾値組(閾値,密度閾値)を用い、各閾値組毎にクラスタリングが行われることにより得られた、クラスタを閾値組の順番に、すなわち緩い閾値から厳しい閾値まで順に並べることにより、階層構造クラスタリングに比較して短い時間で、ツリー構造を容易に構成する。
上述した閾値は、クラスタの生成状態を確認してユーザが設定しても良いし、また、以下の様に集合Dにおいて、含まれるデータポイントの組み合わせにおける非類似度を求め、順位(Rank)という考え方を用いて、システムにより設定するようにしても良い。
Rank:=10N/6
で定義され、上記式において、N=1,2,…である。
ε10=(101/6 ≒1番目に小さな非類似度)
ε9=(102/6 ≒2番目に小さな非類似度)
ε8=(103/6 ≒3番目に小さな非類似度)
ε7=(104/6 ≒4番目に小さな非類似度)
ε6=(105/6 ≒6番目に小さな非類似度)
ε5=(106/6 ≒10番目に小さな非類似度)
ε4=(107/6 ≒14番目に小さな非類似度)
ε3=(108/6≒21番目に小さな非類似度)
ε2=(109/6 ≒31番目に小さな非類似度)
ε1=(1010/6≒46番目に小さな非類似度)
のように、各々何番目に小さい非類似度により(非類似度の順位を基準として)設定しても良い。
ε10は「1.4677…」、ε9は「2.1544…」となり、非類似度閾値が設定されることとなる。
等高線のように示される表示の濃さは、各非類似度閾値におけるクラスタ形状を示すものであり、上述したように包含関係にあるため、色の濃い部分はより小さな非類似度閾値によりクラスタリングされたものである。
具体的には、クラスタリング結果再構成部5は、一つのデータポイントに着目し、閾値の厳しい方から順番に処理を行い、上記制限値を超える直前の閾値におけるクラスタリング結果を適切なクラスタとして抽出する。
2…類似度集合抽出部
4…データ抽出部
5…クラスタリング結果再構成部
6…対応表生成部
7…リスト入替部
8…収束判定部
DB…データベース
Claims (17)
- クラスタリング対象のデータから、所定の類似性閾値範囲の類似性を有するデータの組合わせの集合を抽出する類似集合抽出部と、
各々のデータを対象データとし、この対象データを中心として、この中心から前記類似性閾値範囲内から計算可能なデータ密度が、所定の密度閾値以上である対象データの集合を抽出するデータ抽出部と、
各クラスタに含まれるデータから類似性閾値範囲以内に存在するデータのデータポイント番号の中から最も小さな番号を抽出し、このデータのデータ番号をクラスタラベル番号として、クラスタラベル番号及びこのクラスタラベル番号の示すクラスタに含まれるデータのデータポイント番号の対応表を生成する対応表生成部と、
前記対応表により、クラスタラベル番号であるデータが、他のクラスタに属しているか否かの検出を行い、他のクラスタに属していることが検出されると、このクラスタラベル番号を、他のクラスタのクラスタラベル番号に書き換えるリスト入替部と、
を有し、
前記リスト入替部が、書き換え前と書き換え後との表が同一となることを検出するまで書き換え処理を行うことを特徴とするクラスタリングシステム。 - 前記リスト入替部がクラスタラベルを書き換えることにより生成されたクラスタ間において、前記閾値範囲内のデータが異なったクラスタに含まれているか否かを検出する収束判定部を有することを特徴とする請求項1記載のクラスタリングシステム。
- 前記収束判定部が、前記検出処理において、異なったクラスタに含まれていることを検出した場合、これらのクラスタを結合させ、結合により生成されたクラスタのクラスタラベル番号を、結合したクラスタのクラスタラベル番号の内、最も小さなクラスタラベル番号とすることを特徴とする請求項2記載のクラスタリングシステム。
- 前記リスト入替部におけるクラスタラベルの書き換え処理と、閾値範囲内のデータが異なったクラスタに含まれているか否かの検出処理とを、双方の処理結果が収束するまで行うことを特徴とする請求項2または請求項3に記載のクラスタリングシステム。
- 前記類似性閾値及び密度閾値の閾値組が複数設定され、条件の厳しい閾値組から緩い閾値組へ順次、組毎の条件によりクラスタリングを実施するクラスタリング制御部を有することを特徴とする請求項1から請求項4のいずれかに記載のクラスタリングシステム。
- 複数の閾値組で生成されたクラスタを、順次、閾値組の条件が緩くなる方向に並べることにより、クラスタのツリー構造を生成することを特徴とする請求項5に記載のクラスタリングシステム。
- 各閾値組で生成されたクラスタにおいて、それぞれのクラスタで最も類似性のないデータ間の非類似性が所定の設定非類似性より大きいか否かの検出を行い、前記設定非類似性より大きいクラスタを検出した場合、検出されたクラスタが生成された閾値組より一つ条件の厳しい閾値組におけるクラスタリング結果を目的の結果とするクラスタリング再構成部を有することを特徴とする請求項6に記載のクラスタリングシステム。
- クラスタリング対象のデータから、所定の類似性閾値範囲の類似性を有するデータの組合わせの集合を抽出する類似集合抽出過程と、
各々のデータを対象データとし、この対象データを中心として、この中心から前記類似性閾値範囲内から計算可能なデータ密度が、所定の密度閾値以上である対象データの集合を抽出するデータ抽出過程と、
各クラスタに含まれるデータから類似性閾値範囲以内に存在するデータのデータポイント番号の中から最も小さな番号を抽出し、このデータのデータ番号をクラスタラベル番号として、クラスタラベル番号及びこのクラスタラベル番号の示すクラスタに含まれるデータのデータポイント番号の対応表を生成する対応表生成過程と、
前記対応表により、クラスタラベル番号であるデータが、他のクラスタに属しているか否かの検出を行い、他のクラスタに属していることが検出されると、このクラスタラベル番号を、他のクラスタのクラスタラベル番号に書き換えるリスト入替過程と、
を有し、
前記リスト入替過程において、書き換え前と書き換え後との表が同一となることを検出するまで書き換え処理を行うことを特徴とするクラスタリング方法。 - 前記リスト入替過程において、クラスタラベルを書き換えることにより生成されたクラスタ間に、前記閾値範囲内のデータが異なったクラスタに含まれているか否かを検出する収束判定過程を有することを特徴とする請求項8記載のクラスタリング方法。
- 前記収束判定過程において、前記検出処理のとき、異なったクラスタに含まれていることを検出した場合、これらのクラスタを結合させ、結合により生成されたクラスタのクラスタラベル番号を、結合したクラスタのクラスタラベル番号の内、最も小さなクラスタラベル番号とすることを特徴とする請求項9記載のクラスタリング方法。
- 複数の閾値組で生成されたクラスタを、順次、閾値組の条件が緩くなる方向に並べることにより、クラスタのツリー構造を生成するクラスタリング結果再構成過程を有することを特徴とする請求項10記載のクラスタリング方法。
- 前記クラスタリング結果再構成過程において、各閾値組で生成されたクラスタにおいて、それぞれのクラスタで最も類似性のないデータ間の非類似度が所定の設定非類似度より大きいか否かの検出を行い、前記設定非類似度より大きいクラスタを検出した場合、検出されたクラスタが生成された閾値組より一つ条件の厳しい閾値組におけるクラスタリング結果を目的の結果とすることを特徴とする請求項11に記載のクラスタリング方法。
- 複数のデータに対して、各々のデータの類似性に基づいてクラスタリングを行うクラスタリングプログラムであり、
クラスタリング対象のデータから、所定の類似性閾値範囲の類似性を有するデータの組合わせの集合を抽出する組合集合抽出処理と、
各々のデータを対象データとし、この対象データを中心として、この中心から前記類似性閾値範囲内から計算可能なデータ密度が、所定の密度閾値以上である対象データの集合を抽出するデータ抽出処理と、
各クラスタに含まれる対象データから類似性閾値範囲以内に存在する対象データの中の最も小さな番号をクラスタラベル番号として、クラスタラベル番号及びこのクラスタラベル番号の示すクラスタに含まれるデータのデータポイント番号の対応表を生成する対応表生成処理と、
前記対応表により、クラスタラベル番号であるデータが、他のクラスタに属しているか否かの検出を行い、他のクラスタに属していることが検出されると、このクラスタラベル番号を、他のクラスタのクラスタラベル番号に書き換えるリスト入替処理と、
を有し、
前記リスト入替処理において、書き換え前と書き換え後との表が同一となることを検出するまで書き換え処理とを有することを特徴とするコンピュータが実行可能なプログラム。 - 前記リスト入替処理において、クラスタラベルを書き換えることにより生成されたクラスタ間に、前記閾値範囲内のデータが異なったクラスタに含まれているか否かを検出する収束判定部を有することを特徴とする請求項13記載のコンピュータが実行可能なプログラム。
- 前記収束判定処理において、前記検出処理を行うとき、異なったクラスタに含まれていることを検出した場合、これらのクラスタを結合させ、結合により生成されたクラスタのクラスタラベル番号を、結合したクラスタのクラスタラベル番号の内、最も小さなクラスタラベル番号とすることを特徴とする請求項14記載のコンピュータが実行可能なプログラム。
- 複数の閾値組で生成されたクラスタを、順次、閾値組の条件が緩くなる方向に並べることにより、クラスタのツリー構造を生成するクラスタリング結果再構成処理を有することを特徴とする請求項15記載のコンピュータが実行可能なプログラム。
- 前記クラスタリング結果再構成処理に措いて、各閾値組で生成されたクラスタにおいて、それぞれのクラスタで最も類似性のないデータ間の非類似度が所定の設定非類似度より大きいか否かの検出を行い、前記設定非類似度より大きいクラスタを検出した場合、検出されたクラスタが生成された閾値組より一つ条件の厳しい閾値組におけるクラスタリング結果を目的の結果とすることを特徴とする請求項16に記載のコンピュータが実行可能なプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004219285A JP3995099B2 (ja) | 2004-07-27 | 2004-07-27 | 高次元データを塊に分割する装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004219285A JP3995099B2 (ja) | 2004-07-27 | 2004-07-27 | 高次元データを塊に分割する装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006039970A true JP2006039970A (ja) | 2006-02-09 |
JP3995099B2 JP3995099B2 (ja) | 2007-10-24 |
Family
ID=35904900
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004219285A Expired - Lifetime JP3995099B2 (ja) | 2004-07-27 | 2004-07-27 | 高次元データを塊に分割する装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3995099B2 (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102063485A (zh) * | 2010-12-29 | 2011-05-18 | 深圳市永达电子股份有限公司 | 一种在线分析网络流中短文本信息聚类的方法 |
KR101052592B1 (ko) * | 2008-11-19 | 2011-07-29 | 한국과학기술정보연구원 | 계층적 클러스터링에서 최적의 군집 분할 방법 및 시스템 |
WO2016170600A1 (ja) * | 2015-04-21 | 2016-10-27 | 株式会社日立製作所 | データ分析支援システム及びデータ分析支援方法 |
JP2017071333A (ja) * | 2015-10-08 | 2017-04-13 | 株式会社デンソー | 運転支援装置 |
CN109299259A (zh) * | 2018-09-26 | 2019-02-01 | 深圳壹账通智能科技有限公司 | 企业发票数据监测方法、装置、计算机设备和存储介质 |
CN109613509A (zh) * | 2018-12-30 | 2019-04-12 | 北京润科通用技术有限公司 | 一种车载雷达散射点的聚类方法及装置 |
CN110083475A (zh) * | 2019-04-23 | 2019-08-02 | 新华三信息安全技术有限公司 | 一种异常数据的检测方法及装置 |
CN111160463A (zh) * | 2019-12-30 | 2020-05-15 | 深圳市商汤科技有限公司 | 数据处理方法及装置、处理器、电子设备、存储介质 |
CN113255710A (zh) * | 2020-02-12 | 2021-08-13 | 北京沃东天骏信息技术有限公司 | 手机号码分类方法、装置、设备及存储介质 |
CN114510962A (zh) * | 2022-01-04 | 2022-05-17 | 汕头大学 | 一种基于二元密度聚类的产品归类分析方法 |
-
2004
- 2004-07-27 JP JP2004219285A patent/JP3995099B2/ja not_active Expired - Lifetime
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101052592B1 (ko) * | 2008-11-19 | 2011-07-29 | 한국과학기술정보연구원 | 계층적 클러스터링에서 최적의 군집 분할 방법 및 시스템 |
CN102063485A (zh) * | 2010-12-29 | 2011-05-18 | 深圳市永达电子股份有限公司 | 一种在线分析网络流中短文本信息聚类的方法 |
US10509808B2 (en) | 2015-04-21 | 2019-12-17 | Hitachi, Ltd. | Data analysis support system and data analysis support method |
WO2016170600A1 (ja) * | 2015-04-21 | 2016-10-27 | 株式会社日立製作所 | データ分析支援システム及びデータ分析支援方法 |
JPWO2016170600A1 (ja) * | 2015-04-21 | 2017-06-08 | 株式会社日立製作所 | データ分析支援システム及びデータ分析支援方法 |
JP2017071333A (ja) * | 2015-10-08 | 2017-04-13 | 株式会社デンソー | 運転支援装置 |
CN109299259A (zh) * | 2018-09-26 | 2019-02-01 | 深圳壹账通智能科技有限公司 | 企业发票数据监测方法、装置、计算机设备和存储介质 |
CN109613509A (zh) * | 2018-12-30 | 2019-04-12 | 北京润科通用技术有限公司 | 一种车载雷达散射点的聚类方法及装置 |
CN109613509B (zh) * | 2018-12-30 | 2021-07-27 | 北京润科通用技术有限公司 | 一种车载雷达散射点的聚类方法及装置 |
CN110083475A (zh) * | 2019-04-23 | 2019-08-02 | 新华三信息安全技术有限公司 | 一种异常数据的检测方法及装置 |
CN111160463A (zh) * | 2019-12-30 | 2020-05-15 | 深圳市商汤科技有限公司 | 数据处理方法及装置、处理器、电子设备、存储介质 |
CN113255710A (zh) * | 2020-02-12 | 2021-08-13 | 北京沃东天骏信息技术有限公司 | 手机号码分类方法、装置、设备及存储介质 |
CN113255710B (zh) * | 2020-02-12 | 2024-05-28 | 北京沃东天骏信息技术有限公司 | 手机号码分类方法、装置、设备及存储介质 |
CN114510962A (zh) * | 2022-01-04 | 2022-05-17 | 汕头大学 | 一种基于二元密度聚类的产品归类分析方法 |
Also Published As
Publication number | Publication date |
---|---|
JP3995099B2 (ja) | 2007-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10713258B2 (en) | Systems and methods for visualizing and manipulating graph databases | |
US10916333B1 (en) | Artificial intelligence system for enhancing data sets used for training machine learning-based classifiers | |
JP6047017B2 (ja) | パターン抽出装置および制御方法 | |
Yun et al. | Mining maximal frequent patterns by considering weight conditions over data streams | |
Doraiswamy et al. | Efficient algorithms for computing Reeb graphs | |
Galbrun et al. | From black and white to full color: extending redescription mining outside the Boolean world | |
Tomar et al. | A survey on pre-processing and post-processing techniques in data mining | |
CN104820708B (zh) | 一种基于云计算平台的大数据聚类方法和装置 | |
CN104809244B (zh) | 一种大数据环境下的数据挖掘方法和装置 | |
Gong et al. | Novel heuristic density-based method for community detection in networks | |
KR20140006785A (ko) | 객체에 스코어를 제공하는 방법, 그리고 결정-지원 시스템 | |
JP6167767B2 (ja) | インデックス生成装置及び検索装置 | |
Hetland et al. | Ptolemaic access methods: Challenging the reign of the metric space model | |
JP3995099B2 (ja) | 高次元データを塊に分割する装置 | |
Hossain et al. | Scatter/gather clustering: Flexibly incorporating user feedback to steer clustering results | |
KR101467707B1 (ko) | 지식 베이스의 개체 매칭 방법 및 이를 위한 장치 | |
CN115168326A (zh) | Hadoop大数据平台分布式能源数据清洗方法及系统 | |
Sulaiman et al. | Intelligent web caching using machine learning methods | |
Ma et al. | In-memory distributed indexing for large-scale media data retrieval | |
Bouguessa | A practical approach for clustering transaction data | |
Gu et al. | A parallel varied density-based clustering algorithm with optimized data partition | |
Dasari et al. | Maximal clique enumeration for large graphs on hadoop framework | |
WO2023050461A1 (zh) | 一种数据的聚类方法、系统及存储介质 | |
Agrawal et al. | High performance big data clustering | |
JP6065001B2 (ja) | データ検索装置、データ検索方法およびデータ検索用プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070227 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070426 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070717 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070725 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100810 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3995099 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100810 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110810 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120810 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130810 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |