JP3712583B2 - 情報クラスタリング装置および情報クラスタリングプログラムを記録した記録媒体 - Google Patents

情報クラスタリング装置および情報クラスタリングプログラムを記録した記録媒体 Download PDF

Info

Publication number
JP3712583B2
JP3712583B2 JP2000039401A JP2000039401A JP3712583B2 JP 3712583 B2 JP3712583 B2 JP 3712583B2 JP 2000039401 A JP2000039401 A JP 2000039401A JP 2000039401 A JP2000039401 A JP 2000039401A JP 3712583 B2 JP3712583 B2 JP 3712583B2
Authority
JP
Japan
Prior art keywords
map
information
cluster
distance
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000039401A
Other languages
English (en)
Other versions
JP2001229362A (ja
Inventor
勝博 遠藤
雅浩 上野
隆也 田辺
学 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2000039401A priority Critical patent/JP3712583B2/ja
Publication of JP2001229362A publication Critical patent/JP2001229362A/ja
Application granted granted Critical
Publication of JP3712583B2 publication Critical patent/JP3712583B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2137Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on criteria of topology preservation, e.g. multidimensional scaling or self-organising maps

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、ベクトルとして与えられている情報を、その類似度から分類する情報クラスタリング装置に関する。
【0002】
【従来の技術】
情報のクラスタリングを行う装置として、k−mean 法やIsodata法の最近距離法に基づくアルゴリズム(長尾真、パターン情報処理、コロナ社、pp. 117-120, 1983)を用いたものがある。これらのアルゴリズムは、入力情報をn次元のベクトルとして扱い、情報間の類似度の差を、例えばそのユークリッド距離で表現し、その類似度からクラスタ分けを行う。
【0003】
K−mean法は、クラスタ数Kを指定して、情報をK 個のクラスタに分類する方法である。最初にクラスタ数Kを指定し、K個のクラスタの中心となるベクトル(クラスタ中心)を与える。次に、すべての入力情報を最も距離の近いクラスタ中心を持つクラスタに分類する。そして、各クラスタにおいて、それに属する入力情報とクラスタ中心の距離を計算し、その平均をとり、それを新たなクラスタ中心とする。このクラスタ中心に対して、入力情報を再分類する。これを繰り返してクラスタリングを行う。
【0004】
Isodata法は、最初にいくつかのパラメータを指定して、それにしたがって情報を分類する方法である。最初にクラスタ数の初期値、一つのクラスタの要素の数に関するパラメータ、クラスタの広がりに関するパラメータ、クラスタ間の距離に関するパラメータ、クラスタの統合を行う最大数を指定する。基本的には、K−mean 法と同様のクラスタリングを行う。クラスタリングの途中で、設定したパラメータ値にしたがって、小さなクラスタは統合したり、大きなクラスタは分割を行いながら進めていく。
【0005】
【発明が解決しようとする課題】
K−mean法では、クラスタ数Kを指定する必要がある。このKが適切でない場合には情報の分類が有効に行うことができない。未知の分布を持つ情報をクラスタリングする場合、Kを適切に決定することは困難である。
【0006】
Isodata法では、クラスタの大きさや個数を固定することなしにクラスタリングを行うことが可能である。しかし、いくつかのパラメータがクラスタリングの結果に大きく影響し、未知の分布を持つ情報をクラスタリングする場合には、パラメータを適切に決定することは困難である。
【0007】
本発明の目的は、未知の分布を持つ入力情報を、煩雑なパラメータを設定することなしに、効率的に分類することのできる情報クラスタリング装置および情報クラスタリングプログラムを記録した記録媒体を提供することである。
【0008】
【課題を解決するための手段】
本発明の情報クラスタリング装置は、情報を多次元ベクトルとして入力する情報入力手段と、入力された情報ベクトルを自己組織化マップ(SOM)上にその類似度の高い情報毎にマッピングするマッピング手段と、自己組織化マップから距離マップを生成する距離マップ生成手段と、距離マップからクラスタの境界をみつけ、クラスタリングマップを生成するクラスタリングマップ生成手段と、クラスタリングマップ上に作成されたクラスタの境界からクラスタ情報を取り出すクラスタ認識手段を有する。
【0009】
情報入力手段により、分類する情報を多次元の情報ベクトルとしてシステムに入力する。入力された情報ベクトルと同じ次元のベクトル(参照ベクトル)を内部状態として持つユニットから構成されたマップを用意する。これがSOMとなる。マッピング手段により、自己組織化アルゴリズムを用いて、このSOM上のユニットの持つ参照ベクトルを、入力情報の分布を近似するように変化させていく。すべての情報ベクトルに対して、最も近い参照ベクトルを持つユニットを探索し、その位置に情報をマッピングする。結果的に、類似度の高い情報はマップ上で近い位置に配置される。
【0010】
クラスタの違いを情報の分布が異なっているものとする。分布の違いはSOMを構成するユニットの持つ参照ベクトル間の差で表現できる。距離マップ生成手段により、ユニットの持つ参照ベクトルからユニットの隣同士の類似度の差を算出し、SOMのユニットとその値からなるマップを生成し、これを距離マップとする。クラスタリング生成手段により、距離マップからクラスタの境界をみつけ、クラスタ境界を記述したクラスタリングマップを生成する。距離マップ上では、類似度の差となる値を持つユニットが、クラスタの境界となるユニットである。クラスタ認識手段により、クラスタリングマップからクラスタ情報を取り出す。
【0011】
ここで用いる自己組織化アルゴリズムは、初期パラメータに対してロバスト性が強いという性質を持っているので、従来のような煩雑なパラメータの設定が不要である。さらに、情報の分布をSOM上に近似し、クラスタリングを行うので、初期にクラスタ数を設定することなしに、クラスタリングを行うことができる。
【0012】
【発明の実施の形態】
次に、本発明の実施の形態について図面を参照して説明する。
【0013】
図1を参照すると、本発明の一実施形態の情報クラスタリング装置は情報入力部11とマッピング部12と距離マップ生成部13とクラスタリングマップ生成部14とクラスタ認識部15から構成されている。
【0014】
情報入力部11は情報を、n個の数値要素からなるベクトル
【0015】
【外1】
Figure 0003712583
として入力する。ここで、iは情報の番号を表す。
【0016】
マッピング部12は、入力された情報(入力ベクトル)を自己組織化マップ上にその類似度の高い順にマッピング(配置)する。すなわち、図2に示すように、まず、ステップ21は情報入力部11から情報ベクトルを受け取る。ステップ22に、ニューラルネットワークの一種である自己組織化マップ(Kohonen, T. : Self−Organizing Maps, Springer−Verlag Berlin Heidelberg, 1995)を利用して、自己組織化アルゴリズムにより、情報の分布を近似するように自己組織化マップを生成する。ステップ23にステップ22で生成された自己組織化マップを距離マップ生成部13に渡す。自己組織化マップは、図3に示すように、入力層31と出力層32から構成される。入力層31は、入力ベクトルの次元の数であるn個のユニット33から構成される。入力層31は入力されたベクトルを出力層32に渡す働きをする。出力層32は、例えばe×f=k個のユニット34から構成される2次元のマップとする。出力層32を構成するユニット34は、それぞれ参照ベクトル
【0017】
【外2】
Figure 0003712583
を持つ。参照ベクトルは入力ベクトルと同じ次元を持つ。
【0018】
次に、自己組織化アルゴリズムを図4により説明する。
【0019】
自己組織化アルゴリズムは、自己組織化マップの出力層32の各ユニット34の参照ベクトルを入力ベクトルに近づけていくことによって進められる。最終的には、入力情報の持つ分布を2次元の出力層32に近似することになる。
【0020】
まず、ステップ40に、情報ベクトルを自己組織化マップの入力層31に入力する。ステップ41に、繰り返し回数tを0に初期化し、ステップ42に入力ベクトルの数iを0に初期化する。ステップ43に入力ベクトル
【0021】
【外3】
Figure 0003712583
に最も近い参照ベクトルを持つユニットcを探索する。探索は
【0022】
【数1】
Figure 0003712583
にしたがって行う。
【0023】
すなわち、i番目の入力ベクトル
【0024】
【外4】
Figure 0003712583
と出力層32のj番目のユニットの参照ベクトル
【0025】
【外5】
Figure 0003712583
の距離が最小となる出力層32のユニットjをみつけ、それをユニットcとする。ここで、入力ベクトルと参照ベクトルの距離は、例えば
【0026】
【数2】
Figure 0003712583
2のようなユークリッド距離で表現する。
【0027】
次に、ステップ44に、出力層32のユニットcの近傍集合を形成する。この近傍集合は例えば、
【0028】
【数3】
Figure 0003712583
で定義する。式(3)でdis(j, c)はユニットjとユニットcの距離を表し、ユニットcからの距離がr(t)より近いユニットjを集めたものを近傍集合とする。例えば、51, 52(図5)のようにとる。51はユニットcを表し、52は近傍集合を表す。ここでは近傍集合52はユニットcを含み、25個のユニットが含まれることとなる。
【0029】
次に、ステップ45に近傍集合52に属するユニットの参照ベクトルを
【0030】
【数4】
Figure 0003712583
にしたがって更新する。すなわち、近傍集合Nc(t) に属するユニットの参照ベクトルはその値を式(4)にしたがって更新し、それ以外のユニットの参照ベクトルは何もしない。ここで、距離r(t)と学習係数α(t)は、学習回数tに対して、一様に減少させる。以上のステップ43から45までの処理を繰り返し回数T、入力ベクトル数dだけ繰り返す(ステップ46〜49)。
【0031】
最後に、ステップ50に、ステップ43と同様に各入力ベクトルに最も近い参照ベクトルを持つユニットを探索し、出力層32にマッピングする。
【0032】
距離マップ生成部13は、自己組織化マップの出力層32のユニットの参照ベクトルの値から距離マップを生成する。自己組織化マップの出力層32のそれぞれの軸i, jについて、各ユニットに対する距離
【0033】
【数5】
Figure 0003712583
を計算する。この値をマップi×jのマップ上に配置させ、3次元の距離マップ61(図6)を生成する。出力層32の各ユニットの参照ベクトルは、各ユニットの類似度が高ければ、距離dmij(式(5))が小さくなり、類似度が低い場合は大きくなる。距離マップ61を作成すると、クラスタ間の境界に当たる部分が大きな値を持ち、クラスタ内は小さな値を持つこととなる。
【0034】
クラスタリングマップ生成部14は、距離マップ61からクラスタリングマップを生成する。図7はクラスタリングマップを説明する図である。距離マップ61に山の尾根だけを取り出して、それをクラスタリングの境界72とし、クラスタリングマップ71とする。クラスタの境界は、閉包となるように作成する。例えば、少し境界がかけている場合は、その前後の距離マップ61の状態から境界を作り出す処理を行う。実際、距離マップ61は、大きな山脈や小さな山脈があるので、閾値を設定して、その値以上であればクラスタ境界とする。
【0035】
クラスタ認識部15は、クラスタリングマップ71からクラスタ境界を認識し、分類された入力情報の情報を取り出す。図8はクラス認識部15を説明する図である。クラスタリングマップ71の上に入力ベクトルを配置させた状態を表している。ユニット81はクラスタの境界を示しており、82は入力ベクトルを表している。83はクラスタを表しており、図8では、入力ベクトルが4つのクラスタに分類されていることを示している。
【0036】
図9は、クラスタリングマップ71上に配置された入力ベクトルを、クラスタ毎に認識する実際の例を説明する図である。まず、入力ベクトルを一つ指定し、それが位置するユニット91を求める。次に、そのユニットの上下左右93を見て、それらのユニットに当たる入力ベクトルを探し、取り出す。次に、またユニットの上下左右94を見て、それらのユニットに当たる入力ベクトルを取り出す。同様に、96、97と探していき、クラス内すべてのユニットの探索が終了すると、そのとき取り出された入力ベクトルが同じクラスタに属するものとなる。次に、また入力ベクトルを一つ指定して、同様の走査を行い、すべての入力ベクトルがどれかのクラスタに分類されたら処理を終了する。なお、92(灰色の丸)はクラスタ境界を示している。
【0037】
図10を参照すると、本発明の他の実施形態の情報クラスタリング装置は、入力装置101と記憶装置102と出力装置103と記録媒体104とデータ処理装置105で構成されている。
【0038】
入力装置101は情報を多次元ベクトルとして入力する。出力装置103はクラスタ情報を出力する。記録媒体104は以上説明した情報入力部11からクラスタ認識部15までの処理からなる情報クラスタリングプログラムを記録した、フロッピィ・ディスク、CD−ROM、光磁気ディスク等の記録媒体である。データ処理装置105はCPUを含み、記録媒体104から情報クラスタリングプログラムを読み込んで、これを実行する。
【0039】
【発明の効果】
以上説明したように、本発明は、入力ベクトルを自己組織化マップにより、その分布を近似して、2次元マップ上に類似度が高い順に配置し、そこから距離マップとクラスタリングマップを生成し、クラスタを認識することにより、未知の分布を持つような入力情報の分類も、煩雑なパラメータを設定することなしに行うことができる効果がある。
【図面の簡単な説明】
【図1】本発明の一実施形態の情報クラスタリング装置の構成図である。
【図2】マッピング部12の処理を示すフローチャートである。
【図3】自己組織化マップを示す図である。
【図4】自己組織化アルゴリズムの処理を示すフローチャートである。
【図5】ユニットcと近傍集合を示す図である。
【図6】距離マップを説明する図である。
【図7】クラスタリングマップを説明する図である。
【図8】クラスタを認識する方法を説明する図である。
【図9】クラスタを認識する方法を説明する図である。
【図10】本発明の他の実施形態の情報クラスタリング装置の構成図である。
【符号の説明】
11 情報入力部
12 マッピング部
13 距離マップ生成部
14 クラスタリングマップ生成部
15 クラスタ認識部
21,22,23 ステップ
31 自己組織化マップ入力層
32 自己組織化マップ出力層
33 自己組織化マップの入力層31を構成するユニット
34 自己組織化マップの出力層32を構成するユニット
40〜50 ステップ
51 ユニットc
52 近傍集合
61 距離マップ
71 クラスタリングマップ
72 クラスタ境界
81 クラスタ境界
82 入力ベクトルを表すもの
83 クラスタ
91 入力ベクトルの位置
92 クラスタ境界
93〜97 クラスタ認識区間
101 入力装置
102 記憶装置
103 出力装置
104 記録媒体
105 データ処理装置

Claims (2)

  1. 様々な情報をその類似度により分類する情報クラスタリング装置であって、
    情報を多次元ベクトルとして入力する情報入力手段と、
    入力された情報ベクトルを自己組織化マップアルゴリズムにより、類似度の高い情報毎に2次元の自己組織化マップ上にマッピングするマッピング手段と、
    生成された自己組織化マップ上の各ユニットが持つ参照ベクトルを利用し、2次元の自己組織化マップにおけるユニット間の距離を2次元の2つの軸の観点から算出し、自己組織化マップの各ユニット上に前記算出した距離をもつ距離マップを生成する距離マップ生成手段と、
    前記距離マップ生成手段により作られた距離マップから、距離が閾値以上であるクラスタ境界となる位置を認識し、クラスタ境界が少し欠けている場合は、その前後の距離マップの状態からクラスタ境界を作り出して、クラスタ境界を閉包させたクラスタリングマップを生成するクラスタリングマップ生成手段と、
    前記クラスタリングマップ上に作成されたクラス境界からクラスタ情報を取り出すクラスタ認識手段と、
    取り出されたクラスタ情報を出力する出力手段と、
    を有する情報クラスタリング装置。
  2. コンピュータを、様々な情報をその類似度により分離する情報クラスタリング装置として動作させる情報クラスタリングプログラムを記録したコンピュータ読取り可能な記録媒体であって、
    情報を多次元ベクトルとして入力する情報入力処理と、
    入力された情報ベクトルを自己組織化マップアルゴリズムにより、類似度の高い情報毎に2次元の自己組織化マップ上にマッピングするマッピング処理と、
    生成された自己組織化マップ上の各ユニットが持つ参照ベクトルを利用し、2次元の自己組織化マップにおけるユニット間の距離を2次元の2つの軸の観点から算出し、自己組織化マップの各ユニット上に前記算出した距離をもつ距離マップを生成する距離マップ生成処理と、
    前記距離マップ生成処理により作られた距離マップから、距離が閾値以上であるクラスタ境界となる位置を認識し、クラスタ境界が少し欠けている場合は、その前後の距離マップの状態からクラスタ境界を作り出して、クラスタ境界を閉包させたクラスタリングマップを生成するクラスタリングマップ生成処理と、
    前記クラスタリングマップ上に生成されたクラス境界からクラスタ情報を取り出すクラスタ認識処理と、
    取り出されたクラスタ情報を出力する処理と、
    をコンピュータに実行させる情報クラスタリングプログラムを記録したコンピュータ読取り可能な記録媒体。
JP2000039401A 2000-02-17 2000-02-17 情報クラスタリング装置および情報クラスタリングプログラムを記録した記録媒体 Expired - Fee Related JP3712583B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000039401A JP3712583B2 (ja) 2000-02-17 2000-02-17 情報クラスタリング装置および情報クラスタリングプログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000039401A JP3712583B2 (ja) 2000-02-17 2000-02-17 情報クラスタリング装置および情報クラスタリングプログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2001229362A JP2001229362A (ja) 2001-08-24
JP3712583B2 true JP3712583B2 (ja) 2005-11-02

Family

ID=18562971

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000039401A Expired - Fee Related JP3712583B2 (ja) 2000-02-17 2000-02-17 情報クラスタリング装置および情報クラスタリングプログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP3712583B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI20020414A (fi) 2002-03-04 2003-09-05 Nokia Oyj Mekanismi valvomatonta klusterointia varten
JP2005063341A (ja) * 2003-08-20 2005-03-10 Nec Soft Ltd 集合の動的形成システム、集合の動的形成方法及びそのプログラム
TW200926142A (en) * 2007-12-12 2009-06-16 Inst Information Industry A construction method of English recognition variation pronunciation models
JP4936074B2 (ja) * 2008-03-24 2012-05-23 グローリー株式会社 特徴抽出方法
KR102433598B1 (ko) * 2020-11-26 2022-08-18 (주)심플랫폼 데이터 경계 도출 시스템 및 방법

Also Published As

Publication number Publication date
JP2001229362A (ja) 2001-08-24

Similar Documents

Publication Publication Date Title
Li et al. Multi-scale neighborhood feature extraction and aggregation for point cloud segmentation
Ibrahim et al. Cluster representation of the structural description of images for effective classification
CN100472556C (zh) 特定被摄体检测装置及方法
JP4556120B2 (ja) 情報処理装置および方法、並びにプログラム
Shen et al. An incremental online semi-supervised active learning algorithm based on self-organizing incremental neural network
CN102799614B (zh) 基于视觉词语空间共生性的图像检索方法
Zhong et al. Maskgroup: Hierarchical point grouping and masking for 3d instance segmentation
Alkababji et al. Real time ear recognition using deep learning
Costa et al. Clustering of complex shaped data sets via Kohonen maps and mathematical morphology
Raparthi et al. Machine Learning Based Deep Cloud Model to Enhance Robustness and Noise Interference
Laha et al. Land cover classification using fuzzy rules and aggregation of contextual information through evidence theory
Subramanian et al. PSO based fuzzy-genetic optimization technique for face recognition
Angelopoulou et al. Fast 2d/3d object representation with growing neural gas
JP3712583B2 (ja) 情報クラスタリング装置および情報クラスタリングプログラムを記録した記録媒体
Jabberi et al. Face shapenets for 3d face recognition
Kumar et al. Development of a novel algorithm for SVMBDT fingerprint classifier based on clustering approach
Lim et al. A fuzzy qualitative approach for scene classification
JP3712582B2 (ja) 情報クラスタリング装置および情報クラスタリングプログラムを記録した記録媒体
Cervantes et al. Michigan particle swarm optimization for prototype reduction in classification problems
Alobaidi et al. Face detection based on probability of amplitude distribution of local binary patterns algorithm
CN111311643B (zh) 使用动态搜索的视频目标跟踪方法
Karpagam et al. Improved content-based classification and retrieval of images using support vector machine
Zhang et al. Color clustering using self-organizing maps
JP2000076464A (ja) 図形認識方法、図形認識装置、図形分類方法、図形分類装置、記録媒体、及び、図形特徴抽出方法
JP2004062482A (ja) データ分類装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050328

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20050328

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050328

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050810

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050817

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080826

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090826

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090826

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100826

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees