JPH0934861A - クラスタ分類装置 - Google Patents

クラスタ分類装置

Info

Publication number
JPH0934861A
JPH0934861A JP7179738A JP17973895A JPH0934861A JP H0934861 A JPH0934861 A JP H0934861A JP 7179738 A JP7179738 A JP 7179738A JP 17973895 A JP17973895 A JP 17973895A JP H0934861 A JPH0934861 A JP H0934861A
Authority
JP
Japan
Prior art keywords
map
cluster
distribution
input data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP7179738A
Other languages
English (en)
Inventor
Mikihiko Terajima
寺島幹彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Olympus Corp
Original Assignee
Olympus Optical Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Olympus Optical Co Ltd filed Critical Olympus Optical Co Ltd
Priority to JP7179738A priority Critical patent/JPH0934861A/ja
Publication of JPH0934861A publication Critical patent/JPH0934861A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【目的】 性能が良くなるようにアルゴリズムを終了さ
せる条件が明確であり、ノイズに強く、クラスタの数、
位置、分布の形等の前知識を用いずに、理論的な識別限
界のBayesの分類に近いクラスタ分類ができるクラ
スタ分類装置。 【構成】 自己組織化特徴マッピングを用いて入力デー
タに対するプロトタイプ群からなるマップ31を作成す
るマップ作成部11と、そのマップ31からクラスタの
集積度を表す量の分布図を作成し、その分布図からマッ
プを分割するマップ解析部12と、そのマップにより入
力データを分類するラベル付け部とからなるクラスタ分
類装置において、分布図の形状の変化を計算する分布形
状変化計算部141を備え、計算された変化量が予め定
めた基準量以下になったときに自己組織化特徴マッピン
グを終了するようする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、クラスタ分類装置
に関し、特に、複数個のデータをその類似性によってク
ラスタとしてまとめることにより複数個のクラスタに分
類する装置に関するものである。
【0002】
【従来の技術】複数個のデータをその類似性により複数
個のクラスタに分類する方法としては、代表的には最尤
推定法がある。この方法は、クラスタ数が既知で、それ
ぞれのクラスタの大まかな位置が分かっている場合に用
いることができる。まず、それぞれのクラスタ内のデー
タの分布を例えば正規分布等と仮定し、平均、分散等の
パラメータを近似的に計算する。次に、あるデータがそ
のクラスタに所属する確率(この場合は正規分布)から
識別関数を定義する。そして、パラメータから求められ
る識別関数の大小によりデータをクラスタに割り当てる
ことによってクラスタ分類を行う。
【0003】クラスタ数が既知で、分布の形を仮定しな
い方法としては、K−means法、LBG法がある。
これは、分類の良さに関する評価基準を定義し、1)各
クラスタの代表点の選出、2)その代表点を基にしたク
ラスタ分類、と言う操作を逐次繰り返すことにより評価
基準を最適化し、クラスタ分類を行う方法であり、非階
層的方法と呼ばれる。
【0004】クラスタ数が未知で、分布の形も仮定でき
ない場合、すなわち、データに関する前知識が全然ない
場合は、階層的方法がある。これは、データ間及びクラ
スタ間に何らかの距離を定義して、それを基にデータを
逐次的に統合・分割し、クラスタ分類を行うものであ
る。
【0005】また、データを自己組織化特徴マッピング
ニューラルネットワーク(以下、SOMと略記する。)
に入力し、2次元のマップ上の素子にデータを割り当
て、その素子に対応するデータの数からクラスタ分けを
する手法が提案されている(Xuegong Zhang,Yanda Li,"
SELF-ORGANIZING MAP AS A NEW METHOD FOR CLUSTERING
AND DATA ANALYSIS",Proceedings of the Internationa
l Joint Conference onNeural Networks,vol.3,pp.2448
-2451,1993) 。
【0006】
【発明が解決しようとする課題】上記のように、データ
をクラスタリングする従来の方法は、クラスタの数や位
置、分布の形を仮定しているものがほとんどである。と
ころが、一般的にクラスタ分類を行う場合、分類前はク
ラスタの数や分布の形は未知であることが多い。例え
ば、画像の領域分割を行うために特徴ベクトルをクラス
タ分類しようとした場合、分類前にクラスタの数や分布
の形状は未知である。
【0007】前述の、最尤推定法やK−means法、
LBG法は、クラスタの数、位置、分布の形状を仮定し
て行う方法であり、この場合、その仮定を間違えたり、
初期値としての与え方が不適当な場合、本来クラスタを
構成しているのにクラスタ分類されなかったり(過統
合)、1つのクラスタとされるべきものが複数のクラス
タに分類されたり(過分割)、本来所属すべきクラスタ
に分類されなかったり(誤分類)して、適正な結果は得
られなくなる。クラスタの数を順次変化させてそれぞれ
の場合を調べる方法が、特開平5−205058号に開
示されているが、分類処理をクラスタの数だけ繰り返さ
なければならず、アルゴリズムが複雑になる。かつ、そ
の場合、クラスタの数を正しく推定したとしても、その
位置、分布の仮定を間違えると、誤分類を生じ、適正な
分類はできない。
【0008】また、従来のクラスタの数や分布の形状を
仮定しない階層的手法には、以下の問題点がある。 A−1)分割・統合処理の手順、及び、アルゴリズムの
初期状態の設定によって結果が大きく変化する。 A−2)統合されない(すなわち、クラスタ分類されな
い)データが残ってしまうことがある。 A−3)処理の経過、結果を表すことが難しく、何時処
理を終了するかを明確に判断できないため、過統合、過
分割が起こりやすい。
【0009】前述のデータをSOMに入力し、2次元の
マップ上の素子にデータを割り当て、その素子に対応す
るデータの数からクラスタ分けをする方法では、処理の
経過、結果を表示することができる。その手法のねらい
と問題点について簡単に述べる。この手法では、入力デ
ータから、その位相を反映したプロトタイプの集合を作
成する。2次元のマップ上の素子は、それぞれそのプロ
トタイプを持ち、入力データはその何れかの素子と対応
するようになっている。このとき、クラスタ内のデータ
はクラスタ外に比べて多いと言う性質から、素子に対応
する入力データの数を比較すれば、クラスタ中心付近の
データに対応する素子の場合は、対応するデータ数は多
くなり、クラスタ中心から外れたデータに対応する素子
の場合は、対応するデータ数は少なくなるはずである。
よって、素子に対応するデータ数の比較を行うことによ
りクラスタを見つけることができる。SOMで重みの更
新を繰り返して、入力データの位相が良くマップに反映
されるようになると、クラスタ中心のデータ付近に反応
する素子数はクラスタ外に比べて相対的に多くなる。こ
れを分解能が上がると言う。このとき、各素子に対応し
た入力データ数(勝利数V)は相対的に均等化してしま
い、クラスタ中心とクラスタ外での差が小さくなる。こ
のため、ヒストグラムを明確に作成できないことがあ
る。
【0010】また、この方法はアルゴリズムの終了条件
が明確でないため、早く打ち切りすぎて性能を悪くした
り、過剰に進行させて処理時間を長くさせることがあ
る。
【0011】また、データにノイズがある場合、特に、
クラスタ間にノイズデータが存在すると、素子に対応す
るデータ数のヒストグラムが乱れるため、解析がし難い
と言う欠点がある。
【0012】ところで、クラスタ分類装置の分類の性能
はより高いことが望ましい。分類の性能は、<平均や分
散等が異なるある確率分布によって出現する複数のクラ
スタのデータをいかに誤分類を少なくして分離できるか
>で示すことができる。ここで、最も誤分類の割合が少
ない場合に分類の性能が最も高く、このときを理論的に
Bayes分類(Bayes Classifier)と呼ぶ。
【0013】Bayes分類について簡単に説明する。
x(x∈Rn :Rn はn次元ユークリッド空間)を入力
ベクトル、Ci (i=1,2,…,K)をxが所属する
クラスタ、p(x|Ci )をクラスタCi 内でのxの確
率密度関数(条件付き確率密度)、P(Ci )をクラス
タCi に属するxが入力される確率(先験確率)とす
る。このとき、事後確率P(Ci |x)は、Bayes
の公式により、次の式(1)のように書ける。
【0014】 P(Ci |x)=P(Ci )p(x|Ci )/p(x), 事後確率P(Ci |x)は、入力ベクトルxを取り出し
たときにそれがクラスタCi に属している確率と言うこ
とができる。ある入力ベクトルxを取り出したとき、P
(Ci |x)(i=1,2,3,…,K)の内で、最大
のP(Ci |x)を与えるクラスタCi をその入力ベク
トルに与えるようにすれば、誤分類率が最小になる。こ
の分類基準で分類を行う方法が、Bayes分類であ
る。
【0015】なお、クラスタ分類装置の分類の性能を上
げる方法としては、コホーネンのLearning V
ector Quantization(以下、LVQ
と表記する。)がある(T.Kohonen,"Self-Organization
and Associative Memory",Third Edition,Springer-Ve
rlag,Berlin,1989)。ところが、この手法は、そのデー
タの所属するクラスタが何であるかを与える、いわゆる
<教師付き学習>の方法である。よって、LVQはB−
1)<クラスタの数、位置、分布の形等の前知識なしに
過統合や過分割のない適性なクラスタ分類ができる>と
言う条件を満たさない。
【0016】以上の課題を整理すると、本発明のクラス
タ分類装置に求められる条件は、以下の通りである。 B−1)クラスタの数、位置、分布の形等の前知識なし
に過統合や過分割のない適性なクラスタ分類ができる。 B−2)処理の手順に依存しないクラスタ分類ができ
る。 B−3)処理の経過や結果を視覚的に見ることができ
る。 B−4)ヒストグラムが明確に生成される。 B−5)性能が良くなるようにアルゴリズムを終了させ
る条件が明確である。 B−6)ノイズに強い。 B−7)クラスタの数、位置、分布の形等の前知識を用
いずに、理論的な識別限界のBayesの分類に近いク
ラスタ分類ができる。
【0017】本発明はこのような状況に鑑みてなされた
ものであり、その目的は、上記のB−1)〜B−7)の
条件を満たし、クラスタの数、位置、分布の形等の前知
識なしに過統合や過分割のない適性なクラスタ分類がで
き、処理の手順に依存しないクラスタ分類ができ、処理
の経過や結果を視覚的に見ることができ、ヒストグラム
が明確に生成され、性能が良くなるようにアルゴリズム
を終了させる条件が明確であり、ノイズに強く、しか
も、クラスタの数、位置、分布の形等の前知識を用いず
に、理論的な識別限界のBayesの分類に近いクラス
タ分類ができるクラスタ分類装置を提供することにあ
る。
【0018】
【課題を解決するための手段】上記目的を達成する本発
明の第1のクラスタ分類装置は、自己組織化特徴マッピ
ングを用いて入力データに対するプロトタイプ群からな
るマップを作成するマップ作成部と、そのマップからク
ラスタの集積度を表す量の分布図を作成し、その分布図
からマップを分割するマップ解析部と、そのマップによ
り入力データを分類するラベル付け部とからなるクラス
タ分類装置において、分布図の形状の変化を計算する分
布形状変化計算部を備え、計算された変化量が予め定め
た基準量以下になったときに自己組織化特徴マッピング
を終了するようにしたことを特徴とするものである。
【0019】本発明の第2のクラスタ分類装置は、自己
組織化特徴マッピングを用いて入力データに対するプロ
トタイプ群からなるマップを作成するマップ作成部と、
そのマップからクラスタの集積度を表す量の分布図を作
成し、その分布図からマップを分割するマップ解析部
と、そのマップにより入力データを分類するラベル付け
部からなるクラスタ分類装置において、プロトタイプ群
からの距離が一定の値以上の入力データを判別するデー
タ判別部を具備し、前記分布図作成の際にプロトタイプ
群からの距離が一定の値以上と判別された入力データに
対する前記のクラスタの集積度を表す量を除外すること
を特徴とするものである。
【0020】本発明の第3のクラスタ分類装置は、自己
組織化特徴マッピングを用いて入力データに対するプロ
トタイプ群からなるマップを作成するマップ作成部と、
そのマップからクラスタの集積度を表す量の分布図を作
成し、その分布図からマップを分割するマップ解析部
と、そのマップにより入力データを分類するラベル付け
部からなるクラスタ分類装置において、プロトタイプ群
の結合が前記のクラスタの集積度に応じて切断可能に構
成されていることを特徴とするものである。
【0021】以下、上記のような構成を採用する理由と
作用について説明する。まず、基本となる本発明の構成
の概略とその作用を、図1のブロック図と、クラスタ分
類の過程を簡単に示す図2〜図7を用いて説明し、本発
明が上記B−1)〜4)の条件を満たすことを示す。
【0022】まず、本発明の構成の基本部分を示すと、
図1に示したように、入力データを入力してマップを作
成するマップ作成部11と、作成されたマップからある
分布を作成し、その分布を分割することによりマップの
分割を行うマップ解析部12と、入力データとその分割
されたマップから入力データのラベル付けを行うラベル
付け部13とからなっている。
【0023】この構成のクラスタ分類装置の作用を示す
1例として、2次元のデータを3つのクラスタに分類す
ることを考える。もちろん、クラスタ分類前は、クラス
タ数や分布の形状は未知である。
【0024】まず、マップ作成部11について説明す
る。マップ作成部11はデータ入力部111とマップ部
112から構成される。データ入力部111において、
図2のような3つのクラスタ21A、21B、21Cに
属するベクトルからなる入力データ群21を入力する。
【0025】次に、マップ部112で、入力データ群2
1を用いて、図3のマップ31を作成する。マップ31
は、複数個(k個と置く。)の素子群32によって構成
される。入力データ群21のそれぞれのデータは、素子
群32の何れかの素子に対応するようにする。具体的な
対応方法を述べる。まず、入力データ群21に対するプ
ロトタイプ群33を素子数個(k個)だけ作成する。そ
して、各素子にそれぞれプロトタイプ群33の1つを割
り当てる。そして、入力データ群21の各々に対しその
入力データと最も類似しているプロトタイプを持つ素子
を対応させればよい。そのとき、入力データ群21の
中、類似しているデータはそれぞれマップ31上で近い
素子に対応し、類似していないデータはそれぞれマップ
31上で遠い素子に対応するように、素子にプロトタイ
プを割り当てる。つまり、入力データ群21の各データ
間の位相情報をマップ31に反映させるのである。
【0026】このようにして、入力データ群21から、
クラスタ21Aに属するベクトルに対応する素子群32
Aと、クラスタ21Bに属するベクトルに対応する素子
群32Bと、クラスタ21Cに属するベクトルに対応す
る素子群32Cからなるマップ31が作成される。な
お、図3では、マップ31として1次元に並んだ素子の
配列を用いたが、2次元に並んだ配列にしてもかまわな
い。以下では、説明を簡単にするために、1次元の配列
を用いることにする。
【0027】図3において、注意しなくてはならないの
は、クラスタ21A、21B、21Cの記号は説明の便
宜上付けたものであり、入力データ群21は、クラスタ
分類前に全くラベル付けされていないことである。も
し、クラスタ分類前にいくつかの入力データがラベル付
けされている場合は、ラベル付けされていないデータに
対して、マップ作成後に簡単にクラスタ分類ができる。
この方法を述べておく。1)あるラベル(例えばA)の
クラスタ21Aに属するデータに対応するマップ31上
の素子を選び、その素子にラベルAを与える。2)1)
の操作を21B、21Cのクラスタに属するデータに対
しても行い、マップ31上の素子群にそれぞれA、B、
Cのラベルの何れかを与える。3)ラベル付けしていな
い入力データ群21に対応するマップ上の素子を見つ
け、その素子のラベルをそのデータのラベルとする。
1)から3)の操作を行うことにより、全ての入力デー
タをラベル付けでき、クラスタ分類が終了する。マップ
31によると、上記の1)の操作が終了しているように
も思われるが、入力データ群21は全くラベル付けされ
ていないので、マップ31のどこにクラスタが存在して
いるかはまだ不明である。よって、マップ31上のどこ
にクラスタが存在するかを見つけるために、マップを解
析しなくてはならない。
【0028】そこで、マップ上のどこにクラスタが存在
するかを見つけるために、マップ作成部11で作成され
たマップ31をマップ解析部12で解析する。以下、マ
ップ解析部12について説明する。マップ解析部12
は、2つの部分で構成される。まず、各素子に対しクラ
スタの集積度に関する量を計算し、各素子に対する分布
を作成する分布作成部121と、その分布の山と谷の情
報からマップの分割を行う分布分割部122である。以
下にそれぞれの作用を詳しく説明する。
【0029】まず、分布作成部121におけるクラスタ
の集積度を示す量としては、以下のような量があげられ
る。 C−1)マップ31上の素子群32の各素子に対応する
入力データ群の数。
【0030】C−2)マップ31上のある1つの素子に
割り当てられたプロトタイプと、その素子のマップ31
上で隣接する素子に割り当てられたプロトタイプとの類
似性。
【0031】クラスタは、データ群の空間において類似
しているデータが集まったものである。この性質を用い
て、上記のC−1)、C−2)の量がクラスタの集積度
を示す理由を説明する。クラスタ内のデータは、クラス
タ外に比べて多いと言う性質から、素子に対応する入力
データの数を比較すれば、クラスタ中心付近のデータに
対応する素子の場合は対応するデータ数は多くなり、ク
ラスタ中心から外れたデータに対応する素子の場合は対
応するデータ数は少なくなるはずである。よって、C−
1)の量を用いれば、図4(a)のように、山の部分が
クラスタを示すヒストグラムが作成される。以下、この
量を勝利数Vとも表記する。
【0032】次に、C−2)の量について説明する。前
述のように、マップ上で隣接する素子のそれぞれのプロ
トタイプは、入力データ空間でも類似している。また、
クラスタ内のデータは類似していると言う類似性から、
そのプロトタイプの類似度はクラスタ内では高く、クラ
スタ外では低いと言える。この2つのことから、マップ
上で隣接するそれぞれの素子のプロトタイプ同士を比較
することにより、その類似度から、その素子の対応する
入力データがクラスタ中心かクラスタ外かを区別できる
ことが分かる。具体的に述べると、マップ上で隣接する
それぞれの素子のプロトタイプ同士の類似度が高けれ
ば、その素子はクラスタ中心付近のデータに対応する素
子であり、逆にマップ上で隣接するそれぞれの素子のプ
ロトタイプ同士の類似度が低ければ、その素子はクラス
タ中心から外れたデータに対応する素子である。類似度
として、例えば2次元ベクトルデータの場合、そのユー
クリッド距離を選べば、距離が大きければ類似度は低
く、距離が小さければ類似度は高くなる。このとき、C
−2)の量を用いてヒストグラムを作成すれば、図4
(b)のように、山から山までがクラスタを表すように
なる。以下、この量を隣接素子間の類似度dMとも表記
する。
【0033】なお、勝利数Vと隣接素子間の類似度dM
の定義から、V/dMの量もクラスタの集積度を表すこ
とが分かる。このときは、谷から谷までの山の部分がク
ラスタを表す。何れの量を用いても、クラスタの集積度
を表すヒストグラムを作成できるが、勝利数Vのみでは
問題点を生じることがある。このことについては後述す
る。
【0034】分布作成部121で作成したクラスタの位
置を示すヒストグラムは、続いて、分布分割部122で
クラスタ毎に分割される。図4(a)のようにC−1)
の勝利数Vを用いたヒストグラムは、山の部分がクラス
タを表していることから、分布分割部122では、図5
(a)の破線で示すように分割される。同様に、図4
(b)のようにC−2)の隣接素子間の類似度dMを用
いたヒストグラムは、山から山の部分がクラスタを表し
ていることから、分布分割部122では、図5(b)の
破線で示すように分割される。図5(a)、(b)何れ
の場合も、同じ分割部分内の素子に対応する入力データ
群は同じクラスタに属していることになる。よって、1
つの分割部分が1つのクラスタと対応していることにな
る。すなわち、分割部分の数がクラスタの数であり、こ
の例の場合は、3つのクラスタが存在することが確認で
きる。
【0035】以上の分布作成部121と分布分割部12
2からなるマップ解析部12によって、マップ作成部1
1で作られたマップ31は分割されて、いくつかの部分
に分けられる。そして、各部分をクラスタと対応付ける
ことにより、どこにクラスタが存在しているかが明確に
なり、かつ、クラスタの数も判明することになる。この
分割されたマップをマップ51とする。
【0036】マップ解析部12によってクラスタ毎に分
割されたマップ51は、図1に示すように、ラベル付け
部13に送られる。ラベル付け部13は、マップの分割
部分にラベルを付けるマップラベル部131とラベル付
けするデータを入力するデータ入力部132と、その入
力データにラベルを付けるデータラベル部133によっ
て構成される。
【0037】マップラベル部131では、まず、マップ
の分割部分にそれぞれラベル付けを行う。図6に示すよ
うに、マップには3つの分割部分が存在し、それぞれに
A、B、Cと言うラベルを与えてマップ61とする。次
に、入力データ群21を再びデータ入力部132によっ
て入力し、その入力データ群21のラベル付けを行う。
ラベル付けには、その入力データ群21と、分割とラベ
ル付けをしたマップ61を用いる。具体的には、入力デ
ータ群21に対応するマップ61上の素子を見つけ、そ
の素子のラベルをそのデータのラベルとすればよい。全
ての入力データ群21に対するラベル付けが終了すれ
ば、図6に示すように、入力データ群21がA、B、C
の3つのクラスタに分類されたことになる。図6では、
A、B、Cそれぞれのクラスタに所属するデータを丸で
囲んでいる。ここで、この丸は説明の便宜上、データの
あるところを囲むために付けたもので、厳密な分離境界
線を示しているわけではない。なお、前述のように、図
2の入力データは予めラベル付けされておらず、ラベル
付け部13で初めてラベル付けされることに注意する。
ここで、便宜上、図2のラベルと図6のラベルは一致さ
せてある。
【0038】以上が、本発明のクラスタ分類装置の作用
の概略であり、図2のデータ群21が、図6のようにラ
ベルA、B、Cの3つのクラスタに分類されたことにな
る。本作用では、クラスタの数、位置、分布の形等の前
知識を必要としていないことは明らかであり、本発明の
クラスタ分類装置に求められる条件のB−1)を満たし
ている。続いて、B−2)<処理の手順に依存しないク
ラスタ分類ができる>ことと、B−3)<処理の経過や
結果を視覚的に見ることができる>ことと、B−4)<
ヒストグラムが明確に生成される>と言う条件を本発明
が満たすことを示す。そのために、マップ作成部12に
ついてさらに詳しく説明する。
【0039】前述のように、マップ作成部12では、デ
ータ群のプロトタイプを作成し、入力データの位相を反
映するように、そのプロトタイプをマップの素子に割り
当てることを行う。プロトタイプの作成は、ベクトル量
子化法を用いれば可能だが、入力データの位相を反映す
るようにそのプロトタイプをマップの素子に割り当てる
ことはできない。プロトタイプの作成と入力データの位
相を反映するためのプロトタイプの割り当てを同時に行
う方法は、コホーネンによる自己組織化特徴マッピング
(以下、SOMと表記する。)のアルゴリズムがある
(T.Kohonen,"Self-Organization and Associative Mem
ory",Third Edition,Springer-Verlag,Berlin,1989)。
以下、SOMについて説明する。
【0040】SOMは、図7に模式的に示すように、2
次元に並ぶ素子群の層ML(以下、マップ層MLと表記
する。)と、データを入力する入力層ILから構成され
る。このマップ層MLは、図7では2次元に並ぶ素子を
示したが、1次元に並ぶ素子を用いてもよい。入力層I
Lは、マップ層MLの全ての素子と結合しており、入力
データをマップ層MLの全ての素子に与えることができ
る。入力データは、スカラーでもベクトルでもかまわな
いが、ここでは一般的に、ベクトルx(n次元)と置
く。マップ層MLの素子i(iはマップ上の順番とし、
全素子数をk個とする。)は、全て重みベクトルmi
(n次元)を持つことにする。SOMのアルゴリズム
は、入力ベクトルxと各素子の重みベクトルmi との類
似性から更新すべき重みベクトルを決定する<類似性マ
ッチング>と、その重みベクトルmi を入力ベクトルx
の方に近付ける<更新>とに分けられる。そして、両者
の作用を繰り返すことにより、入力ベクトルxの分布を
反映する重みベクトルmi (1≦i≦k)が生成する。
<類似性マッチング>と<更新>の具体的な表式を以下
に示す。
【0041】<類似性マッチング> <更新> mi (t+1)=mi (t)+α(t){x(t)−mi (t)}i∈Nc i (t+1)=mi (t) その他 ・・・(3) ここで、|x−mi |はxとmi のユークリッド距離、
Cはその距離が最も小さかった素子(勝利素子)、Nc
はその勝利素子Cのマップ層MLでの近傍、α(t)は
正の定数、tは時刻を示す。更新を繰り返しながら、N
c とα(t)の大きさは徐々に小さくする。また、α
(t)は勝利素子Cから離れるに従い、小さくなるよう
に選ぶこともできる。
【0042】入力ベクトルxの集合からランダムにxを
選んで逐次入力し、重みベクトルmi の更新を繰り返す
ことにより、入力ベクトルxの分布を反映する重みベク
トルmi (1≦i≦k)が生成する。すなわち、重みベ
クトルmi (1≦i≦k)が入力ベクトルxの分布のプ
ロトタイプになっている。そして、ある素子の重みベク
トルを入力ベクトルに近付けるように更新するとき、マ
ップ上のその素子の近傍の素子も同様に更新するので、
マップ上で隣接する素子同志は、それぞれ、入力ベクト
ルの空間上でも近いベクトルに対応するようになる。よ
って、SOMアルゴリズムは、入力データ空間の位相を
反映したプロトタイプの集合を作成することができる。
SOMアルゴリズムには、次のような特長がある。
【0043】D−1)重みベクトルmi (1≦i≦k)
の初期状態によらず、適正なマップが作成できる。 D−2)入力ベクトルxの入力順によらず、適正なマッ
プが作成できる。 D−3)マップが1次元か2次元であるので、入力デー
タの位相を視覚的に見ることができる。 D−4)<類似性マッチング>と<更新>と言う単純な
操作の繰り返しなので、アルゴリズムが簡単である。
【0044】ここで、適正なマップとは、プロトタイプ
の集合が入力データの位相をよく反映しているものを言
う。D−1)、D−2)の特長は、本発明のクラスタ分
類装置に求められる、B−2)<処理の手順に依存しな
いクラスタ分類ができる>と言う条件を満たすものであ
る。そして、D−3)の特長は、B−3)<処理の経過
や結果を視覚的に見ることができる>と言う条件を満た
すものである。
【0045】SOMアルゴリズムのこのような有効性よ
り、マップ作成部11では、このSOMアルゴリズムを
採用する。すなわち、マップ作成部11のデータ入力部
111をSOMの入力層IL、マップ部112をSOM
のマップ層MLとする。この構成により、入力データの
位相を反映するプロトタイプの集合を作成し、そのプロ
トタイプを持つ素子からなる1次元か2次元のマップを
作成する。このマップ作成部11を具備した本発明のク
ラスタ分類装置は、前述のように、B−2)、B−3)
の条件を満たすことが可能である。
【0046】なお、SOMにおいて1次元のマップを用
いた場合は、分布作成部121で作成されるヒストグラ
ムは通常よく知られている1次元のヒストグラムである
が、SOMにおいて2次元のマップを用いた場合は、2
次元のヒストグラムを作成することになる。この場合
も、2次元上の山あるいは谷を分割してクラスタを分類
すると言う概念は変わらない。本発明では、SOMの次
元は1次元でも2次元でも構わないが、前述したよう
に、今後も表示を容易にするために1次元のマップを利
用した場合を説明する。
【0047】次に、本発明のクラスタ分類装置がB−
4)<ヒストグラムが明確に生成される>と言う条件を
満たすことを示す。まず、この条件の具体的な意味につ
いて述べる。前述のように、マップ解析部12では、マ
ップ作成部11で作成したマップ31を用いて、各素子
に対しクラスタの集積度に関する量を計算し、各素子に
対する分布を作成する。クラスタの集積度を示す量とし
ては、C−1)<勝利数V>、C−2)<隣接素子間の
類似度dM>及びそれらを組み合わせた量があげられる
が、C−1)<勝利数V>のヒストグラムでは、SOM
アルゴリズムで重みの更新を繰り返して行くにつれて、
問題を生じることを示す。
【0048】SOMで重みの更新を繰り返して、入力デ
ータの位相がよくマップに反映されるようになると、ク
ラスタ中心のデータ付近に反応する素子数はクラスタ外
に比べて相対的に多くなる。これを分解能が上がると言
う。このとき、各素子に対応した入力データ数(勝利数
V)は相対的に均等化してしまい、クラスタ中心とクラ
スタ外での差が小さくなる。このため、素子に対応する
データ数の比較を用いたクラスタ分類がし難くなってし
まう。つまり、勝利数Vのヒストグラムを用いて、マッ
プの分割をする場合、SOMアルゴリズムの進行段階を
早く打ち切らないと、はっきりしたクラスタ分類ができ
ないと言う問題がある。その上、アルゴリズムの進行段
階を早く打ち切ると、素子に対するデータの対応関係が
不正確で誤分類を生じる。上記の従来の技術項、及び、
発明が解決しようとする課題の項で述べたデータを自己
組織化特徴マッピングニューラルネットワークに入力
し、2次元のマップ上の素子にデータを割り当て、その
素子に対応するデータの数からクラスタ分けをする手法
は、この勝利数Vの2次元のヒストグラムを用いた方法
である。
【0049】以上から、B−4)<ヒストグラムが明確
に生成される>の条件を満たすためには、マップ解析部
12の分布作成部121で作成するヒストグラムでは、
明確な分割ができる量を選ぶ必要がある。
【0050】前述したように、分布作成部121におけ
るクラスタの集積度としては、隣接素子間の類似度dM
がある。このdMがアルゴリズムの進行の段階によら
ず、明確な分割ができる量であることを以下に示す。d
Mを用いたマップの分割方法では、マップ上で隣接する
それぞれの素子のプロトタイプ同士の類似度が高けれ
ば、その素子はクラスタ中心付近のデータに対応する素
子であり、逆にマップ上で隣接するそれぞれの素子のプ
ロトタイプ同士の類似度が低ければ、その素子はクラス
タ中心から外れたデータに対応する素子であるとする。
SOMが進行すると分割し難くなる勝利数Vと異なり、
隣接素子間の類似度dMは、SOMを進行させる程、ク
ラスタ中心では類似のデータに反応する素子数がより多
くなり、クラスタ外ではより少なくなるため、dMのク
ラスタ内外での差は相対的により大きくなる。よって、
クラスタ分割がより容易になる。このようなdMの有効
性から、dMのみか、VとdMを組み合わせたV/dM
を用いれば、明確なヒストグラムが作成でき、B−4)
の条件を満たすことができる。
【0051】以上、本発明がB−1)〜B−4)の条件
を満たすように入力データをクラスタ分類する概念につ
いて説明した。続いて、主に分類性能を向上することに
相当するB−5)〜B−7)の条件を本発明が満たすこ
とを説明する。まず、本発明がB−5)<性能が良くな
るようにアルゴリズムを終了させる条件が明確である>
と言う条件を満たす理由について説明する。SOMで
は、重みの更新を繰り返して入力データの位相をマップ
に反映される。近傍Nc を小さくし、学習定数αも小さ
くしながら、更新を十分繰り返せば、マップはほとんど
変わらないので、SOMを終了してよい。ただし、終了
時間が明確でないと、早く打ち切りすぎて学習が不十分
であったり、余計な時間をかけて非効率になったりする
問題がある。
【0052】終了条件として、SOMにおいて入力デー
タの位相がマップに反映されたか否かを判別するため
に、式(4)で表されるような入力データとそれに対応
するプロトタイプの距離の平均mean dを調べるこ
とがよく行われる。 ここで、xi はi番目の入力データ、mciはxi に最も
近い重みベクトル、NX は入力データの数である。
【0053】入力データの位相がマップに反映されるに
つれ、プロトタイプは入力データに近付いて行くので、
この量は小さくなって行くはずである。プロトタイプの
更新回数と、この値の関係は、例えば図8の太線のよう
になる。ある値より小さくなるかある小さな値に収束し
た時点(図8では、A点)でデータの位相がマップに反
映されたと判断し、学習を終了する。
【0054】ところが、本発明において、このような基
準では、問題が生じる。本発明によりヒストグラムの分
割を行うとき、明確に山と谷が形成されていることが望
ましい。ところが、mean dが収束した直後は、丁
度プロトタイプがクラスタを捉える出した時点に相当す
るため、ヒストグラムの形状がまだ明確でないことが多
い。ヒストグラムの形状が明確になるのは、mean
dが収束してから暫く学習をさせた時点である。この時
点をシミュレーションによって求めると、更新によりヒ
ストグラム形状が余り変わらなくなる時点に相当する。
【0055】そこで、ヒストグラムの形状変化を調べな
がら、SOMの学習を行い、形状が余り変化しなくなっ
た時点で学習を終了すれば、明確なヒストグラムを得る
ことができる。図8を用いて説明すると、形状の変化を
表す量をchange kとして、更新回数とchan
ge kの関係は、例えば図8の細線のようになり、B
点でSOMを終了すればよいことになる。
【0056】以上のような作用を持つようにするには、
図1のマップ作成部11とマップ解析部12の間を例え
ば図9のような構成にすればよい。すなわち、マップ部
112で作成中のマップ31を用いて分布作成部121
でヒストグラムを作成し、そのヒストグラムの形状の変
化を分布形状変化計算部141で計算し、求めた変化量
が予め定めた基準量以下になったときにSOMを終了
し、変化量が予め定めた基準量より大きい限り続けて学
習させるように、マップ部112にフィードバックする
ようにすればよい。なお、分布作成部121で計算する
クラスタの集積度を表す量は、前述したV/dMやdM
はもちろん、Vのみやその他のクラスタの集積度を表す
任意の量であっても構わない。
【0057】以上のように、分布図の形状の変化を計算
して自己組織化特徴マッピングを終了する作用を持つ本
発明は、B−6)<性能が良くなるようにアルゴリズム
を終了させる条件が明確である>と言う条件を満たす。
【0058】次に、本発明がB−6)<ノイズに強い>
と言う条件を満たす理由について説明する。図10のよ
うな2次元ベクトルのクラスタを考える。そして、クラ
スタから外れた位置に図で白丸で表されるようなノイズ
があったとする。このときの1次元のSOMのプロトタ
イプは、例えば図10の黒丸のように配置される。ここ
で、隣接素子間のプロトタイプを太線で結んである。
【0059】SOMは、各プロトタイプ間にそれぞれが
類似になろうとする引力があるので、クラスタから外れ
た位置にノイズがあっても、プロトタイプがノイズによ
って大きく移動するようなことはない。ところが、マッ
プ解析部12の分布作成部121でクラスタの集積度を
表すものとしてあげたC−1)<勝利数V>はノイズの
影響を受けやすい。なぜなら、各素子に対応したデータ
数を示す勝利数Vを求めるとき、クラスタ外でどんなに
素子から離れているデータも、図中の矢印のように加算
してしまうからである。すなわち、図10の分布から勝
利数Vのヒストグラムを作成した場合、図11(a)の
ようにノイズに対応する小さな山が形成され、明確なヒ
ストグラム分割ができ難くなる。
【0060】そこで、分布作成部121でヒストグラム
を作成する場合、ノイズデータの情報は除去するように
すればよい。ノイズデータかどうかは、プロトタイプと
データ間の距離を計算し、予め設定した閾値より大きけ
ればノイズと判断する。詳しく説明すると、ヒストグラ
ムで使用するVを求めるために勝利素子を決定する際
に、プロトタイプと入力データ間の距離が予め設定した
閾値より大きければ勝利数Vに加算しなければよい。こ
のようにすれば、クラスタ外のデータに対応する素子の
勝利数Vは強制的に小さくなるので、図11(b)のよ
うな明確なヒストグラムが作成されることになる。な
お、分布作成部121で計算するクラスタの集積度を表
す量は、前述したV/dM、Vやその他のクラスタの集
積度を表す任意の量であっても構わない。
【0061】以上のような作用を持つようにするには、
マップ解析部12は、例えば、図12のような構成にす
ればよい。すなわち、マップ31と入力データを用い
て、プロトタイプ群からの距離が閾値以上の入力データ
を除去するデータ判別部120と、ノイズデータが除去
された入力データとマップ31を用いてヒストグラムを
作成する分布作成部121と、そのヒストグラムを分割
する分布分割部122とからなる。以上のように、マッ
プ解析部12において、プロトタイプ群からの距離が一
定の閾値以上の入力データを判別する作用を持つ本発明
は、B−6)<ノイズに強い>と言う条件を満たす。
【0062】次に、本発明がB−7)<クラスタの数、
位置、分布の形等の前知識を用いずに、理論的な識別限
界のBayesの分類に近いクラスタ分類ができる>と
言う条件を満たす理由について説明する。図13のよう
な2次元ベクトルのクラスタを考える。図13中の細線
がBayes境界である。ところで、SOMには、各プ
ロトタイプ間にそれぞれが類似になろうとする引力があ
る。定性的に説明すると、このことは、1次元のSOM
においてプロトタイプを結んだ紐(図中の太い破線)が
紐の長さを短くして滑らかに繋がろうとすることに相当
している。このため、図13に示すように、クラスタ境
界において紐が曲がり、SOMによって分けられた境界
(図中の太線)が理想的なBayes境界(図中の細
線)からずれていることがある。特に、図13のように
クラスタ形状が等方的でない場合にずれやすい。このこ
とを解決する本発明は、マップ解析部12を例えば図1
4のような構成にすればよい。以下、図14のマップ解
析部12について説明する。
【0063】マップ解析部12は、分布作成部121
と、分布分割部122と、プロトタイプ再更新部123
とから構成される。まず、分布作成部121では、前述
のようにSOMからクラスタの集積度を表す量を計算
し、図4のようなヒストグラムを作成する。次に、分布
分割部122で、図5のようにヒストグラムを分割す
る。この素子をプロトタイプとした場合は、図13の太
い破線のようにクラスタ境界において紐が曲がることが
ある。そこで、続いて、プロトタイプ再更新部123
で、境界が理想的なBayes境界に近づくように、プ
ロトタイプを適当な位置に移動させる。
【0064】具体的には、SOMを再び用いてプロトタ
イプを更新する。このとき、前記のSOMにおける近傍
c の範囲を同一クラスタ内に限定するようにすればよ
い。すなわち、図5の分割部分において、同一クラスタ
内にはプロトタイプの近傍の概念があるが、異なるクラ
スタ間には近傍の概念をなくすのである。定性的に説明
すると、図13に示した紐をクラスタ境界で切ることを
意味している。クラスタ内では引力のためプロトタイプ
は繋がっているが、クラスタ間には引力がないので自由
に移動できる。よって、図15のようにプロトタイプ
(図中の太い破線)が配置され、境界(図中の太線)が
Bayes境界(図中の細線)に近付く。なお、分布作
成部121で計算するクラスタの集積度を表す量は、前
述したV/dMやdMは勿論、Vのみやその他のクラス
タの集積度を表す任意の量であっても構わない。
【0065】以上のように、プロトタイプの結合をクラ
スタの集積度に応じて切断を含んで可変とする本発明
は、B−7)<クラスタの数、位置、分布の形等の前知
識を用いずに、理論的な識別限界のBayesの分類に
近いクラスタ分類ができる>という条件を満たすことが
できる。
【0066】以上、本発明のクラスタ分類装置の構成と
作用を説明した。本発明のクラスタ分類装置は次のB−
1)〜7)の条件を満たす。 B−1)クラスタの数、位置、分布の形等の前知識なし
に過統合や過分割のない適性なクラスタ分類ができる。 B−2)処理の手順に依存しないクラスタ分類ができ
る。 B−3)処理の経過や結果を視覚的に見ることができ
る。 B−4)ヒストグラムが明確に生成される。 B−5)性能が良くなるようにアルゴリズムを終了させ
る条件が明確である。 B−6)ノイズに強い。 B−7)クラスタの数、位置、分布の形等の前知識を用
いずに、理論的な識別限界のBayesの分類に近いク
ラスタ分類ができる。
【0067】
【発明の実施の形態】次に、上記の本発明のクラスタ分
類装置のいくつかの実施例について説明する。まず、本
発明の第1実施例を説明する。本実施例では、特に本発
明がB−5)<性能が良くなるようにアルゴリズムを終
了させる条件が明確である>の条件を満たしていること
を示す。マップ部112のマップ31の素子の数を30
として1次元に配列した。また、分布形状変化計算部1
41でヒストグラム成分を成分とするベクトルHを考
え、次の式(5)で示される変化量を分布形状変化量と
した。
【0068】 change k(t)=|H(t)−H(t−1)|/|H(t)| H(t)=(h1 ,h2 ,,,hn ) ・・・(5) ここで、h1 ,,,hn はヒストグラム成分、nは成分
数(本実施例では、30に相当する。)、tは更新回数
である。図16に前記のmean dとchange
kの更新回数に対する変化の1例を示す。A点がmea
dが収束した時刻、B点がchange kが収束
した時刻を示す。それぞれ、白丸がmean d、黒丸
がchange kを表す。図17(a)、(b)は、
それぞれA点、B点での分布作成部121で作成された
ヒストグラムを示す。ただし、クラスタの集積度を表す
量はV/dMとして選んだ。B点のヒストグラムの方が
A点より明確になっていることが分かる。よって、ch
ange kを計算し、収束した時刻(B点)でSOM
を終了させることにより、明確なヒストグラムが作成で
きることが分かる。このことは、B−5)<性能が良く
なるようにアルゴリズムを終了させる条件が明確である
>の条件を満たしていることを示している。
【0069】なお、SOMではマップの素子が両側で繋
がるリング状にしても、切り離した紐状にしてもよい。
両者は、素子の重みの更新の際の近傍の概念が異なる。
リング状の場合は、マップの両側を近傍として繋ぐこと
に相当し、紐状の場合はマップの両側を近傍としないこ
とに相当する。リング状の場合は、マップの両側で入力
データの位相関係の反映が歪む<Border Eff
ects>(T.Kohonen,"Things You Haven't Heard ab
out the Self-Organizing Map",Proc.IEEE Int. Conf.
on Neural Network,vol.3,pp.1147-1156,1993 )を除く
ことができる。紐状の場合は、ヒストグラムを表示する
とき、両側が山谷の途中になることがないので、解析が
しやすい。図17のヒストグラムは紐状の場合を示し
た。また、SOMが2次元である場合にはヒストグラム
も2次元になるが、そのときも2次元のヒストグラム成
分を成分とするベクトルHを考えれば、全く同様にでき
る。また、(5)式では、change kをベクトル
Hで規格化してあるが、これは大きさを限定することに
より、データ変動を滑らかにするためである。また、ヒ
ストグラム成分も規格化して、H/|H|を新たなベク
トルHとして選んでもデータ変動を滑らかにすることが
できる。
【0070】次に、本発明の第2実施例について説明す
る。本実施例では、特に本発明がB−6)<ノイズに強
い>という条件を満たしていることを示す。データ判別
部120では、次の(6)式で示すTHより大きいデー
タを判別して除去することにした。
【0071】 TH=MAX INPUT×R ・・・(6) ここで、MAX INPUTは入力データの大きさの最
大値、R(0<R<1)は取り除くデータ数の大小を決
める定数である。Rを小さくすることは、多くのノイズ
を除去することに相当する。本実施例では、MAX
NPUTは250、Rは0.4と選んだ。図18に示し
たような2次元ベクトルデータをクラスタ分類した。図
18では、矢印で示した付近のデータがノイズである。
この場合の分布作成部121で作成されたV/dMのヒ
ストグラムを図19に示す。図19(a)はデータを除
去しない場合であり、図19(b)はデータ判別部12
0で除去した場合である。
【0072】図19(b)の方が明確なヒストグラムが
作成され、クラスタ数が3と判明しやすいことが分か
る。したがって、本実施例がB−6)<ノイズに強い>
の条件を満たしていることを示している。
【0073】なお、このデータ判別部120は、マップ
解析部12でヒストグラムを作成するときに使うことが
有効である。これとは別に、マップ作成部11でSOM
を用いてマップを作成するときにデータを除去すること
も考えられるが、SOMのプロトタイプが入力データへ
近づくことを制限することになるので、適当な位相保存
写像が行われ難くなることがある。よって、データ判別
部120は、SOMで学習するときよりも、マップ解析
部12でヒストグラムを作成するときに使うことが有効
である。また、SOMが2次元である場合には、ヒスト
グラムも2次元になるが、そのときも全く同様にできる
ことは明らかである。
【0074】次に、本発明の第3実施例について説明す
る。本実施例では、特に本発明がB−7)<クラスタの
数、位置、分布の形等の前知識を用いずに、理論的な識
別限界のBayesの分類に近いクラスタ分類ができる
>という条件を満たしていることを示す。本実施例で
は、マップ解析部12のプロトタイプ再更新部123に
おいて、分布分割部122で分割された素子内のみが近
傍概念を持つようなSOMを行い、プロトタイプを更新
する。図20(a)、(b)、(c)に示すような2次
元ベクトルに対し、本実施例を用いてクラスタ分類を行
った。表1にプロトタイプ再更新部123でプロトタイ
プの再更新を行った場合と行わない場合の誤分類数をを
示した。この誤分類数は、Bayes分類を正当な分類
として、それに対し間違えて認識した数とした。当然こ
の数が少ない方が性能が良い分類が行われていることに
なる。
【0075】 表1によると、プロトタイプ再更新部123でプロトタ
イプの再更新を行った本実施例の方が誤分類率が減少
し、性能が良いことが分かる。よって、このことは、本
実施例がB−6)<クラスタの数、位置、分布の形等の
前知識を用いずに、理論的な識別限界のBayesの分
類に近いクラスタ分類ができる>の条件を満たしている
ことを示している。また、SOMが2次元である場合に
は、ヒストグラムも2次元になるが、そのときも同一ク
ラスタに属する2次元状のマップ内に近傍概念を持つよ
うにするだけで、全く同様にできる。
【0076】以上の実施例では、表示を容易にするため
に何れも入力データが2次元の場合を取り扱ったが、デ
ータ入力部111、132とマップ部112のプロトタ
イプ33の次元数を変えることにより、入力データは多
次元ベクトルにもスカラーにもすることができる。
【0077】また、本発明の入力データとしては、任意
の大きさのスカラー、ベクトルを選んでよい。すなわ
ち、SOMアルゴリズムは、D−1)<重みベクトルm
i (1≦i≦k)の初期状態によらず、適正なマップが
作成できる>という特徴があるので、データを予め規格
化したり、データの特徴(クラスタ数、クラスタ位置
等)を知る必要がない。よって、画像情報、音声情報、
通信信号、時系列データ等、あらゆる入力データに対し
て適用できる。
【0078】
【発明の効果】以上述べたように、本発明によると、以
下のB−1)〜B−7)の条件を満たすクラスタ分類装
置を提供することができる。 B−1)クラスタの数、位置、分布の形等の前知識なし
に過統合や過分割のない適性なクラスタ分類ができる。 B−2)処理の手順に依存しないクラスタ分類ができ
る。 B−3)処理の経過や結果を視覚的に見ることができ
る。 B−4)ヒストグラムが明確に生成される。 B−5)性能が良くなるようにアルゴリズムを終了させ
る条件が明確である。 B−6)ノイズに強い。 B−7)クラスタの数、位置、分布の形等の前知識を用
いずに、理論的な識別限界のBayesの分類に近いク
ラスタ分類ができる。
【図面の簡単な説明】
【図1】本発明の構成の概略を示す図である。
【図2】本発明でクラスタ分類するデータの例を示す図
である。
【図3】マップ作成部で作成するマップを示す図であ
る。
【図4】分布作成部で作成する分布を示す図である。
【図5】分布分割部で分割する分布とマップを示す図で
ある。
【図6】ラベル付け部でラベル付けしたマップとデータ
を示す図である。
【図7】SOMの構造を模式的に示す図である。
【図8】mean dとchange kの更新回数に
対する変化を示す図である。
【図9】本発明のマップ作成部とマップ解析部と分布形
状変化計算部の関係を示す図である。
【図10】本発明でクラスタ分類するノイズを含む入力
データを示す図である。
【図11】分布作成部で作成するノイズデータを除去し
ない場合とノイズデータを除去した場合の勝利数の分布
図である。
【図12】本発明のマップ解析部の構成を示す図であ
る。
【図13】2次元データに対するBayes境界とプロ
トタイプの更新をしない場合のプロトタイプによる境界
を示す図である。
【図14】本発明のマップ解析部の別の構成を示す図で
ある。
【図15】2次元データに対するBayes境界とプロ
トタイプの更新をする場合のプロトタイプによる境界を
示す図である。
【図16】本発明の第1実施例のmean dとcha
nge kの更新回数に対する変化を示す図である。
【図17】第1実施例でmean dを基準にした場合
とchange kを基準にした場合の分布作成部で作
成するV/dMの分布図である。
【図18】本発明の第2実施例で分類するクラスタを示
す図である。
【図19】第2実施例でノイズデータを除去しない場合
と除去した場合の分布作成部で作成するV/dMの分布
図である。
【図20】本発明の第3実施例で分類するクラスタを示
す図である。
【符号の説明】
11…マップ作成部 12…マップ解析部 13…ラベル付け部 21…入力データ群 21A、21B、21C…クラスタ 31…マップ 32…素子群 32A、32B、32C…素子群 33…プロトタイプ群 51…分割されたマップ 61…ラベル付けをしたマップ 111…データ入力部 112…マップ部 120…データ判別部 121…分布作成部 122…分布分割部 123…プロトタイプ再更新部 131…マップラベル部 132…データ入力部 133…データラベル部 141…分布形状変化計算部 ML…マップ層 IL…入力層

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 自己組織化特徴マッピングを用いて入力
    データに対するプロトタイプ群からなるマップを作成す
    るマップ作成部と、そのマップからクラスタの集積度を
    表す量の分布図を作成し、その分布図からマップを分割
    するマップ解析部と、そのマップにより入力データを分
    類するラベル付け部とからなるクラスタ分類装置におい
    て、分布図の形状の変化を計算する分布形状変化計算部
    を備え、計算された変化量が予め定めた基準量以下にな
    ったときに自己組織化特徴マッピングを終了するように
    したことを特徴とするクラスタ分類装置。
  2. 【請求項2】 自己組織化特徴マッピングを用いて入力
    データに対するプロトタイプ群からなるマップを作成す
    るマップ作成部と、そのマップからクラスタの集積度を
    表す量の分布図を作成し、その分布図からマップを分割
    するマップ解析部と、そのマップにより入力データを分
    類するラベル付け部からなるクラスタ分類装置におい
    て、プロトタイプ群からの距離が一定の値以上の入力デ
    ータを判別するデータ判別部を具備し、前記分布図作成
    の際にプロトタイプ群からの距離が一定の値以上と判別
    された入力データに対する前記のクラスタの集積度を表
    す量を除外することを特徴とするクラスタ分類装置。
  3. 【請求項3】 自己組織化特徴マッピングを用いて入力
    データに対するプロトタイプ群からなるマップを作成す
    るマップ作成部と、そのマップからクラスタの集積度を
    表す量の分布図を作成し、その分布図からマップを分割
    するマップ解析部と、そのマップにより入力データを分
    類するラベル付け部からなるクラスタ分類装置におい
    て、プロトタイプ群の結合が前記のクラスタの集積度に
    応じて切断可能に構成されていることを特徴とするクラ
    スタ分類装置。
JP7179738A 1995-07-17 1995-07-17 クラスタ分類装置 Withdrawn JPH0934861A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7179738A JPH0934861A (ja) 1995-07-17 1995-07-17 クラスタ分類装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7179738A JPH0934861A (ja) 1995-07-17 1995-07-17 クラスタ分類装置

Publications (1)

Publication Number Publication Date
JPH0934861A true JPH0934861A (ja) 1997-02-07

Family

ID=16071009

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7179738A Withdrawn JPH0934861A (ja) 1995-07-17 1995-07-17 クラスタ分類装置

Country Status (1)

Country Link
JP (1) JPH0934861A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000132533A (ja) * 1998-10-28 2000-05-12 Nec Corp ニューラルネット学習レベル判断システム及びそのニューラルネット学習レベル判断方法
JP2006309390A (ja) * 2005-04-27 2006-11-09 Hitachi Ltd 品目分類支援システムおよび品目分類支援プログラム
JP2007249997A (ja) * 2000-07-15 2007-09-27 Intevep Sa 工業プロセスの監視方法及び監視システム
WO2008016109A1 (fr) * 2006-08-03 2008-02-07 Panasonic Electric Works Co., Ltd. Procédé d'optimisation de jeu de données d'apprentissage pour dispositif d'identification du signal et dispositif d'identification du signal capable d'optimiser le jeu de données d'apprentissage
JP2008040683A (ja) * 2006-08-03 2008-02-21 Matsushita Electric Works Ltd 信号識別方法及び信号識別装置
JP2008040684A (ja) * 2006-08-03 2008-02-21 Matsushita Electric Works Ltd 信号識別装置の学習方法
JP2008059080A (ja) * 2006-08-29 2008-03-13 Matsushita Electric Works Ltd 信号識別装置の学習データの選択方法
JP2009146149A (ja) * 2007-12-13 2009-07-02 Panasonic Electric Works Co Ltd 信号識別方法及び信号識別装置
JP2017146126A (ja) * 2016-02-15 2017-08-24 一般財団法人電力中央研究所 予測装置、予測方法および予測プログラム
CN107679084A (zh) * 2017-08-31 2018-02-09 平安科技(深圳)有限公司 聚类标签生成方法、电子设备及计算机可读存储介质

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000132533A (ja) * 1998-10-28 2000-05-12 Nec Corp ニューラルネット学習レベル判断システム及びそのニューラルネット学習レベル判断方法
JP2007249997A (ja) * 2000-07-15 2007-09-27 Intevep Sa 工業プロセスの監視方法及び監視システム
JP2006309390A (ja) * 2005-04-27 2006-11-09 Hitachi Ltd 品目分類支援システムおよび品目分類支援プログラム
JP4490863B2 (ja) * 2005-04-27 2010-06-30 株式会社 日立東日本ソリューションズ 品目分類支援システムおよび品目分類支援プログラム
WO2008016109A1 (fr) * 2006-08-03 2008-02-07 Panasonic Electric Works Co., Ltd. Procédé d'optimisation de jeu de données d'apprentissage pour dispositif d'identification du signal et dispositif d'identification du signal capable d'optimiser le jeu de données d'apprentissage
JP2008040683A (ja) * 2006-08-03 2008-02-21 Matsushita Electric Works Ltd 信号識別方法及び信号識別装置
JP2008040684A (ja) * 2006-08-03 2008-02-21 Matsushita Electric Works Ltd 信号識別装置の学習方法
US7831530B2 (en) 2006-08-03 2010-11-09 Panasonic Electric Works Co., Ltd. Optimizing method of learning data set for signal discrimination apparatus and signal discrimination apparatus capable of optimizing learning data set by using a neural network
JP2008059080A (ja) * 2006-08-29 2008-03-13 Matsushita Electric Works Ltd 信号識別装置の学習データの選択方法
JP2009146149A (ja) * 2007-12-13 2009-07-02 Panasonic Electric Works Co Ltd 信号識別方法及び信号識別装置
JP2017146126A (ja) * 2016-02-15 2017-08-24 一般財団法人電力中央研究所 予測装置、予測方法および予測プログラム
CN107679084A (zh) * 2017-08-31 2018-02-09 平安科技(深圳)有限公司 聚类标签生成方法、电子设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN110443281B (zh) 基于hdbscan聚类的文本分类自适应过采样方法
Omran et al. An overview of clustering methods
US8045800B2 (en) Active segmentation for groups of images
US5796924A (en) Method and system for selecting pattern recognition training vectors
US9317540B2 (en) Method, system and aggregation engine for providing structural representations of physical entities
US6363327B1 (en) Method and apparatus for extracting selected feature information and classifying heterogeneous regions of N-dimensional spatial data
US20080063264A1 (en) Method for classifying data using an analytic manifold
US20070003138A1 (en) Method for segmenting an image and an image transmission system and image transmission unit therefore
US20060013475A1 (en) Computer vision system and method employing illumination invariant neural networks
Behnke et al. Competitive neural trees for pattern classification
JPH0934861A (ja) クラスタ分類装置
Jouili et al. Median graph shift: A new clustering algorithm for graph domain
CN111860823A (zh) 神经网络训练、图像处理方法及装置、设备及存储介质
Villa-Blanco et al. Feature subset selection for data and feature streams: a review
CN111275206A (zh) 一种基于启发式采样的集成学习方法
CN103221965A (zh) 用于稳健模式分类的系统和方法
CN114463552A (zh) 迁移学习、行人重识别方法及相关设备
US6507830B1 (en) Retrieval system, retrieval method and computer readable recording medium that records retrieval program
US20230259761A1 (en) Transfer learning system and method for deep neural network
JPH07234854A (ja) クラスタ分類装置
CN115587313A (zh) 一种轨迹数据半监督分类方法及装置
CN112347842B (zh) 一种基于关联图的离线人脸聚类方法
JP2008299640A (ja) パターン認識装置、パターン認識方法、及びプログラム
Kim et al. Unsupervised gene selection for high dimensional data
JP3334029B2 (ja) クラスタ分類方法及びクラスタ分類装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20021001