JP2003256443A - データ分類装置 - Google Patents

データ分類装置

Info

Publication number
JP2003256443A
JP2003256443A JP2002059012A JP2002059012A JP2003256443A JP 2003256443 A JP2003256443 A JP 2003256443A JP 2002059012 A JP2002059012 A JP 2002059012A JP 2002059012 A JP2002059012 A JP 2002059012A JP 2003256443 A JP2003256443 A JP 2003256443A
Authority
JP
Japan
Prior art keywords
cluster
pattern data
data
pattern
belongs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002059012A
Other languages
English (en)
Inventor
Hitoshi Ikeda
仁 池田
Sukeji Kato
典司 加藤
Hirotsugu Kashimura
洋次 鹿志村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2002059012A priority Critical patent/JP2003256443A/ja
Priority to US10/375,136 priority patent/US7227985B2/en
Publication of JP2003256443A publication Critical patent/JP2003256443A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Television Signal Processing For Recording (AREA)
  • Complex Calculations (AREA)

Abstract

(57)【要約】 【課題】 自律的に動作し、かつマップ上のプロトタイ
プの数に配慮したデータ分類装置を提供する。 【解決手段】 クラスタ決定部31が、入力されたパタ
ーンデータについて、各パターンベクトル間の類似度を
演算し、当該類似度によって近傍クラスタを決定して、
当該近傍クラスタに属するパターンベクトルと、注目パ
ターンベクトルとの間の相関値を演算し、当該相関値を
用いて、注目パターンベクトルの属するべきクラスタの
番号を分類部42に設定する。分類部42は、この設定
を用いて、分類対象として入力されるパターンベクトル
をクラスタに分類する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、画像、音声を含む
感覚データ等、種々のデータを分類するデータ分類装置
に関する。
【0002】
【従来の技術】近年、情報機器の普及・発展に伴い、人
々が受取る情報量はますます増加している。このような
背景の下では、必要な情報を選びやすくするため、人間
の介入なしに情報を認識し分類する技術の開発が要望さ
れている。
【0003】こうした要望に対し、分類対象のデータに
ついて比較して類似性のあるもの同士を一群のデータと
して分類する、クラスタリング方法が考えられている。
ここで類似性の判断に際しては、最尤度推定法、K-mean
s法、併合法、MDS(Multi-Dimensional Scaling)法な
どが知られている。
【0004】
【発明が解決しようとする課題】しかしながら、上記従
来のクラスタリング方法は、パラメータの設定等、人間
の介入が不可欠で、自律的にクラスタリング処理を実行
できないという問題点があった。
【0005】[関連技術]一方、比較的自律的にクラス
タリング処理を行うための方法として、パターンデータ
の1つとしての入力画像データを格子空間マップ上で分
類整理するものがある。この分類整理のためには、例え
ば自己組織化特徴マッピング(以下、SOMと略す)
(T. コホーネン Self-organizing formation of topol
ogically correct feature maps. Biological Cybernet
ics, 1982)を利用している。このSOMは、データが
入力される入力層と、格子空間マップの競合層とからな
る2階層のネットワークで、入力はある重みづけがさ
れ、各格子に入力される。入力各成分についての重みづ
けをまとめたものを重みベクトルと称する。
【0006】当初、重みベクトルは次の方法で初期化さ
れる。すなわち、上記コホーネンの文献に示されるよう
に、学習の対象となる複数の入力ベクトル(ここでの特
徴量セットに相当する)の中からプロトタイプ数と同数
の入力ベクトルIをランダムに選び出し、各格子の重み
ベクトルの初期化を行う。また、同じく、コホーネンに
よれば、各重みベクトルに乱数で初期値を設定すること
としても構わない。
【0007】次に、重みベクトルの学習を行う。この学
習課程においては、学習用の特徴量セットが生成され、
当該学習用特徴量セットと格子空間上の各格子の重みベ
クトルとの所定測度(例えばユークリッド距離)が演算
される。そして各格子のうち、関係が最大(測度が最
小)となる格子(勝利ノード)を見いだす。そして格子
空間上、その格子(勝利ノード)に対し近傍に存在する
各格子について、学習用特徴量セットとの測度が小さく
なるように、その重みベクトルを補正する。このような
重みベクトルの補正を行いつつ学習を繰り返すことで、
互いに類似する特徴量からなる特徴量セットに対し、最
小測度を有する格子が特定の領域に集中するようにな
り、データの分類に適用可能な状態となる。ここで、重
みベクトルを補正する対象となる格子を選ぶにあたり、
勝利ノードからのマップ上の距離を用いる。また、補正
量は、勝利ノードcからの距離に応じて変化させること
が好ましく、補正量の大きさも変更可能としておくこと
が好ましい。一般的には、次の(1)式のように近隣の
ノードの重みベクトルIに近づくよう重みベクトルwを
補正する。
【0008】
【数1】 なお、
【数2】 ここで、α(t)は、補正量の大きさを支配する量で、
学習係数と呼ばれる。また、σ(t)は、重みベクトル
を修正する範囲の変化を決定する関数であり、近傍関数
と呼ばれる。これらは時間tに対し、ともに単調減少す
る関数である。勝者ノードを中心にマップ上のノード間
距離Rmaxが、
【数3】 の範囲に属する格子について(1)式による補正が行わ
れるが、学習の繰り返しの中で、Rmaxはσ(t)によ
って減少する。近傍関数σ(t)としては、トライアン
グル型、レクトアングル型(四角)、メキシカンハット
型等の関数を用いる。この近傍関数σ(t)の選択によ
っても、学習結果に影響があることが知られている。な
お、tは、「時刻」であり、特徴量セットが入力される
ごとにインクリメントされる。また、||rc-rj||は、勝
利ノードと、重みベクトルの補正対象ノードの間のノル
ム(距離)である。
【0009】しかし、上記技術をそのまま適用したので
は、直ちに自律的なデータ分類を行うことはできない。
自律的なデータ分類を実現するには、まず、学習後の格
子空間マップが適切なものであるかの判断が必要であ
る。すなわち、(1)最適な格子空間マップを獲得する
方法が必要である。また、当該学習後の格子空間マップ
を利用してデータ分類を行うときには、分類の基準とな
る境界線を上記格子空間上に形成し、分類対象として与
えられたデータについての特徴量セットに対して最小測
度を有する格子が、どの境界線内に属するか(この境界
線で区切られた格子空間上の領域を以下、クラスタと呼
ぶ)に基づき、当該データを分類することが適切であ
る。すなわち、(2)クラスタの境界を決定する方法も
求められる。
【0010】このうち、(1)最適な格子空間マップを
獲得する方法として、コホーネンは、平均量子化誤差が
最小となるマップを選択するという方法を提案してい
る。つまり、学習条件を互いに異ならせて形成した複数
の格子空間マップのうち、平均量子化誤差が最小のもの
を選択し、これを近似的に最適な格子空間マップとする
のである。この方法によると、入力される特徴量セット
の空間のトポロジーがマップのトポロジーに反映されな
い。いわば、トポロジーの保存度が低い。これは、クラ
スタリングの方法によっては誤分類に結びつくこともあ
る。
【0011】トポロジーの保存に配慮したものとして、
トポロジー関数(topographic function)と呼ばれる所
定の指標を学習中にモニタし、これにより学習条件を制
御して適切なマップを形成する技術(Auto-SOM法)も開
発されている。しかし、トポロジー関数の演算自体が負
荷の高い処理であるため、学習時間が長くなる問題点が
ある。
【0012】次に(2)クラスタの境界を自律的に決定
する方法としては、U-Matrix(Unified Distance Matri
x Methods)法と呼ばれる方法や、ポテンシャル法と呼
ばれる方法が研究されている。ここで、U-Matrix法につ
いては、A.Ultsch et. al.,"Knowledge Extraction fro
m Artificial Neural Networks and Applications",Pro
c.Transputer Anwender Treffen/ World Transputer Co
ngress TAT/WTC 93Aachen, Springer 1993に詳しく開示
されている。U-Matrixでは、マップ上で隣接する2つの
格子間の距離を次のように定義する。すなわち、当該2
つの格子の各重みベクトルの成分毎の差について、その
絶対値を総和したものや、当該差の二乗平均などを距離
として定義するのである。すると、類似性の高い特徴量
セットにそれぞれ強く結合(重みベクトルが特徴量セッ
トに近い値を持つもの、このようなものを以下、「特徴
量セットにプロトタイピングされている」と表現する)
している隣接格子間、つまり、類似性の高い2つの特徴
量セットのそれぞれにプロトタイピングされている隣接
格子間の上記距離は小さくなり、類似性の低い2つの特
徴量セットのそれぞれにプロトタイピングされている隣
接格子間の距離は大きくなる。そこでこの距離の大きさ
を高さとした3次元的な面を考えると、互いに類似する
特徴量セットにプロトタイピングされた格子間に対応す
る面の高さは低くなり「谷」を形成するのに対し、互い
に異なる特徴量セットにプロトタイピングされた格子間
に対応する面の高さは高くなり「山」を形成する。従っ
てこの「山」に沿って境界線を形成すれば、類似性の高
い特徴量セットにプロトタイピングされている格子の集
合(クラスタ)を規定できる。U-Matrixは、いわば、自
己組織化マップでは入力空間での距離が保存されない点
を補強したものであるということができる。
【0013】しかしU-Matrixは、「山」と「谷」との高
低差が明瞭であれば境界を規定できるものの、現実の情
報処理では「山」と「谷」との高低差は期待されるほど
明瞭にならず、3次元面の高さはゆるやかに変化するこ
とも多い。この場合には、人為的に境界線を設定する必
要があって、必ずしも自律的に境界が決定できるわけで
はない。
【0014】一方のポテンシャル法は、D.Coomans, D.
L.Massart, Anal.Chem.Acta., 5-3,225-239(1981)に開
示されているもので、事前に定めたポテンシャル関数を
用いて、入力データに対する関数の値を重ね合わせて入
力データを近似的に表現する母集団の確率密度関数を推
定し、重なりあいの少ない部分を境界として決定すると
いうものである。ポテンシャル関数としてはガウシアン
型の関数とすることが多い。具体的には、N個の入力ベ
クトルからなる入力データ群があるとき、それぞれK次
元の大きさを持つとするとl番目の入力データが他の入
力データから受ける平均的なポテンシャル(l番目入力
が全体の入力集合に対する寄与率)Ψlを次の(2),
(3)式によって定義する。
【0015】
【数4】
【0016】尚、xklはl番目入力のk番目の成分を意
味する。また、αはスムージングパラメータで分類され
るクラスタの数に影響を与える。従って、ポテンシャル
法では、その分布形状を仮定する分布関数の最適化や、
各種パラメータの最適化が入力ベクトル集合ごとに求め
られ、要するに分類対象となるデータの特性について事
前に知識が必要であるうえ、人為的調整が不可欠とな
る。また、このポテンシャル法では、入力データから得
られる特徴量セットが高次元になると、それについて適
切な確率密度分布を求めるにはサンプルが多数なければ
ならず、少数の格子からなるマップに対しての適用が困
難であるという問題点がある。つまり、ポテンシャル法
についても、必ずしも自律的に境界が決定できるわけで
はない。
【0017】これらの問題点を解決するため、例えば特
開平7−234854号公報、特開平8−36557号
公報、「自己組織化特徴マップ上のデータ密度ヒストグ
ラムを用いた教師無しクラスタ分類法」,電子情報通信
学会論文誌D-II Vol.J79-DIINo.7 pp.1280-1290, 1996
年7月などに開示された技術が研究されている。しかし
ながら、どの技術においても、入力されるデータの構成
自体や、マッピングの結果において、分類に使いたい特
徴が十分な距離をあけて各格子にプロトタイピングされ
ることを前提としており、画像データの分類において例
えば見られるような、分類してほしい特徴毎の分布形状
の差異や重なり、その特徴にプロトタイピングされてい
る格子のマップ上の位置の重心間の距離にばらつきがあ
る場合などでは、マップ上でクラスタの境界が複雑に入
り組むため、適切なクラスタリングができなくなる。
【0018】さらに、関連技術においては、マップ上の
格子の数については研究の過程で経験的に決定するだけ
で、実際の用途に適合した適切な格子の数を決定すると
いったことは配慮されていなかった。しかしながら、適
切な数よりも格子の数が少ない場合、クラスタ境界部の
格子と、別のクラスタに属するべき特徴量セットが強く
結合されてしまう場合があり、この場合は分類誤りが多
くなる。この点について、格子の数を追加/削減して平
均量子化誤差が所定量を下回るようにするという技術
が、James S. Kirk et. al. "A Self-Organized Map wi
th Dynamic Architecture for Efficient Color Quanti
zation", IJCNN'01, 2128-2132に開示されている。尤
も、この技術では、入力データに対応する特徴量セット
の空間でのデータ分布を写像した格子が追加等されるだ
けなので、データ分類において重要となる、クラスタ境
界付近の格子の数を増大させるというようなことには配
慮されていない。そこで例えば当初から格子の数を多く
しておくこととしてもよいが、この場合、計算時間が長
くなって実用的でない。
【0019】また、プロトタイプを用いることなく、入
力されるデータ(パターンデータ)を直接、クラスタに
分類する場合も同様に、パターンデータの集合の確率的
性質に基づき、パターンデータの集合をクラスタに分類
する方法がある。なお、ここで確率的性質は、例えばベ
イズ学習により確率分布パラメータを逐次的に推定する
方法や、ポテンシャル関数を用いる方法が知られてい
る。しかし、この場合に確率的性質を推定するにあたっ
ては、入力されるパターンデータについて、予めクラス
タリングのヒントとなる情報(例えばラベル)が付与さ
れている必要がある。これは、当該ヒントとなる情報ご
とに、パターンデータを仮に分類した上で、各分類での
確率分布を推定する演算を要するからである。
【0020】そこで、個々のパターンデータ間の類似度
を所定の関数により演算し、パターンデータ空間の構造
を分析し、その分析結果としての構造に従ってクラスタ
リングを行うこともできる。この週の方法には、K-mean
s法や分割併合法(いわゆるISODATA法)として知られて
いる方法があるが、いずれも人為的にパラメータを設定
する必要がある。すなわち、K-means法では、パターン
データ群をいくつのクラスタに分割したいかを表す最終
クラスタ数を設定しておかなければならない。また、ク
ラスタ中心値と呼ばれるパラメータの設定に、クラスタ
リングの結果が敏感に依存してしまい、設定する値に応
じてクラスタリング結果の良否が決ってしまう問題点も
ある。
【0021】一方、分割併合法においても、クラスタ除
去閾値、クラスタ分割閾値、クラスタ併合閾値といった
数多くのパラメータ設定が必要であり、クラスタリング
結果は、これらの値の設定に大きく依存している。
【0022】本発明は、上記実情に鑑みて為されたもの
で、自律的にクラスタリングを行うことのできるデータ
分類装置を提供することを目的とする。
【0023】
【課題を解決するための手段】上記従来例の問題点を解
決するための本発明は、入力される複数のパターンデー
タを少なくとも一つのクラスタに分類するデータ分類装
置であって、当初は前記パターンデータの各々につい
て、その属するクラスタを仮に決定しておき、各クラス
タごとに、当該クラスタに属している少なくとも1つの
パターンデータと、クラスタに分類する対象となった注
目パターンデータとの間で所定の相関値を演算し、前記
相関値に基づき、前記注目パターンデータの属するべき
クラスタを決定することを特徴としている。
【0024】また、上記従来例の問題点を解決するため
の本発明は、入力される複数のパターンデータを少なく
とも一つのクラスタに分類するデータ分類装置であっ
て、当初は前記パターンデータの各々について、その属
するクラスタを仮に決定しておき、各クラスタごとに、
当該クラスタに属している各パターンデータと、クラス
タに分類する対象となった注目パターンデータとの間の
各類似度を所定の関数により決定し、前記各類似度の値
を総和して相関値を演算し、各クラスタごとの前記相関
値に基づき、前記注目パターンデータの属するべきクラ
スタを決定することを特徴としている。
【0025】ここで、前記所定の関数は、パターンデー
タの類似度の出現頻度分布に基づくパラメータまたは、
各パターンデータについての他のパターンデータとの類
似度の統計量に基づくパラメータを含んで定義されるこ
とも好ましい。また、前記所定の関数は、類似度の低下
に伴いその値が比較的急速に最小値に漸近する関数であ
ることとするのも好ましい。
【0026】さらに、上記従来例の問題点を解決するた
めの本発明は、入力される複数のパターンデータを少な
くとも一つのクラスタに分類するデータ分類装置であっ
て、(a)前記パターンデータの各々について、その属
するクラスタを仮に決定し、(b)各パターンデータを
順次、クラスタに分類する対象となるべき注目パターン
データとして選択し、(c)各クラスタごとに、当該ク
ラスタに属している少なくとも1つのパターンデータ
と、クラスタに分類する対象となった注目パターンデー
タとの間で所定の相関値を演算し、(d)前記相関値に
基づき、前記注目パターンデータの属するべきクラスタ
を決定し、前記(b),(c),(d)の処理を、各パ
ターンデータの属するべきクラスタの変更がなくなるま
で繰返して行って、各パターンデータをクラスタに分類
することを特徴とする。
【0027】また、本発明のある態様によれば、入力さ
れる複数のパターンデータを少なくとも一つのクラスタ
に分類するデータ分類方法であって、当初は前記パター
ンデータの各々について、その属するクラスタを仮に決
定しておき、各クラスタごとに、当該クラスタに属して
いる少なくとも1つのパターンデータと、クラスタに分
類する対象となった注目パターンデータとの間で所定の
相関値を演算し、前記相関値に基づき、前記注目パター
ンデータの属するべきクラスタを決定することを特徴と
している。
【0028】さらに、本発明の別の態様によると、入力
される複数のパターンデータを少なくとも一つのクラス
タに分類するデータ分類方法であって、当初は前記パタ
ーンデータの各々について、その属するクラスタを仮に
決定しておき、各クラスタごとに、当該クラスタに属し
ている各パターンデータと、クラスタに分類する対象と
なった注目パターンデータとの間の各類似度を所定の関
数により決定し、前記各類似度の値を総和して相関値を
演算し、各クラスタごとの前記相関値に基づき、前記注
目パターンデータの属するべきクラスタを決定すること
を特徴としている。
【0029】さらに、上記従来例の問題点を解決するた
めの本発明は、コンピュータに、入力される複数のパタ
ーンデータを少なくとも一つのクラスタに分類させるデ
ータ分類プログラムであって、当初は前記パターンデー
タの各々について、その属するクラスタを仮に決定して
おき、各クラスタごとに、当該クラスタに属している少
なくとも1つのパターンデータと、クラスタに分類する
対象となった注目パターンデータとの間で所定の相関値
を演算する手順と、前記相関値に基づき、前記注目パタ
ーンデータの属するべきクラスタを決定する手順と、を
実行させることを特徴としている。
【0030】また、上記従来例の問題点を解決するため
の本発明は、コンピュータに、入力される複数のパター
ンデータを少なくとも一つのクラスタに分類させるデー
タ分類プログラムであって、当初は前記パターンデータ
の各々について、その属するクラスタを仮に決定してお
き、各クラスタごとに、当該クラスタに属している各パ
ターンデータと、クラスタに分類する対象となった注目
パターンデータとの間の各類似度を所定の関数により決
定し、前記各類似度の値を総和して相関値を演算する手
順と、各クラスタごとの前記相関値に基づき、前記注目
パターンデータの属するべきクラスタを決定する手順
と、を実行させることを特徴としている。
【0031】
【発明の実施の形態】本発明の実施の形態について図面
を参照しながら説明する。なお、以下の説明では画像デ
ータの分類を行う場合を例として挙げながら説明する
が、実際の利用においては、画像データのみならず、味
覚データなど他の感覚器データであってもよいし、さら
に実験結果などの測定データであっても構わない。
【0032】本実施の形態に係るデータ分類装置1は、
図1に示すように、CPU11と、RAM12と、RO
M13と、ハードディスク14と、画像入力用インタフ
ェース15と、ディスプレイ16と、外部記憶部17と
から基本的に構成され、これら各部はバス接続されてい
る。すなわち、本実施の形態のデータ分類装置1は、一
般的なパーソナルコンピュータによってソフトウエア的
に実現される。このソフトウエアは、一般的にはCDR
OMやDVDROMなどの記録媒体に格納された状態で
頒布され、またはネットワークを介してダウンロードさ
れる(ネットワークに対する接続インタフェースは図示
を省略した)。そして、当該記録媒体によって頒布され
る場合には外部記憶部17にて読み出されて、所定のイ
ンストール処理により、ハードディスク14に格納され
る。また、ネットワークを介してダウンロードされた場
合も同様に、ハードディスク14にインストールされ
る。
【0033】CPU11は、このハードディスク14に
格納されているプログラムに従って動作し、基本的には
Windows(登録商標)等のオペレーティングシス
テムの管理下で本実施の形態のデータ分類装置1を具現
化するデータ分類プログラム等を実行する。
【0034】RAM12は、CPU11のワークメモリ
として利用されるもので、CPU11の処理中に各種パ
ラメータやデータを記憶するために用いられる。ROM
13は、主としてオペレーティングシステムの読み込み
の処理など、データ分類装置1が起動する際に必要とな
るプログラムが格納されている。この起動用プログラム
の内容は広く知られているので、その説明を省略する。
【0035】ハードディスク14は、オペレーティング
システムの本体や、種々のプログラムがインストールさ
れている。また、本実施の形態においては、このハード
ディスク14には、既に説明したように、データ分類プ
ログラムがインストールされている。尚、ここではハー
ドディスク内に格納されている場合について例示した
が、例えばSRAM(Static Random Access Memory)
や、EEPROM等の不揮発性メモリにインストールし
ても構わないし、図1に示したように、CPU11と同
一筐体に含まなくても、図示しないネットワークインタ
フェースを介して接続される別のコンピュータ内にイン
ストールされていてもよい。
【0036】画像入力用インタフェース15には、スキ
ャナ等の画像入力装置が接続され、当該画像入力装置か
ら画像データの入力を受けて、CPU11に出力する。
ディスプレイ16は、CPU11からの指示に従って、
画像を表示する。
【0037】[実施の形態1]ここで第1の実施の形態
として、具体的に入力されるパターンデータについて、
各パターンデータを代表するプロトタイプを生成し、そ
のプロトタイプをマップ上で分類した上で、当該マップ
上で分類されたプロトタイプ群を、入力される各パター
ンデータの分類に供するものについて、第1の実施の形
態として説明する。本実施の形態のデータ分類プログラ
ムは、マップ生成部21と、クラスタ境界決定部22と
を含み、マップ生成部21は、SOM学習部31と、マ
ップ選択部32と、学習条件設定部33と、プロトタイ
プ追加部34とを備える。ここでは、これらの各部が、
それぞれソフトウエアモジュールとして実現されること
としているが、ハードウエア的に論理回路によって構成
されても構わない。このCPU11における処理につい
ては後に詳しく述べる。
【0038】[処理の詳細]ここでCPU11が実行す
るデータ分類プログラムの詳細について、図2を参照し
ながら説明する。マップ生成部21は、例えば既に説明
した自己組織化マッピング(SOM)により、プロトタ
イプマップを形成し、形成したプロトタイプマップの情
報をクラスタ境界決定部22に出力する。クラスタ境界
決定部22は、マップ生成部21から入力されるプロト
タイプマップに対し、各プロトタイプをクラスタに分類
する。以下、これらの各部についての動作を分けて詳し
く述べる。
【0039】[マップ生成]まず、マップ生成部21の
SOM学習部31は、学習条件設定部33から入力され
る複数(例えばMセット(Mは2以上の整数))の学習
条件のセットの各々に対応するM個のプロトタイプマッ
プ候補を生成する。各マップ候補は、各プロトタイプを
特定する情報に対して、そのプロトタイプと特徴量セッ
トの成分の各々との関係重みの情報を関連づけたもので
ある。本実施の形態においては、マップを構成するプロ
トタイプは必ずしも格子点状に配列されている必要はな
い(この場合、プロトタイプを特定する情報にプロトタ
イプのマップ上の座標情報が含まれてもよい)が、以下
の説明では簡単のため、格子点状に配列されているもの
として説明する。
【0040】マップ選択部32は、各マップ候補を量子
化誤差(QE)と、トポロジカル・プロダクト(以下、
TPと呼ぶ)とを演算して、これらに基づき、クラスタ
決定に適したマップを一つ、チャンピオンマップとして
選択する。ここで、量子化誤差は、次の(4)式で演算
される。
【0041】
【数5】
【0042】(4)式において、Pはマップ学習に用い
る特徴量セットの数(つまり学習パターン数)であり、
Ejは、j番目の特徴量セットベクトルであり、Wcは、
j番目の特徴量セットベクトルに対しての勝利ノードの
重みベクトルである。なお、この量子化誤差について
は、コホーネンらにより広く知られたものであるので、
その詳細な説明を省略する。
【0043】また、TPは、次の(5)式で演算され
る。
【0044】
【数6】
【0045】このTPは、入力層での空間(特徴量セッ
トの空間)と、競合層での空間(プロトタイプの空間)
との相対的位置関係が一致するほど小さい値となるもの
で、バウアー(Bauer)らによって、Bauer, H.U., and
Pawelzik, K.R.,(1992), "Quantifying the neighborho
od preservation of self-organizing feature maps."
IEEE Trans. Neural Networks, 3, 570-579などの論文
で提案されているものである。
【0046】マップ選択部32は、これらQEとTPと
の値を用いて、次の(6)式にて演算されるスコア値が
小さいものをチャンピオンマップMAPcとして選択
し、その選択結果を出力する。
【0047】
【数7】 つまり、
【数8】 である。
【0048】また、マップ選択部32は、当初は、この
チャンピオンマップの選択結果を後段のクラスタ境界決
定部22には出力せず、少なくとも一度、学習条件設定
部33に出力する。そして事前に設定された回数だけ繰
返してチャンピオンマップの選択を行った後に、その時
点での選択結果をクラスタ境界決定部22に出力する。
【0049】学習条件設定部33は、学習条件として例
えば学習用の入力データの数(学習の回数)Nと、近傍
距離σ(t)と、学習係数α(t)とのセットをMセッ
ト出力する。この学習条件設定部33は、当初はこれら
の値や関数(N,σ(t),α(t))をランダムなパ
ラメータに基づいて決定するか、事前に定められたセッ
ト(プリセット)として決定する。また、この学習条件
設定部33は、マップ選択部32からチャンピオンマッ
プの選択結果の入力を受けて、当該選択結果のマップ候
補に対応する学習条件のセットを取出す。そして、この
取出した学習条件のセットを基準として、さらにM個の
学習条件のセットを生成して設定し、SOM学習部31
に出力する。
【0050】なお、プロトタイプ追加部34は、クラス
タ境界決定がされた後に、プロトタイプマップの所定の
位置にプロトタイプを追加してさらに学習を行わせるも
のであるが、クラスタ境界決定部22の動作に関係する
ので、後に詳しく説明する。
【0051】ここで、マップ生成部21における学習の
動作について説明する。当初、学習条件設定部33がラ
ンダムな、又は事前に定められたパラメータを用いて学
習条件のセットを複数(例えばMセット)生成して出力
する。SOM学習部31は、学習条件設定部33が出力
する各学習条件のセットに応じてM個のプロトタイプマ
ップの候補(マップ候補)を生成し、マップ選択部32
に出力する。マップ選択部32は、これらのマップ候補
の中から、量子化誤差とTPとの双方を用いて学習状態
がクラスタリングに対して好適となっているマップ(チ
ャンピオンマップ)を選択し、その選択結果を学習条件
設定部33に出力する。すると、学習条件設定部33が
当該チャンピオンマップの生成に用いられた学習条件に
基づき、新たな学習条件のセットを複数生成し、再度S
OM学習部31に出力して複数のマップ候補を生成させ
る。
【0052】このようにして、マップ候補の生成、チャ
ンピオンマップの選択、学習条件の再設定という動作を
所定の回数だけ繰返し、その結果得られたチャンピオン
マップがクラスタの境界設定対象マップとしてクラスタ
境界決定部22に出力される。
【0053】[クラスタ境界決定]クラスタ境界決定部
22は、マップ生成部21から入力される境界設定対象
となったマップについて、図3に示すような処理を実行
する。具体的にクラスタ境界決定部22は、入力された
マップに含まれるプロトタイプの各々に固有の番号を割
当てて、仮のクラスタリング結果を生成する(S1)。
この番号は、所定の順序に「1」から順に「P」(プロ
トタイプの数をPとする)まで番号を振ったものでよ
い。この番号が仮のクラスタ番号となる。すなわち、当
初は、各プロトタイプが互いに異なるクラスタに分類さ
れる。
【0054】次に、クラスタ境界決定部22は、プロト
タイプペアを抽出し、抽出したプロトタイプペアに係る
各プロトタイプの重みベクトル間の類似度(Cd)を計
算する(S2)。この計算の結果は、類似度テーブルと
してRAM12に格納される。ここでプロトタイプペア
というのは、各プロトタイプを順次注目プロトタイプと
して選択し、注目プロトタイプと、他のプロトタイプと
のすべての組み合せを採ったもの、すなわち2つのプロ
トタイプの組み合せ(combination)のすべてをいって
いる。またここで類似度とは、各重みベクトルの成分ご
との差の二乗和(距離)を用いる。
【0055】この類似度をクラス(所定の数値範囲ご
と)に分類して、各クラスごとの出現頻度の情報を生成
し(図4)、この出現頻度が最大となった距離をCdと
し、所定の「0」に近い微小量δ(例えばδ=0.0
1)を決定しておく。あるいは、出現頻度が最大となる
距離より短くかつ頻度が減少から増加に転じる最大の距
離をCdとしてもよい。
【0056】次に、クラスタ番号の更新処理を開始する
(S3)。このクラスタ番号更新処理は、図5に示すよ
うなものであるが、ここでは簡単のため、クラスタの境
界を決定しようとするプロトタイプマップとして3×3
の格子マップがあるとして説明する。当初プロトタイプ
マップに対しては処理S1にて、3×3=9個のプロト
タイプにそれぞれ図6(a)に示すような「1」〜
「9」の固有の番号を割当ててある。
【0057】クラスタ境界決定部22は、各プロトタイ
プを順次、注目プロトタイプとして選択する(S1
1)。そして、当該注目プロトタイプに隣接する(仮に
クラスタリングされたプロトタイプマップ上で所定距離
内の)プロトタイプの属しているクラスタを選択し(S
12)、当該選択したクラスタに属するプロトタイプを
抽出する(S13)。
【0058】図6の例では例えば左下側の「1」を注目
プロトタイプとして、それに隣接するクラスタの番号
「1」,「4」,「5」,「2」のそれぞれについて、
各クラスタに属するプロトタイプを選択することにな
る。そして、クラスタ境界決定部22は、処理S12に
て選択したクラスタに属する各プロトタイプと注目プロ
トタイプとの測度としての相関量を次の(7)式(類似
度の低下に伴い、所定微分値より急速に「0」に漸近す
る関数)を用いて演算し(S14)、この相関量に基づ
き注目プロトタイプの属するクラスタを決定する。
【0059】
【数9】
【0060】ここで、y*は、注目プロトタイプの重みベ
クトルであり、yiは、i番目のプロトタイプの重みベク
トルである。また、χは、プロトタイプベクトルの集合
であり、χ(c)は、クラスタ番号cのプロトタイプベク
トルの集合である。また、αの決定に用いられるCd,
δは、処理S2にて得たものであり、Lnは、自然対数を
表す。すなわち、(7)式は、注目プロトタイプと、ク
ラスタ番号cに属するプロトタイプとの距離の総和を全
体平均で除したもので、注目プロトタイプと、クラスタ
cの相関量を表し、クラスタcの中に注目プロトタイプ
との重みベクトル間の相関量の大きいプロトタイプが多
いほど(7)式は、大きい値となる。
【0061】クラスタ境界決定部22は、(7)式が最
も大きい値となるクラスタの番号を、注目プロトタイプ
のクラスタ番号として仮決定し(S15)、この仮決定
の内容を記憶する(S16)。
【0062】ここで図6(a)に示したクラスタ「1」
に分類されたプロトタイプが注目プロトタイプである場
合、隣接プロトタイプとして「1」に属するプロトタイ
プについては、当初は他のプロトタイプがないので、演
算されず、「4」に属するプロトタイプ、「5」に属す
るプロトタイプ、「2」に属するプロトタイプとの間の
相関量が演算され、例えば「4」に属するプロトタイプ
との距離が最も短い場合、注目プロトタイプの属するク
ラスタを「1」から「4」に変更する(図6(b))。
ここで隣接するプロトタイプだけでなく、全プロトタイ
プとの演算を行ってもよい。そのようにすると、プロト
タイプマップ上は距離があるが、重みベクトル間の距離
は小さいというようなプロトタイプを同一クラスタにま
とめることができる。しかしながら、このようにする
と、計算時間が大きくなるので、ここでは事前にTPを
用いた評価を加味してプロトタイプマップ上の距離と、
重みベクトル間の距離とが大きく違わないようなマップ
を選択したのである。
【0063】そしてクラスタ境界決定部22は、すべて
のプロトタイプを注目プロトタイプとして選択したか否
かを調べ(S17)、まだ選択されていないプロトタイ
プがあれば(Noならば)、処理S11に戻って処理を
続ける。また、処理S17において、すべてのプロトタ
イプが選択されているならば(Yesならば)、クラス
タ番号更新の処理を終了する。
【0064】クラスタ境界決定部22は、図3に示す処
理に戻り、このようにして仮決定した内容と、更新処理
前のクラスタ番号とを比較し、クラスタ番号に変化があ
ったか(クラスタ番号がまだ収束していないか)を調べ
(S4)、変化があった場合には(Yesならば)、当
該仮決定した内容を新たに仮のクラスタリング結果と
し、処理S3を繰返して実行する。また、処理S4にて
変化がなければ(Noならば)、すなわち収束したなら
ば、現在のクラスタリング結果を出力する。
【0065】なお、上述の処理S2でのCdの決定方法
に代えて、各注目プロトタイプについて、他のプロトタ
イプとの類似度の統計量を演算し、各注目プロトタイプ
ごとの統計量に対して、さらに所定の統計処理を行った
結果を用いて、Cdを決定してもよい。この場合、Cd
は、次の(9)式で決められる。
【0066】
【数10】
【0067】ここで、kは、クラスタ決定の対象となる
プロトタイプが現在属するクラスタに隣接するクラスタ
であり、C1は、「1」より大きな正の定数である。こ
の(9)式によりCdを決めることで、隣接クラスタの
中で、少なくとも1つのクラスタに属するすべてのプロ
トタイプが、クラスタ決定の対象となるプロトタイプに
影響する。また、個々のプロトタイプごとに適したCd
を適応的に決定することが可能となる。
【0068】[プロトタイプの追加]本実施の形態にお
いて特徴的なことは、クラスタ境界決定部22がクラス
タリング結果を直ちに最終的な結果として出力せず、少
なくとも1度、マップ生成部21のプロトタイプ追加部
34に戻して出力できることである。プロトタイプ追加
部34は、クラスタリング結果を参照して、クラスタの
境界部に新規プロトタイプを生成して、再度学習を行わ
せるべく、SOM学習部31に当該新規プロトタイプ追
加後のプロトタイプマップを出力する。この際の学習
は、微調整を目的とするものなので、例えばクラスタリ
ング前の学習ではα(t)=0.2、σ(t)=2.0
と初期設定して、700パターンを10000回学習す
るよう学習条件パラメータが設定されていた場合でも、
新規プロトタイプ追加後の学習では、α(t)=0.0
02、σ(t)=1.0、パターンの繰返し入力が10
0といった学習条件パラメータで構わない。
【0069】具体的に、図6(a)のように当初仮にク
ラスタリングされていたプロトタイプマップに対して、
クラスタ境界決定部22が、クラスタ図6(c)のよう
なクラスタリング結果を出力したとすると、この「4」
と「6」との境界に新規プロトタイプを形成する(図6
(d))。ここで図6(d)では、理解のために先のク
ラスタリング結果を括弧つきで示したが、このようにプ
ロトタイプを追加した後は、先のクラスタリング結果は
無意味なものである。
【0070】なお、新規プロトタイプは、必ずしもクラ
スタ境界に沿って全体的に追加しなければならないもの
ではなく、その少なくとも一部に追加するものであって
も構わない。この場合において、追加する部分として
は、学習入力ベクトル(パターン)に対して最も距離の
短い、最近接プロトタイプとなった回数(パターンの
数)に基づいて決定することが好ましい。SOM学習や
VQ学習といった学習方法では、U-Matrix法が利用する
ように、クラスタの中心部ではプロトタイプの密度が大
きくなり、クラスタ境界部ではプロトタイプの密度が小
さくなる。従って、学習入力パターンに対して最近接プ
ロトタイプとなる機会が少なく、所定の閾値以下の場
合、つまりプロトタイプの密度が所定のしきい値よりも
低い部分は、クラスタ境界近傍のプロトタイプとみなす
ことができる。そこで、当該部分に新規プロトタイプを
追加するようにすれば、境界全体に沿って追加すること
がなくなり、再度の学習や、再度のクラスタリングにか
かる効率を向上できる。
【0071】また、追加する新規プロトタイプの重みベ
クトルを決定するには、追加しようとする位置(例えば
境界部分)近傍の既存プロトタイプの重みベクトルに対
する所定の統計演算結果(例えば算術平均値)により重
みベクトルを決定する。
【0072】[動作]次に、本実施の形態に係るデータ
分類装置1の動作について説明する。まず、学習条件設
定部33が複数の学習条件パラメータのセットS1,S
2,…SMを出力して、SOM学習部31において当該学
習条件パラメータのセットの数に対応した(M個の)プ
ロトタイプマップが生成される。SOM学習部31は、
外部から入力される学習画像データに基づき所定の特徴
量ベクトルを生成し、各プロトタイプマップの各プロト
タイプと当該特徴量ベクトルの各成分との結合重みを調
整する。SOM学習部31のこの動作は、コホーネンら
の記述により広く知られたものである。学習画像データ
としては、例えば「目」に関する画像データや、「鼻」
に関する画像データなど、後に分類の対象としようとす
る画像データとする。
【0073】SOM学習部31により生成された複数の
プロトタイプマップは、マップ選択部32に出力され、
マップ選択部32が各マップに含まれるプロトタイプに
関する演算から、量子化誤差(QE)及びトポロジカル
・プロダクト(TP)に基づき、量子化誤差が低く、T
Pにより示される入力層での空間(特徴量セットの空
間)と、競合層での空間(プロトタイプの空間)との相
対的位置関係の一致度、すなわち、重みベクトル間の距
離と、競合層での距離との一致度が高いマップを選択す
る。これにより、類似する画像データに反応するプロト
タイプ間のマップ上の距離が小さくなる。
【0074】そして選択されたマップの学習に用いられ
た学習条件パラメータのセットに基づき、学習条件設定
部33が再度学習条件パラメータのセットを複数生成し
てSOM学習部31に出力し、複数のマップが再度生成
され、その中から、QE及びTPに基づくマップ選択が
行われる。こうして、学習条件パラメータが再帰的に調
整され、マップの学習形成が再帰的に行われる。
【0075】このような再帰的学習の結果得られたマッ
プについて、クラスタ境界決定部22が、マップ上のプ
ロトタイプを順次選択し、その選択したプロトタイプと
それに隣接するプロトタイプとの間の相関量が大きいも
の同士を一つのクラスタにまとめる。つまり、プロトタ
イプのマップ上での隣接関係及び相関量によって各プロ
トタイプの属するクラスタが決定される。そして、この
処理を繰返し実行して、クラスタリングの結果が収束し
たところで、そのクラスタリングの結果をプロトタイプ
追加部34に出力する。
【0076】プロトタイプ追加部34がクラスタの境界
部分に新規プロトタイプを追加したマップを生成して、
このマップをSOM学習部31に出力し、所定の学習条
件を設定して再度学習を行わせる。この際は学習条件パ
ラメータのセットは1つだけでよく、従ってマップは一
つだけで構わない。そこで、この一つのマップの学習処
理が完了すると、当該マップを(マップ選択部32を介
することなく)そのままクラスタ境界決定部22に出力
し、クラスタ境界決定部22が改めてクラスタリングの
処理を行う。
【0077】そしてこのクラスタリングの処理の結果と
して得られたマップが分類処理に供される。すなわち、
分類対象として入力された画像データに対して特徴量ベ
クトルを生成し、この特徴量ベクトルに対して最も結合
重みの大きいプロトタイプ(入力された画像データに反
応するプロトタイプ)を見いだす。そして当該プロトタ
イプの属するクラスタの番号が、当該画像データの分類
番号となる。これにより、互いに類似する画像データ
(例えば「目」の画像データ)に対して特定の分類番号
が決定され、互いに異なる画像データ(例えば「目」と
「鼻」との画像データの各々)に対しては、異なる分類
番号が決定されて出力され、その結果は、ディスプレイ
16に表示され、また図示しないプリンタ等により印字
される。
【0078】このように本実施の形態によると、人間が
介入してパラメータを設定することなく、自律的に学習
とクラスタリングとが行われる。また、プロトタイプの
数が不足していれば、自律的にクラスタ境界部分にプロ
トタイプが追加され、適切な数のプロトタイプでの学
習、分類処理が実行される。
【0079】[具体的実施例]ここで、本実施の形態に
おける、新規プロトタイプを追加することについての実
施例について説明する。まず、「目」と「口」の2つに
分類されるべき画像データを700個用意し、プロトタ
イプ数が3×3=9個のプロトタイプマップを用いて学
習をさせることとする。ここでは簡単のため、学習条件
パラメータは、1つのセットのみ(従ってマップは1つ
だけ)とし、α(t)=0.2、σ(t)=2.0、7
00パターンを10000回繰返して入力してSOM学
習させる。この結果得られたプロトタイプマップに対し
てクラスタ境界決定を行った結果、図7に示すようにク
ラスタ境界が形成された。そして、このマップを用いて
データ分類を実行したところ、700のうち15のパタ
ーンが誤って分類されることが実験的に確認された。
【0080】そこで、クラスタ境界に図8(a)に示す
ような新規プロトタイプ(図面上、「New」と示したも
の)を追加し、改めてα(t)=0.002、σ(t)
=1.0、パターン繰返し入力回数100として追加的
な学習を行わせ、再度クラスタ境界決定を実行したとこ
ろ、図8(b)に示すようなクラスタリング結果が得ら
れた。これによるデータ分類の結果、誤って分類された
データの数は0となった。そこで、境界部分のプロトタ
イプの重みベクトルを検証したところ、分類対象となる
「目」と「口」との双方に対して最近接プロトタイプと
なるものがなくなっていることがわかった。
【0081】これに対し、始めから3×4=12のプロ
トタイプを配置したマップを用いて、学習条件パラメー
タをα(t)=0.2、σ(t)=2.0とし、700
パターンを10000回繰返して入力してSOM学習さ
せ、クラスタリングしたものを用いてデータ分類を行わ
せると、「目」と「口」との双方に対して最近接プロト
タイプとなるものが、クラスタ境界部分に存在し、若干
の分類誤りが発生することが実験的にわかった。これ
は、一旦クラスタ境界が形成された部分の解像度を高め
るべくプロトタイプが追加される本実施の形態のものに
対し、予めプロトタイプの数を多くしておく方法では、
入力空間でのパターン分布を写像するようにプロトタイ
プの学習が行われてしまうので、クラスタ境界部分での
データ分類の精度を高めるようにはならないためであ
る。さらに、本実施の形態では、当初は少ない数のプロ
トタイプで学習が行われるために、初期の学習にかかる
時間を短縮できる。再学習は、上に述べたように学習条
件パラメータを変更し、微調整程度の学習を行えば済む
ので、再学習の時間を加えても、最初からプロトタイプ
の数を多くした場合よりも短い学習時間で済む。
【0082】[変形例]なお、ここまでの説明では、学
習条件パラメータを再帰的に調整して学習し、プロトタ
イプ間の相関度を用いてクラスタを決定し、クラスタ決
定後にプロトタイプを追加して再学習、再度のクラスタ
決定を行うこととしているが、プロトタイプを追加する
技術については、既に用いられているプロトタイプマッ
プの学習形成と、クラスタリング技術に独立して適用し
てもよい。この場合、プロトタイプマップの学習には、
SOMだけでなく、VQ学習なども用いてもよい。
【0083】さらに、ここまでの説明では、画像データ
の分類について説明したが、その他のデータの分類につ
いても本実施の形態のデータ分類装置を用いることがで
きる。
【0084】[第2の実施の形態]次に、本発明の第2
の実施の形態として、パターンデータを直接的にクラス
タリングするデータ分類装置について説明する。本実施
の形態のデータ分類プログラムは、図9に示すように、
クラスタ決定部41と、分類部42とを含んで構成され
ている。
【0085】クラスタ決定部41は、クラスタリングの
ための学習を行うときに動作し、後に詳しく説明する、
クラスタリング処理を実行してクラスタリング結果(い
わゆるクラスタフィルタ)を生成して、分類部42に出
力する。分類部42は、実際の分類処理を実行するとき
に動作し、入力されたクラスタリング結果を記憶して
(例えばハードディスク14に格納して)、入力される
パターンデータについて、当該クラスタフィルタを参照
しながら、どのクラスタに分類されるべきデータである
かを決定し、その決定の結果を分類結果として出力す
る。この分類部42の処理の詳細についても後に詳しく
述べる。
【0086】[処理の詳細]ここでCPU11が実行す
るデータ分類プログラムにおけるクラスタ決定部41及
び分類部42の処理の詳細について説明する。まず、ク
ラスタ決定部41の処理の詳細について説明する。CP
U11は、クラスタ決定部41の処理として、図10に
示す処理が行われ、入力されたN個のパターンデータを
RAM12又はハードディスク14に記憶し、入力され
た順番に、「1」から「N」までの番号をクラスタ番号
として仮に割当てる(S21)。また、各パターンデー
タについて、その性状を特徴づける量をパターンベクト
ルとして演算する。CPU11は、これら(仮の)クラ
スタ番号と、パターンベクトルとを、それぞれ対応する
パターンデータに関連づけて格納しておく。当該パター
ンベクトル間の類似度を所定の関数によって演算する
(S22)。ここで類似度の演算に用いられる関数は、
例えばパターンベクトル間の測度、具体的にはパターン
ベクトル間の成分ごとの差の二乗和を用いる。すなわ
ち、複数のパターンデータから2つのパターンデータの
組み合せを選択し、各組み合せに係る2つのパターンデ
ータの2つのパターンベクトル間の測度を類似度として
演算し、当該類似度を類似度テーブルとしてRAM12
に記憶する。
【0087】またここで(8)式により、後に相関値の
演算に用いるパラメータ、αを演算しておく。具体的に
は、処理S22で演算した類似度をクラス(所定数値範
囲)ごとに分類して各クラスごとの出現頻度の情報を生
成して、当該出現頻度が最大となった距離をCdとし、
「0」に近い、所定の微小量δを決定して、αを演算す
る。この処理は、既に説明したプロトタイプ間の類似度
を演算して、αを決定する処理と同様のものである。
【0088】なお、この場合にも、Cdについては、当
該出現頻度が最大となった距離の代わりに、各注目パタ
ーンデータについて、他のパターンデータとの類似度の
統計量を演算し、各注目パターンデータごとの統計量に
対して、さらに所定の統計処理(各統計量の最小値)を
行った結果を用いて、すなわち(9)式にてCdを決定
してもよい。この(9)式によりCdを決めることで、
隣接クラスタの中で、少なくとも1つのクラスタに属す
るすべてのパターンデータが、クラスタ決定の対象とな
るパターンデータに影響する。また、個々のパターンデ
ータごとに適したCdを適応的に決定することが可能と
なる。
【0089】そしてCPU11は、クラスタ番号の更新
処理を開始する(S23)。このクラスタ番号の更新処
理は、図11に示すようなものであり、後に詳しく説明
する。クラスタ番号の更新処理が完了すると、CPU1
1は、処理S23の前後で、クラスタ番号に変化がない
か(クラスタリングの収束が完了したか)を調べ(S2
4)、変化があった場合(収束していない場合;Noの
場合)には、処理S23を繰返して実行する。また、処
理S24において、変化がなかった場合(クラスタリン
グが収束した場合、Yesの場合)、処理を完了して、
当該クラスタリングの結果(パターンデータとクラスタ
番号とを関連づけた情報を含むもの)をハードディスク
14に格納する。
【0090】ここで、処理S23のクラスタ番号の更新
処理について図11を参照しながら説明する。CPU1
1は、まず各パターンデータを順次、注目パターンデー
タとして選択する(S31)。この選択の順序は、例え
ば処理S21において仮のクラスタ番号を割当てた順序
(例えば入力順)であってもよい。そしてCPU11
は、注目パターンデータに対して現在割当てられている
クラスタ番号を取得し、その近傍クラスタを決定する
(S32)。ここで近傍クラスタ番号は、例えば類似度
テーブルを参照しながら、注目パターンデータとの間の
類似度の高い順に複数のパターンデータを取り出し、当
該取り出した複数のパターンデータの各々に割当てられ
ているクラスタ番号とする。なお、取り出すパターンデ
ータの個数は、予め「8個」等と決めておいてもよい
し、近傍クラスタとして決定されたクラスタ番号が複数
(例えば「4個」等の所定個数)となるまでと決めてお
いてもよい。また、ここで近傍クラスタには、注目パタ
ーンデータ自身が属しているクラスタが含まれる。
【0091】CPU11は、近傍クラスタとして決定さ
れたクラスタの番号を用いて、各近傍クラスタに現在属
しているパターンデータを、決定された近傍クラスタご
とに取り出し(S33)、近傍クラスタごとに取出され
たパターンデータと、注目パターンデータとの間の相関
量を(7)式(類似度の低下に伴い、所定微分値より急
速に「0」に漸近する関数)によって演算する(S3
4)。すなわち、y*を注目パターンデータのパターン
ベクトルとし、取出されたパターンデータのうち、i番
目のパターンデータのパターンベクトルをyiとし、
(7)式により、クラスタ番号cに属するパターンデー
タのパターンベクトルと、注目パターンデータのパター
ンベクトルとの間の距離(類似度)の総和を全体平均で
除した値を演算する。そしてこの値が、注目パターンデ
ータと、クラスタ番号cに属するパターンデータ群との
間の相関量とするのである。
【0092】CPU11は、近傍クラスタごとに、その
クラスタに属するパターンデータ群と、注目パターンデ
ータとの相関量を演算しておき、近傍クラスタのうち、
相関量が最大となったものを選びだす(S35)。そし
て注目パターンデータと当該選び出した近傍クラスタの
番号とを関連づけて、仮の更新結果としてRAM12に
記憶しておく(S36)。
【0093】そしてCPU11は、すべてのパターンデ
ータを注目パターンデータとして選択したか否かを調べ
(S37)、すべてのパターンデータを選択していなけ
れば(未選択のものがあれば、Noであれば)、処理S
31に戻って処理を続ける。また、処理S37におい
て、未選択のものがなければ(Yesであれば)、RA
M12に記憶された仮の更新結果に基づいて、各パター
ンデータに現在関連づけられているクラスタ番号を更新
し(S38)、クラスタ番号の更新処理を完了する。こ
こで、一旦仮の更新結果として保持した上で、最後に更
新を実行しているのは、ある注目パターンデータに対す
る更新処理により、後で注目パターンデータとして選択
されるパターンデータのクラスタ番号の決定に影響を及
ぼさないようにしたものである。
【0094】このように本実施の形態では、CPU11
は、パターンデータごとに定義される、パターンベクト
ル間の距離により、クラスタ間の隣接関係を規定しなが
ら、各クラスタに属しているパターンデータ群と、クラ
スタリング(分類学習)の対象となっている注目パター
ンデータとの相関量に基づいて、より相関性の高いクラ
スタに注目パターンデータを分類するという処理をクラ
スタリングの結果に変化がなくなるまで繰返して行う。
なお、ここでは、近傍クラスタを決定した上で、当該近
傍クラスタとの関係において相関量の演算を行うように
しているが、CPU11の処理速度が十分であれば、す
べてのクラスタについて総当り的に、上記相関量の演算
を行うようにしても構わない。この場合、処理S32、
S33は、必ずしも必要でなくなり、処理S34におい
て、すべてのクラスタについて、各クラスタに属してい
るパターンデータ群と、注目パターンデータとの相関量
を演算することとなる。
【0095】次に、こうして生成されたクラスタリング
の結果を用いて、実際にデータの分類を行う処理(分類
部42の処理)について説明する。分類の対象となるパ
ターンデータ(対象パターンデータ)が入力されると、
CPU11は、当該対象パターンデータについてのパタ
ーンベクトル(対象ベクトル)を演算により求め、ハー
ドディスク14に格納されているクラスタリングの結果
(例えばパターンデータと、そのパターンデータについ
てのパターンベクトルと、クラスタ番号とを関連づけた
もの)を参照して、クラスタリングの結果に含まれてい
る各パターンベクトル(基準ベクトル)と、対象パター
ンベクトルとの距離を演算する。そして、その距離が最
も短い基準ベクトル(対象パターンベクトルに対して、
最も類似度の高い基準ベクトル)を見いだして、当該見
いだした基準ベクトルに関連づけられたクラスタ番号を
分類結果として出力する。
【0096】このように、本実施の形態においては、相
関性の高いクラスタを自律的に見いだして、各パターン
データを分類するので、人為的なパラメータ設定を要す
ることのない、自律的なクラスタリングが行われる。
【図面の簡単な説明】
【図1】 本発明の第1の実施の形態に係るデータ分類
装置の構成ブロック図である。
【図2】 本発明の第1の実施の形態に係るデータ分類
装置の構成ブロック図である。
【図3】 クラスタリングの処理を表すフローチャート
図である。
【図4】 プロトタイプ間の距離のヒストグラムの検出
例を表す説明図である。
【図5】 クラスタリングの処理におけるクラスタ更新
処理の一例を表すフローチャート図である。
【図6】 クラスタリングの処理の動作例を表す説明図
である。
【図7】 プロトタイプマップのクラスタリング結果の
一例を表す説明図である。
【図8】 プロトタイプの追加状態とその後のクラスタ
リング結果の一例を表す説明図である。
【図9】 本発明の第2の実施の形態に係るデータ分類
装置の構成ブロック図である。
【図10】 クラスタリングの処理を表すフローチャー
ト図である。
【図11】 クラスタリングの処理を表すフローチャー
ト図である。
【符号の説明】
1 データ分類装置、11 CPU、12 RAM、1
3 ROM、14 ハードディスク、15 画像入力用
インタフェース、16 ディスプレイ、17外部記憶
部、21 マップ生成部、22 クラスタ境界決定部、
31 SOM学習部、32 マップ選択部、33 学習
条件設定部、34 プロトタイプ追加部、41 クラス
タ決定部、42 分類部。
─────────────────────────────────────────────────────
【手続補正書】
【提出日】平成15年2月26日(2003.2.2
6)
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】特許請求の範囲
【補正方法】変更
【補正内容】
【特許請求の範囲】
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06T 7/00 300 G06T 7/00 300E H04N 5/91 H04N 5/91 N (72)発明者 鹿志村 洋次 神奈川県足柄上郡中井町境430 グリーン テクなかい 富士ゼロックス株式会社内 Fターム(参考) 5B056 BB23 BB72 5B075 ND06 ND14 NR12 PP04 PR06 QM08 5C053 FA14 FA23 5L096 FA34 JA03 KA04 KA13 MA07

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 入力される複数のパターンデータを少な
    くとも一つのクラスタに分類するデータ分類装置であっ
    て、 当初は前記パターンデータの各々について、その属する
    クラスタを仮に決定しておき、 各クラスタごとに、当該クラスタに属している少なくと
    も1つのパターンデータと、クラスタに分類する対象と
    なった注目パターンデータとの間で所定の相関値を演算
    し、 前記相関値に基づき、前記注目パターンデータの属する
    べきクラスタを決定することを特徴とするデータ分類装
    置。
  2. 【請求項2】 入力される複数のパターンデータを少な
    くとも一つのクラスタに分類するデータ分類装置であっ
    て、 当初は前記パターンデータの各々について、その属する
    クラスタを仮に決定しておき、 各クラスタごとに、当該クラスタに属している各パター
    ンデータと、クラスタに分類する対象となった注目パタ
    ーンデータとの間の各類似度を所定の関数により決定
    し、前記各類似度の値を総和して相関値を演算し、 各クラスタごとに決定された前記相関値に基づき、前記
    注目パターンデータの属するべきクラスタを決定するこ
    とを特徴とするデータ分類装置。
  3. 【請求項3】 請求項1に記載のデータ分類装置におい
    て、 前記所定の関数は、パターンデータの類似度の出現頻度
    分布に基づくパラメータまたは、各パターンデータにつ
    いての他のパターンデータとの類似度の統計量に基づく
    パラメータを含んで定義されることを特徴とするデータ
    分類装置。
  4. 【請求項4】 請求項1に記載のデータ分類装置におい
    て、 前記所定の関数は、類似度の低下に伴いその値が比較的
    急速に最小値に漸近する関数であることを特徴とするデ
    ータ分類装置。
  5. 【請求項5】 入力される複数のパターンデータを少な
    くとも一つのクラスタに分類するデータ分類装置であっ
    て、 (a)前記パターンデータの各々について、その属する
    クラスタを仮に決定し、 (b)各パターンデータを順次、クラスタに分類する対
    象となるべき注目パターンデータとして選択し、 (c)各クラスタごとに、当該クラスタに属している少
    なくとも1つのパターンデータと、クラスタに分類する
    対象となった注目パターンデータとの間で所定の相関値
    を演算し、 (d)前記相関値に基づき、前記注目パターンデータの
    属するべきクラスタを決定し、 前記(b),(c),(d)の処理を、各パターンデー
    タの属するべきクラスタの変更がなくなるまで繰返して
    行って、各パターンデータをクラスタに分類することを
    特徴とするデータ分類装置。
  6. 【請求項6】 入力される複数のパターンデータを少な
    くとも一つのクラスタに分類するデータ分類方法であっ
    て、 当初は前記パターンデータの各々について、その属する
    クラスタを仮に決定しておき、 各クラスタごとに、当該クラスタに属している少なくと
    も1つのパターンデータと、クラスタに分類する対象と
    なった注目パターンデータとの間で所定の相関値を演算
    し、 前記相関値に基づき、前記注目パターンデータの属する
    べきクラスタを決定することを特徴とするデータ分類方
    法。
  7. 【請求項7】 入力される複数のパターンデータを少な
    くとも一つのクラスタに分類するデータ分類方法であっ
    て、 当初は前記パターンデータの各々について、その属する
    クラスタを仮に決定しておき、 各クラスタごとに、当該クラスタに属している各パター
    ンデータと、クラスタに分類する対象となった注目パタ
    ーンデータとの間の各類似度を所定の関数により決定
    し、前記各類似度の値を総和して相関値を演算し、 各クラスタごとの前記相関値に基づき、前記注目パター
    ンデータの属するべきクラスタを決定することを特徴と
    するデータ分類方法。
  8. 【請求項8】 コンピュータに、 入力される複数のパターンデータを少なくとも一つのク
    ラスタに分類させるデータ分類プログラムであって、 当初は前記パターンデータの各々について、その属する
    クラスタを仮に決定しておき、 各クラスタごとに、当該クラスタに属している少なくと
    も1つのパターンデータと、クラスタに分類する対象と
    なった注目パターンデータとの間で所定の相関値を演算
    する手順と、 前記相関値に基づき、前記注目パターンデータの属する
    べきクラスタを決定する手順と、 を実行させることを特徴とするデータ分類プログラム。
  9. 【請求項9】 コンピュータに、 入力される複数のパターンデータを少なくとも一つのク
    ラスタに分類させるデータ分類プログラムであって、 当初は前記パターンデータの各々について、その属する
    クラスタを仮に決定しておき、 各クラスタごとに、当該クラスタに属している各パター
    ンデータと、クラスタに分類する対象となった注目パタ
    ーンデータとの間の各類似度を所定の関数により決定
    し、前記各類似度の値を総和して相関値を演算する手順
    と、 各クラスタごとの前記相関値に基づき、前記注目パター
    ンデータの属するべきクラスタを決定する手順と、 を実行させることを特徴とするデータ分類プログラム。
JP2002059012A 2002-03-05 2002-03-05 データ分類装置 Pending JP2003256443A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2002059012A JP2003256443A (ja) 2002-03-05 2002-03-05 データ分類装置
US10/375,136 US7227985B2 (en) 2002-03-05 2003-02-28 Data classifier for classifying pattern data into clusters

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002059012A JP2003256443A (ja) 2002-03-05 2002-03-05 データ分類装置

Publications (1)

Publication Number Publication Date
JP2003256443A true JP2003256443A (ja) 2003-09-12

Family

ID=27784726

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002059012A Pending JP2003256443A (ja) 2002-03-05 2002-03-05 データ分類装置

Country Status (2)

Country Link
US (1) US7227985B2 (ja)
JP (1) JP2003256443A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009017204A1 (ja) * 2007-08-01 2009-02-05 Olympus Corporation クラスタリング方法、プログラムおよび装置
JP2018147172A (ja) * 2017-03-03 2018-09-20 日本電信電話株式会社 異常検知装置、異常検知方法及びプログラム

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE413744T1 (de) * 2001-03-30 2008-11-15 Nokia Corp Methode zur konfiguration eines netwerkes durch definieren von clustern
JP2003228706A (ja) * 2002-02-05 2003-08-15 Fuji Xerox Co Ltd データ分類装置
US8473215B2 (en) * 2003-04-25 2013-06-25 Leland Stanford Junior University Method for clustering data items through distance-merging and density-merging techniques
US7441186B2 (en) * 2004-01-23 2008-10-21 Microsoft Corporation System and method for automatically grouping items
US20050210027A1 (en) * 2004-03-16 2005-09-22 International Business Machines Corporation Methods and apparatus for data stream clustering for abnormality monitoring
TWI254880B (en) * 2004-10-18 2006-05-11 Avectec Com Inc Method for classifying electronic document analysis
JP2007280054A (ja) * 2006-04-06 2007-10-25 Sony Corp 学習装置および学習方法、並びにプログラム
US8671112B2 (en) * 2008-06-12 2014-03-11 Athenahealth, Inc. Methods and apparatus for automated image classification
US10248697B2 (en) * 2009-07-24 2019-04-02 Raytheon Company Method and system for facilitating interactive review of data
JP5377148B2 (ja) * 2009-08-03 2013-12-25 キヤノン株式会社 クラスタリング処理方法、クラスタリング処理装置、およびプログラム
EP2488970A4 (en) * 2009-10-15 2016-03-16 Rogers Comm Tnc SYSTEM AND METHOD FOR CLASSIFYING MULTIPLE DATA STREAMS
JP5269002B2 (ja) * 2010-06-28 2013-08-21 株式会社日立製作所 カメラ配置決定支援装置
US8571333B2 (en) * 2010-10-17 2013-10-29 Canon Kabushiki Kaisha Data clustering
US20140250376A1 (en) * 2013-03-04 2014-09-04 Microsoft Corporation Summarizing and navigating data using counting grids
SG10201406338XA (en) * 2014-10-03 2016-05-30 Agency Science Tech & Res Active storage devices
TWI558525B (zh) * 2014-12-26 2016-11-21 國立交通大學 機器人及其控制方法
US10083369B2 (en) 2016-07-01 2018-09-25 Ricoh Company, Ltd. Active view planning by deep learning
US11662719B2 (en) * 2017-09-29 2023-05-30 Rockwell Automation Technologies, Inc. Classification modeling for monitoring, diagnostics optimization and control
US10635939B2 (en) * 2018-07-06 2020-04-28 Capital One Services, Llc System, method, and computer-accessible medium for evaluating multi-dimensional synthetic data using integrated variants analysis

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5479570A (en) * 1992-10-06 1995-12-26 Matsushita Electric Industrial Co., Ltd. Learning and recognition machine
US5537488A (en) * 1993-09-16 1996-07-16 Massachusetts Institute Of Technology Pattern recognition system with statistical classification
JPH07234854A (ja) 1994-02-23 1995-09-05 Olympus Optical Co Ltd クラスタ分類装置
JPH0836557A (ja) 1994-07-25 1996-02-06 Olympus Optical Co Ltd クラスタ分類装置
JP2940501B2 (ja) * 1996-12-25 1999-08-25 日本電気株式会社 ドキュメント分類装置及び方法
US6108446A (en) * 1997-02-18 2000-08-22 Hoshen; Joseph Method and apparatus for extracting cluster shape features from digital images
US6904423B1 (en) * 1999-02-19 2005-06-07 Bioreason, Inc. Method and system for artificial intelligence directed lead discovery through multi-domain clustering
US6650779B2 (en) * 1999-03-26 2003-11-18 Georgia Tech Research Corp. Method and apparatus for analyzing an image to detect and identify patterns
JP3979007B2 (ja) 2000-12-22 2007-09-19 富士ゼロックス株式会社 パターン識別方法および装置
US6778705B2 (en) * 2001-02-27 2004-08-17 Koninklijke Philips Electronics N.V. Classification of objects through model ensembles
JP2002329188A (ja) 2001-04-27 2002-11-15 Fuji Xerox Co Ltd データ分析装置
JP2003228706A (ja) * 2002-02-05 2003-08-15 Fuji Xerox Co Ltd データ分類装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009017204A1 (ja) * 2007-08-01 2009-02-05 Olympus Corporation クラスタリング方法、プログラムおよび装置
JP5242568B2 (ja) * 2007-08-01 2013-07-24 オリンパス株式会社 クラスタリング方法、プログラムおよび装置
JP2018147172A (ja) * 2017-03-03 2018-09-20 日本電信電話株式会社 異常検知装置、異常検知方法及びプログラム

Also Published As

Publication number Publication date
US20030169919A1 (en) 2003-09-11
US7227985B2 (en) 2007-06-05

Similar Documents

Publication Publication Date Title
JP2003256443A (ja) データ分類装置
JP2003228706A (ja) データ分類装置
CN108830326B (zh) 一种mri图像的自动分割方法及装置
CN108647583B (zh) 一种基于多目标学习的人脸识别算法训练方法
Jain et al. Feature selection: Evaluation, application, and small sample performance
JP4757116B2 (ja) パラメータ学習方法及びその装置、パターン識別方法及びその装置、プログラム
CN111027493A (zh) 一种基于深度学习多网络软融合的行人检测方法
CN110969086B (zh) 一种基于多尺度cnn特征及量子菌群优化kelm的手写图像识别方法
CN113408605A (zh) 基于小样本学习的高光谱图像半监督分类方法
CN110543906B (zh) 基于Mask R-CNN模型的肤质自动识别方法
CN108846845B (zh) 基于缩略图与分层模糊聚类的sar图像分割方法
CN111739017A (zh) 一种在样本不平衡条件下显微图像的细胞识别方法及系统
Majeed et al. Uncertain fuzzy self-organization based clustering: interval type-2 fuzzy approach to adaptive resonance theory
CN115880704A (zh) 一种病例的自动编目方法、系统、设备及存储介质
CN109948662B (zh) 一种基于K-means和MMD的人脸图像深度聚类方法
CN114492581A (zh) 基于迁移学习和注意力机制元学习应用在小样本图片分类的方法
CN110717547A (zh) 一种基于回归超图的学习算法
JP4186541B2 (ja) 画像処理装置
JP2004062482A (ja) データ分類装置
Zhang et al. Color clustering using self-organizing maps
Athanasiadis et al. Segmentation of complementary DNA microarray images by wavelet-based Markov random field model
CN110956177A (zh) 一种混合型验证码的识别方法及系统
Du et al. Clustering i: Basic clustering models and algorithms
CN116959078B (zh) 疲劳检测模型的构建方法、疲劳检测方法及其装置
Bello et al. Hybrid segmentation framework for tissue images containing gene expression data