JPH04239388A

JPH04239388A - パターン認識装置

Info

Publication number: JPH04239388A
Application number: JP3002400A
Authority: JP
Inventors: ▲裴▼　東善; Touzen Hai; Haruo Akimoto; 晴雄秋元; Yasunao Isaki; 伊崎　保直
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1991-01-14
Filing date: 1991-01-14
Publication date: 1992-08-27
Anticipated expiration: 2014-07-26
Also published as: JP2924192B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、サンプルをその属性に
よりクラスタに分類するクラスタリング方式に関する。

【０００２】

【従来の技術】パターン認識は、パターンから抽出した
特徴によって、パターンを誤りなく、所定のクラスに分
類することを目的としている。パターンの分類には、分
類されるべきクラス（カテゴリ）が不明の場合と、予め
分かっている場合とがある。不明の場合には、多数のサ
ンプルより、いかに上手にサンプルをグループ化するか
が重要となり、これは例えば、生物学や考古学などで必
要とされる。また、既知の場合は、例えば文字・図形な
どの認識においては、クラスタリングの技術は複数テン
プレートの作成に必要となる。特に、手書きの文字・図
形認識の分野では、手書きの様々な変形を代表させるの
に単一のテンプレートでは困難な場合が多く、一つのカ
テゴリに複数の代表、つまり複数テンプレートを作成す
る。このとき、あるカテゴリの多数のサンプルを、いか
にグループ化して、複数の代表を決めるか、の方法によ
って認識性能が大きく影響を受ける。

【０００３】従来のクラスタリング方式としては、階層
的クラスタリング，Ｋ−ｍｅａｎｓクラスタリングなど
様々な方法があるが、これらは、いづれもサンプル間の
距離のみを基準として距離の近いサンプル同士を同一の
クラスタとして集めるという方法であった。

【０００４】

【発明が解決しようとする課題】このため、上記方法で
は、出来上がったクラスタのまとまり具合を表す分散に
ついては考慮されておらず、各クラスタ相互間の区別が
明確でないことが多かった。本発明は、上述の問題点に
鑑みてなされたもので、分散を考慮したクラスタリング
を行うことにより各クラスタ間の差異が明らかとなるよ
うなクラスタリング方式を提供することを目的とする。

【０００５】

【課題を解決するための手段】上記目的を達成するため
、本発明のクラスタリング方式は、サンプルをその属性
によりクラスタに分類するに際し、各クラスタ内の分散
を小さくし、各クラスタ間の分散を大きくするようにす
る。

【０００６】また、前記サンプルが識別対象、前記クラ
スタがテンプレートであり、このテンプレートを用いて
前記識別対象を識別するようにする。

【０００７】また、前記各クラスタ間の分散を前記各ク
ラスタ内の分散で除した値を分散比とし、サンプル数を
Ｍ、１つのクラスタがＫ個のサンプルからなり前記分散
比が最大となるＮ個（Ｍ＝Ｋ・Ｎ）のクラスタを作成す
るに際し、各サンプルについてそのサンプルと距離の近
いサンプルを自身も含めＫ個集めたクラスタをＧｉとし
、Ｍ個（Ｇ１，Ｇ２・・・・ＧＭ）のクラスタを作成し
、このＭ個のクラスタから任意のＮ個のクラスタを選択
してそれらをＣ１，Ｃ２・・・ＣＮとし、そのＮ個のク
ラスタの前記分散比Ｆを求め、次に残ったＭ−Ｎ個のク
ラスタから１つのクラスタＣＮ＋１を選択し、Ｃ１，Ｃ
２・・・・ＣＮに加えてＮ＋１個のクラスタとし、この
Ｎ＋１個のクラスタの前記分散比ｆを求め、Ｆがｆより
小さくなければ残りＭ−（Ｎ＋１）個のクラスタより１
つのクラスタを選び分散比ｆを求め、同様の比較を行い
Ｆがｆより小さければ、Ｃ１，Ｃ２・・・・ＣＮの内よ
り１つを除きＣＮ＋１を加えた合計Ｎ個のクラスタにつ
いて前記分散比をＮ通り求めてこのうち最大の分散比で
Ｆの値を更新し、同様の処理を残りＭ−（Ｎ＋２）個の
クラスタについて繰り返し、最後に残ったＣ１，Ｃ２，
・・・・ＣＮ個のクラスタを前記分散比が最大のクラス
タとする。

【０００８】

【作用】上記構成により、各クラスタ内の分散は小さい
ので、同じ属性のサンプルが多く集まっており、またク
ラスタ相互間の分散は大きいので相互のクラスタの相違
が明らかなものとなる。

【０００９】上記クラスタリングをパターン認識に適用
する場合、サンプルを識別対象となるパターンとし、ク
ラスタをこの識別対象を識別するテンプレートとすると
、テンプレート相互は差異が明らかなものとなるので識
別が容易となる。

【００１０】また、実際にクラスタリングするに当たり
、クラスタ内の分散比を小さくクラスタ間の分散を大き
くする組合を求める作業は、サンプルの数が少なければ
全ての組み合わせについて検討できるが、数が多くなる
と極めて困難になり、また必ずしも最適の組み合わせで
なくても、それに近ければ実用上支障は少ない。そこで
、各クラスタ間の分散を各クラスタ内の分散で除した値
を分散比とし、Ｍをサンプル数、クラスタの数をＮ、各
クラスタのサンプル数をＫ個とした場合、各サンプルご
とに自身を含めてＫ個よりなるクラスタを合計Ｍ個作成
し、この内からＮ個のクラスタを選びその分散比Ｆを計
算する。次に残りＭ−Ｎのクラスタから１個のクラスタ
を取り出し前のＮ個と合わせてＮ＋１のクラスタの分散
比ｆを計算し、Ｆがｆより小さくなければ残りＭ−（Ｎ
＋１）個のクラスタより１つのクラスタを選び分散比ｆ
を求め同様の比較を行い、Ｆがｆより小さければこの１
つ選んだクラスタを他の１〜Ｎ個のクラスタの１つと入
れ替えたＮ組のクラスタを作り、そのＮ組のクラスタの
最大の分散比を与えるＮ個のクラスタを新たな組とし、
この最大値でＦを更新する。このようにして残りＭ−（
Ｎ＋２）個をすべて処理したとき最後に残ったＮ個のク
ラスタが求める組み合わせに近い組み合わせである。

【００１１】

【実施例】以下、本発明の実施例を図面を参照して説明
する。図１，図２は本発明の実施例の動作を示すフロー
図である。これらの図を説明するに先立ち本実施例を実
施する装置を図３を用いて説明する。図３はパターン認
識装置の全体構成を示す図である。観測部１０によって
光電変換され電気信号に変換された入力パターンは、特
徴抽出部１１で特徴データに変換される。複数のテンプ
レートを作成するデータとなるサンプルは学習サンプル
用に学習サンプル部１３に蓄えられ、これより辞書生成
部１４でクラスタリングされる。このクラスタリング方
法が図１，　図２に示すフロー図である。辞書生成部１
４で生成した辞書は辞書部１５に記憶される。

【００１２】認識時の処理手順は以下のように行う。入
力パターンは学習時と同様に観測部１０，　特徴抽出部
１１を経て特徴データに変換され、照合部１２において
既に作成され辞書部１５に記憶されている辞書（複数テ
ンプレート）と照合され、最も距離の近い又は、最も類
似しているテンプレートが選択され、そのテンプレート
の属するカテゴリを入力パターンのカテゴリとして認識
し、これを認識結果として出力する。

【００１３】次に本発明のクラスタリング方法について
説明する。多数のサンプルからいくつかのクラスタを作
る時、各々のクラスタは、よく纏まっており（つまり、
クラスタを構成するサンプルの分散は小さく）、他のク
ラスタとの間では差が大きい（つまり、クラスタ間の分
散は大きい）ようなクラスタリングを行う。これは、自
クラスタ内分散（級内分散）を小さくし、他とのクラス
タ間分散（級間分散）を大きくする。つまり、級間分散
／級内分散で表される分散比（またはＦ比とも言う）を
大きくするということである。それによって、各クラス
タの違いが際立ったクラスタリングが出来る。

【００１４】これをパターン認識の複数テンプレートの
場合に当てはめると、あるカテゴリをいくつかの代表（
各クラスタの平均）で表現する時、各々の代表の違いが
際立つことであり、これは、パターンの変形の仕方に応
じて、クラスタ（テンプレート）が構成されるようにな
ることである。従って、手書きの変形などに対しても、
変形の仕方毎にそのテンプレートをもつことになり、認
識率の向上が期待できる。

【００１５】なお、この分散比の考えは、統計学の分野
では従来から存在するものである。また、パターン認識
においても使用されているが、それは、多数の特徴から
認識に役立つ特徴を選択する特徴選択においてであり、
クラスタリングに応用したものではない。

【００１６】分散比は次の式で示される。

【００１７】

【数１】

【００１８】Ｎ：クラスタ数 σｉ２　：ｉ番目のクラスタの分散（ｉ番目のクラスタ
を作成するために使ったサンプルの分散）μｉ：ｉ番目
のクラスタの平均（ｉ番目のクラスタを作成するために
使ったサンプルの平均）（１）式より分かるように分散比は、すでにクラスタが
決まっている時、それらのクラスタについて計算できる
ものである。しかし、ここでの目的は、分散比が大きく
なるようなクラスタを求めることである。あらゆるクラ
スタリングを行い、それらから（１）式を最大にするも
のを選択するのがよいが、サンプルの数が多いと計算が
極めて困難となる。そこで図１，図２で示すような近似
的方法をとる。

【００１９】図１，図２にこの処理の流れ図を示す。本
実施例ではクラスタを作成するためのサンプル数をＭと
し、このＭ個のサンプルからＮ個のクラスタを作成する
（ステップ１）。また、各クラスタを均等なサンプル数
Ｋから作成する場合の処理について述べる（ステップ２
）。各サンプルについて、そのサンプルと距離の近いサ
ンプルを（自身も含めて）Ｋ個選択する（ステップ４）
。（ここで、距離として何を使用するかは、サンプルデ
ータの性質によって決定することであるが、通常はユー
クリッド距離や市街地距離などがよく用いられる。）こ
こでサンプルｉについて選択されたＫ個のサンプルの集
合をグループＧｉとする（ステップ５）。そしてこれを
サンプル１からＭまで行う（ステップ３〜６）。このＭ
個のグループのうち、任意にＮ個のグループを選択し、
それらをＣ１，Ｃ２，・・・・ＣＮとする（ステップ７
）。そしてそれらＮ個のグループの分散比を求め、この
値をＦとする（ステップ８）。

【００２０】次に、図２に移り、選択されなかった（Ｍ
─Ｎ）個のグループについて、順に以下の処理を行う（
ステップ９から１４）　。つまり、１つのグループを取
り出し、これとＣｉ（ｉ＝１，Ｎ）の合計（Ｎ＋１）個
のグループで分散比を計算する。この値をｆとする（ス
テップ１０）　。もしこのｆがＦより小さいなら、次の
グループを取り出す。大きいなら（Ｎ＋１）個のグルー
プ中で分散比が最大となるＮ個の組み合わせを求める（
ステップ１１，１２）。このとき、取り出されたグルー
プ（つまり、Ｃｉでない１個）は必ずＮ個に入るように
する。言い換えると、もとのＣｉ中よりどれか一つを除
いて、入れ換えるのである。このＮ個を新たにＣｉ（ｉ
＝１，Ｎ）とし、そのときの分散比を新たにＦとする（
ステップ１３）　。これを、（Ｍ−Ｎ）個のグループに
ついて行い、最後にＣｉ（ｉ＝１，Ｎ）として残ったＮ
個のグループが分散比を大きくするＮ個のグループであ
る（ステップ１５）　。もし、これをパターン認識のテ
ンプレートとして使用する時は、このＮ個のグループか
らテンプレートを作成すればよい。この方法はＧ１，Ｇ
２，・・・・・ＧＭの中から分散比が最大となるＮ個を
選んだ訳ではないが、最大に近いＮ個のグループが求め
られる。

【００２１】

【発明の効果】以上の説明から明らかなように、本発明
は、クラスタ内の分散を小さくし、各クラスタ間の分散
を大きくすることにより、各クラスタ間の差異が明らか
になり、これをテンプレートに用いればパターン認識に
おける認識率が向上する。

【図面の簡単な説明】

【図１】本発明の実施例のクラスタリングの手順を示す
フロー図である。

【図２】本発明の実施例のクラスタリングの手順で図１
に後続するフロー図である。

【図３】本実施例を実施するパターン認識装置の全体構
成図である。

【符号の説明】

１０　　観測部１１　　特徴抽出部１２　　照合部１３　　学習サンプル部１４　　辞書生成部１５　　辞書部

Claims

【特許請求の範囲】

【請求項１】　　サンプルをその属性によりクラスタに
分類するに際し、各クラスタ内の分散を小さくし、各ク
ラスタ間の分散を大きくするようにしたことを特徴とす
るクラスタリング方式。
【請求項２】　　前記サンプルが識別対象、前記クラス
タがテンプレートであり、このテンプレートを用いて前
記識別対象を識別することを特徴とする請求項１記載の
クラスタリング方式。
【請求項３】　　前記各クラスタ間の分散を前記各クラ
スタ内の分散で除した値を分散比とし、サンプル数をＭ
、１つのクラスタがＫ個のサンプルからなり前記分散比
が最大となるＮ個（Ｍ＝Ｋ・Ｎ）のクラスタを作成する
に際し、各サンプルについてそのサンプルと距離の近い
サンプルを自身も含めＫ個集めたクラスタをＧｉとし、
Ｍ個（Ｇ１，Ｇ２・・・・ＧＭ）のクラスタを作成し、
このＭ個のクラスタから任意のＮ個のクラスタを選択し
てそれらをＣ１，Ｃ２・・・ＣＮとし、そのＮ個のクラ
スタの前記分散比Ｆを求め、次に残ったＭ−Ｎ個のクラ
スタから１つのクラスタＣＮ＋１を選択し、Ｃ１，Ｃ２
・・・・ＣＮに加えてＮ＋１個のクラスタとし、このＮ
＋１個のクラスタの前記分散比ｆを求め、Ｆがｆより小
さくなければ残りＭ−（Ｎ＋１）個のクラスタより１つ
のクラスタを選び分散比ｆを求め、同様の比較を行いＦ
がｆより小さければ、Ｃ１，Ｃ２・・・・ＣＮの内より
１つを除きＣＮ＋１を加えた合計Ｎ個のクラスタについ
て前記分散比をＮ通り求めてこのうち最大の分散比でＦ
の値を更新し、同様の処理を残りＭ−（Ｎ＋２）個のク
ラスタについて繰り返し、最後に残ったＣ１，Ｃ２，・
・・・ＣＮ個のクラスタを前記分散比が最大のクラスタ
とすることを特徴とする請求項１記載のクラスタリング
方式。