JP2924192B2

JP2924192B2 - パターン認識装置

Info

Publication number: JP2924192B2
Application number: JP3002400A
Authority: JP
Inventors: 東善 ▲裴▼; 晴雄秋元; 保直伊崎
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1991-01-14
Filing date: 1991-01-14
Publication date: 1999-07-26
Anticipated expiration: 2014-07-26
Also published as: JPH04239388A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、サンプルをその属性に
よりクラスタに分類するクラスタリング方式に関する。

【０００２】

【従来の技術】パターン認識は、パターンから抽出した
特徴によって、パターンを誤りなく、所定のクラスに分
類することを目的としている。パターンの分類には、分
類されるべきクラス（カテゴリ）が不明の場合と、予め
分かっている場合とがある。不明の場合には、多数のサ
ンプルより、いかに上手にサンプルをグループ化するか
が重要となり、これは例えば、生物学や考古学などで必
要とされる。また、既知の場合は、例えば文字・図形な
どの認識においては、クラスタリングの技術は複数テン
プレートの作成に必要となる。特に、手書きの文字・図
形認識の分野では、手書きの様々な変形を代表させるの
に単一のテンプレートでは困難な場合が多く、一つのカ
テゴリに複数の代表、つまり複数テンプレートを作成す
る。このとき、あるカテゴリの多数のサンプルを、いか
にグループ化して、複数の代表を決めるか、の方法によ
って認識性能が大きく影響を受ける。

【０００３】従来のクラスタリング方式としては、階層
的クラスタリング，Ｋ−ｍｅａｎｓクラスタリングなど
様々な方法があるが、これらは、いづれもサンプル間の
距離のみを基準として距離の近いサンプル同士を同一の
クラスタとして集めるという方法であった。

【０００４】

【発明が解決しようとする課題】このため、上記方法で
は、出来上がったクラスタのまとまり具合を表す分散に
ついては考慮されておらず、各クラスタ相互間の区別が
明確でないことが多かった。本発明は、上述の問題点に
鑑みてなされたもので、分散を考慮したクラスタリング
を行うことにより各クラスタ間の差異が明らかとなるよ
うなクラスタリング方式を提供することを目的とする。

【０００５】

【課題を解決するための手段】上記目的を達成するた
め、本発明のクラスタリング方式は、サンプルをその属
性によりクラスタに分類するに際し、各クラスタ内の分
散を小さくし、各クラスタ間の分散を大きくするため
に、前記各クラスタ間の分散を前記各クラスタ内の分散
で除した値を分散比とし、サンプル数をＭ、１つのクラ
スタがＫ個のサンプルからなり前記分散比が最大となる
Ｎ個（Ｍ＝Ｋ・Ｎ）のクラスタを作成するに際し、各サ
ンプルについてそのサンプルと距離の近いサンプルを自
身を含めＫ個集めたクラスタをＧｉとし、Ｍ個（Ｇ１，
Ｇ２・・・・ＧＭ）のクラスタを作成し、このＭ個のク
ラスタから任意のＮ個のクラスタを選択してそれらをＣ
１，Ｃ２・・・・ＣＮとし、そのＮ個のクラスタの分散
比Ｆを求め、次に残ったＭ−Ｎ個のクラスタから１つの
クラスタＣＮ＋１を選択し、Ｃ１，Ｃ２・・・・ＣＮに
加えてＮ＋１個のクラスタとし、このＮ＋１個のクラス
タの分散比ｆを求め、Ｆがｆより小さくなければ残りＭ
−（Ｎ＋１）個のクラスタより１つのクラスタを選び分
散比ｆを求め、同様の比較を行いＦがｆより小さけれ
ば、Ｃ１，Ｃ２・・・・ＣＮの内より１つを除きＣＮ＋
１を加えた合計Ｎ個のクラスタについて分散をＮ通り求
めてこのうち最大の分散比でＦの値を更新し、同様の処
理を残りＭ−（Ｎ＋２）個のクラスタについて繰り返
し、最後に残ったＣ１，Ｃ２・・・・ＣＮ個のクラスタ
を分散比が最大のクラスタとする。

【０００６】

【０００７】

【０００８】

【作用】上記構成により、各クラスタ内の分散は小さい
ので、同じ属性のサンプルが多く集まっており、またク
ラスタ相互間の分散は大きいので相互のクラスタの相違
が明らかなものとなる。すなわち、実際にクラスタリン
グするに当たり、クラスタ内の分散比を小さくクラスタ
間の分散を大きくする組み合せを求める作業は、サンプ
ルの数が少なければ全ての組み合わせについて検討でき
るが、数が多くなると極めて困難になり、また必ずしも
最適の組み合わせでなくても、それに近ければ実用上支
障は少ない。そこで、各クラスタ間の分散を各クラスタ
内の分散で除した値を分散比とし、Ｍをサンプル数、ク
ラスタの数をＮ、各クラスタのサンプル数をＫ個とした
場合、各クラスタごとに自身を含めてＫ個よりなるクラ
スタを合計Ｍ個作成し、この内からＮ個のクラスタを選
びその分散比Ｆを計算する。次に残りのＭ−Ｎのクラス
タから１個のクラスタを取り出し、前のＮ個と合わせて
Ｎ＋１のクラスタの分散比ｆを計算し、Ｆがｆより小さ
くなければ残りＭ−（Ｎ＋１）個のクラスタより１つの
クラスタを選び分散比ｆを求め同様の比較を行い、Ｆが
ｆより小さければこの１つ選んだクラスタを他の１〜Ｎ
個のクラスタの１つと入れ替えたＮ組のクラスタを作
り、そのＮ組のクラスタの最大の分散比を与えるＮ個の
クラスタを新たな組とし、この最大値でＦを更新する。
このようにして残りＭ−（Ｎ＋２）個をすべて処理した
とき最後に残ったＮ個のクラスタが求める組み合わせに
近い組み合わせである。

【０００９】また、上記クラスタリングをパターン認識
装置に適用する場合、上記クラスタを識別対象のパター
ンを識別するテンプレートとすれば、テンプレート相互
は差異が明らかなものとなるので識別が容易となる。

【００１０】

【００１１】

【実施例】以下、本発明の実施例を図面を参照して説明
する。図１，図２は本発明の実施例の動作を示すフロー
図である。これらの図を説明するに先立ち本実施例を実
施する装置を図３を用いて説明する。図３はパターン認
識装置の全体構成を示す図である。観測部10によって光
電変換され電気信号に変換された入力パターンは、特徴
抽出部11で特徴データに変換される。複数のテンプレー
トを作成するデータとなるサンプルは学習サンプル用に
学習サンプル部13に蓄えられ、これより辞書生成部14で
クラスタリングされる。このクラスタリング方法が図
１, 図２に示すフロー図である。辞書生成部14で生成し
た辞書は辞書部15に記憶される。

【００１２】認識時の処理手順は以下のように行う。入
力パターンは学習時と同様に観測部10, 特徴抽出部11を
経て特徴データに変換され、照合部12において既に作成
され辞書部15に記憶されている辞書（複数テンプレー
ト）と照合され、最も距離の近い又は、最も類似してい
るテンプレートが選択され、そのテンプレートの属する
カテゴリを入力パターンのカテゴリとして認識し、これ
を認識結果として出力する。

【００１３】次に本発明のクラスタリング方法について
説明する。多数のサンプルからいくつかのクラスタを作
る時、各々のクラスタは、よく纏まっており（つまり、
クラスタを構成するサンプルの分散は小さく）、他のク
ラスタとの間では差が大きい（つまり、クラスタ間の分
散は大きい）ようなクラスタリングを行う。これは、自
クラスタ内分散（級内分散）を小さくし、他とのクラス
タ間分散（級間分散）を大きくする。つまり、級間分散
／級内分散で表される分散比（またはＦ比とも言う）を
大きくするということである。それによって、各クラス
タの違いが際立ったクラスタリングが出来る。

【００１４】これをパターン認識の複数テンプレートの
場合に当てはめると、あるカテゴリをいくつかの代表
（各クラスタの平均）で表現する時、各々の代表の違い
が際立つことであり、これは、パターンの変形の仕方に
応じて、クラスタ（テンプレート）が構成されるように
なることである。従って、手書きの変形などに対して
も、変形の仕方毎にそのテンプレートをもつことにな
り、認識率の向上が期待できる。

【００１５】なお、この分散比の考えは、統計学の分野
では従来から存在するものである。また、パターン認識
においても使用されているが、それは、多数の特徴から
認識に役立つ特徴を選択する特徴選択においてであり、
クラスタリングに応用したものではない。

【００１６】分散比は次の式で示される。

【００１７】

【数１】

【００１８】Ｎ：クラスタ数 σｉ²：ｉ番目のクラスタの分散（ｉ番目のクラスタを
作成するために使ったサンプルの分散） μｉ：ｉ番目のクラスタの平均（ｉ番目のクラスタを作
成するために使ったサンプルの平均）（１）式より分かるように分散比は、すでにクラスタが
決まっている時、それらのクラスタについて計算できる
ものである。しかし、ここでの目的は、分散比が大きく
なるようなクラスタを求めることである。あらゆるクラ
スタリングを行い、それらから（１）式を最大にするも
のを選択するのがよいが、サンプルの数が多いと計算が
極めて困難となる。そこで図１，図２で示すような近似
的方法をとる。

【００１９】図１，図２にこの処理の流れ図を示す。本
実施例ではクラスタを作成するためのサンプル数をＭと
し、このＭ個のサンプルからＮ個のクラスタを作成する
（ステップ１）。また、各クラスタを均等なサンプル数
Ｋから作成する場合の処理について述べる（ステップ
２）。各サンプルについて、そのサンプルと距離の近い
サンプルを（自身も含めて）Ｋ個選択する（ステップ
４）。（ここで、距離として何を使用するかは、サンプ
ルデータの性質によって決定することであるが、通常は
ユークリッド距離や市街地距離などがよく用いられ
る。）ここでサンプルｉについて選択されたＫ個のサン
プルの集合をグループＧｉとする（ステップ５）。そし
てこれをサンプル１からＭまで行う（ステップ３〜
６）。このＭ個のグループのうち、任意にＮ個のグルー
プを選択し、それらをＣ１，Ｃ２，・・・・ＣＮとする
（ステップ７）。そしてそれらＮ個のグループの分散比
を求め、この値をＦとする（ステップ８）。

【００２０】次に、図２に移り、選択されなかった（Ｍ
─Ｎ）個のグループについて、順に以下の処理を行う
（ステップ９から14) 。つまり、１つのグループを取り
出し、これとＣｉ（ｉ＝１，Ｎ）の合計（Ｎ＋１）個の
グループで分散比を計算する。この値をｆとする（ステ
ップ10) 。もしこのｆがＦより小さいなら、次のグルー
プを取り出す。大きいなら（Ｎ＋１）個のグループ中で
分散比が最大となるＮ個の組み合わせを求める（ステッ
プ11,12)。このとき、取り出されたグループ（つまり、
Ｃｉでない１個）は必ずＮ個に入るようにする。言い換
えると、もとのＣｉ中よりどれか一つを除いて、入れ換
えるのである。このＮ個を新たにＣｉ（ｉ＝１，Ｎ）と
し、そのときの分散比を新たにＦとする（ステップ13)
。これを、（Ｍ−Ｎ）個のグループについて行い、最
後にＣｉ（ｉ＝１，Ｎ）として残ったＮ個のグループが
分散比を大きくするＮ個のグループである（ステップ1
5) 。もし、これをパターン認識のテンプレートとして
使用する時は、このＮ個のグループからテンプレートを
作成すればよい。この方法はＧ１，Ｇ２，・・・・・Ｇ
Ｍの中から分散比が最大となるＮ個を選んだ訳ではない
が、最大に近いＮ個のグループが求められる。

【００２１】

【発明の効果】以上の説明から明らかなように、本発明
は、クラスタ内の分散を小さくし、各クラスタ間の分散
を大きくすることにより、各クラスタ間の差異が明らか
になり、これをテンプレートに用いればパターン認識に
おける認識率が向上する。

【図面の簡単な説明】

【図１】本発明の実施例のクラスタリングの手順を示す
フロー図である。

【図２】本発明の実施例のクラスタリングの手順で図１
に後続するフロー図である。

【図３】本実施例を実施するパターン認識装置の全体構
成図である。

【符号の説明】

10 観測部 11 特徴抽出部 12 照合部 13 学習サンプル部 14 辞書生成部 15 辞書部

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平２−59980（ＪＰ，Ａ) 特開昭60−126772（ＪＰ，Ａ) 特開昭60−118987（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁶，ＤＢ名) G06T 7/00

Claims

(57)【特許請求の範囲】

【請求項１】識別対象のパターンをテンプレートを用
いて識別するパターン識別装置であって、前記テンプレートを作成するデータとなるサンプルをそ
の属性によりクラスタに分類するに際し、各クラスタ間
の分散を前記各クラスタ内の分散で除した値を分散比と
し、サンプル数をＭ、１つのクラスタがＫ個のサンプル
からなり前記分散比が最大となるＮ個（Ｍ＝Ｋ・Ｎ）の
クラスタを、各サンプルについてそのサンプルと距離の
近いサンプルを自身を含めＫ個集めたクラスタをＧｉと
し、Ｍ個（Ｇ１，Ｇ２・・・・ＧＭ）のクラスタを作成
し、このＭ個のクラスタから任意のＮ個のクラスタを選
択してそれらをＣ１，Ｃ２・・・・ＣＮとし、そのＮ個
のクラスタの分散比Ｆを求め、次に残ったＭ−Ｎ個のク
ラスタから１つのクラスタＣＮ＋１を選択し、Ｃ１，Ｃ
２・・・・ＣＮに加えてＮ＋１個のクラスタとし、この
Ｎ＋１個のクラスタの分散比ｆを求め、Ｆがｆより小さ
くなければ残りＭ−（Ｎ＋１）個のクラスタより１つの
クラスタを選び分散比ｆを求めて同様の比較を行い、Ｆ
がｆより小さければＣ１，Ｃ２・・・・ＣＮの内より１
つを除きＣＮ＋１を加えた合計Ｎ個のクラスタについて
分散をＮ通り求めてこのうち最大の分散比で前記分散比
Ｆの値を更新し、同様の処理を残りＭ−（Ｎ＋２）個の
クラスタについて繰り返し、最後に残ったＣ１，Ｃ２・
・・・ＣＮ個のクラスタを分散比が最大のクラスタとす
ることにより作成し、作成されたクラスタの複数のテン
プレートとして保持する手段を備えたことを特徴とする
パターン認識装置。