JP2924192B2 - パターン認識装置 - Google Patents

パターン認識装置

Info

Publication number
JP2924192B2
JP2924192B2 JP3002400A JP240091A JP2924192B2 JP 2924192 B2 JP2924192 B2 JP 2924192B2 JP 3002400 A JP3002400 A JP 3002400A JP 240091 A JP240091 A JP 240091A JP 2924192 B2 JP2924192 B2 JP 2924192B2
Authority
JP
Japan
Prior art keywords
clusters
cluster
dispersion ratio
samples
variance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP3002400A
Other languages
English (en)
Other versions
JPH04239388A (ja
Inventor
東善 ▲裴▼
晴雄 秋元
保直 伊崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP3002400A priority Critical patent/JP2924192B2/ja
Publication of JPH04239388A publication Critical patent/JPH04239388A/ja
Application granted granted Critical
Publication of JP2924192B2 publication Critical patent/JP2924192B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、サンプルをその属性に
よりクラスタに分類するクラスタリング方式に関する。
【0002】
【従来の技術】パターン認識は、パターンから抽出した
特徴によって、パターンを誤りなく、所定のクラスに分
類することを目的としている。パターンの分類には、分
類されるべきクラス(カテゴリ)が不明の場合と、予め
分かっている場合とがある。不明の場合には、多数のサ
ンプルより、いかに上手にサンプルをグループ化するか
が重要となり、これは例えば、生物学や考古学などで必
要とされる。また、既知の場合は、例えば文字・図形な
どの認識においては、クラスタリングの技術は複数テン
プレートの作成に必要となる。特に、手書きの文字・図
形認識の分野では、手書きの様々な変形を代表させるの
に単一のテンプレートでは困難な場合が多く、一つのカ
テゴリに複数の代表、つまり複数テンプレートを作成す
る。このとき、あるカテゴリの多数のサンプルを、いか
にグループ化して、複数の代表を決めるか、の方法によ
って認識性能が大きく影響を受ける。
【0003】従来のクラスタリング方式としては、階層
的クラスタリング,K−meansクラスタリングなど
様々な方法があるが、これらは、いづれもサンプル間の
距離のみを基準として距離の近いサンプル同士を同一の
クラスタとして集めるという方法であった。
【0004】
【発明が解決しようとする課題】このため、上記方法で
は、出来上がったクラスタのまとまり具合を表す分散に
ついては考慮されておらず、各クラスタ相互間の区別が
明確でないことが多かった。本発明は、上述の問題点に
鑑みてなされたもので、分散を考慮したクラスタリング
を行うことにより各クラスタ間の差異が明らかとなるよ
うなクラスタリング方式を提供することを目的とする。
【0005】
【課題を解決するための手段】上記目的を達成するた
め、本発明のクラスタリング方式は、サンプルをその属
性によりクラスタに分類するに際し、各クラスタ内の分
散を小さくし、各クラスタ間の分散を大きくするため
に、前記各クラスタ間の分散を前記各クラスタ内の分散
で除した値を分散比とし、サンプル数をM、1つのクラ
スタがK個のサンプルからなり前記分散比が最大となる
N個(M=K・N)のクラスタを作成するに際し、各サ
ンプルについてそのサンプルと距離の近いサンプルを自
身を含めK個集めたクラスタをGiとし、M個(G1,
G2・・・・GM)のクラスタを作成し、このM個のク
ラスタから任意のN個のクラスタを選択してそれらをC
1,C2・・・・CNとし、そのN個のクラスタの分散
比Fを求め、次に残ったM−N個のクラスタから1つの
クラスタCN+1を選択し、C1,C2・・・・CNに
加えてN+1個のクラスタとし、このN+1個のクラス
タの分散比fを求め、Fがfより小さくなければ残りM
−(N+1)個のクラスタより1つのクラスタを選び分
散比fを求め、同様の比較を行いFがfより小さけれ
ば、C1,C2・・・・CNの内より1つを除きCN+
1を加えた合計N個のクラスタについて分散をN通り求
めてこのうち最大の分散比でFの値を更新し、同様の処
理を残りM−(N+2)個のクラスタについて繰り返
し、最後に残ったC1,C2・・・・CN個のクラスタ
を分散比が最大のクラスタとする。
【0006】
【0007】
【0008】
【作用】上記構成により、各クラスタ内の分散は小さい
ので、同じ属性のサンプルが多く集まっており、またク
ラスタ相互間の分散は大きいので相互のクラスタの相違
が明らかなものとなる。すなわち、実際にクラスタリン
グするに当たり、クラスタ内の分散比を小さくクラスタ
間の分散を大きくする組み合せを求める作業は、サンプ
ルの数が少なければ全ての組み合わせについて検討でき
るが、数が多くなると極めて困難になり、また必ずしも
最適の組み合わせでなくても、それに近ければ実用上支
障は少ない。そこで、各クラスタ間の分散を各クラスタ
内の分散で除した値を分散比とし、Mをサンプル数、ク
ラスタの数をN、各クラスタのサンプル数をK個とした
場合、各クラスタごとに自身を含めてK個よりなるクラ
スタを合計M個作成し、この内からN個のクラスタを選
びその分散比Fを計算する。次に残りのM−Nのクラス
タから1個のクラスタを取り出し、前のN個と合わせて
N+1のクラスタの分散比fを計算し、Fがfより小さ
くなければ残りM−(N+1)個のクラスタより1つの
クラスタを選び分散比fを求め同様の比較を行い、Fが
fより小さければこの1つ選んだクラスタを他の1〜N
個のクラスタの1つと入れ替えたN組のクラスタを作
り、そのN組のクラスタの最大の分散比を与えるN個の
クラスタを新たな組とし、この最大値でFを更新する。
このようにして残りM−(N+2)個をすべて処理した
とき最後に残ったN個のクラスタが求める組み合わせに
近い組み合わせである。
【0009】また、上記クラスタリングをパターン認識
装置に適用する場合、上記クラスタを識別対象のパター
ンを識別するテンプレートとすれば、テンプレート相互
は差異が明らかなものとなるので識別が容易となる。
【0010】
【0011】
【実施例】以下、本発明の実施例を図面を参照して説明
する。図1,図2は本発明の実施例の動作を示すフロー
図である。これらの図を説明するに先立ち本実施例を実
施する装置を図3を用いて説明する。図3はパターン認
識装置の全体構成を示す図である。観測部10によって光
電変換され電気信号に変換された入力パターンは、特徴
抽出部11で特徴データに変換される。複数のテンプレー
トを作成するデータとなるサンプルは学習サンプル用に
学習サンプル部13に蓄えられ、これより辞書生成部14で
クラスタリングされる。このクラスタリング方法が図
1, 図2に示すフロー図である。辞書生成部14で生成し
た辞書は辞書部15に記憶される。
【0012】認識時の処理手順は以下のように行う。入
力パターンは学習時と同様に観測部10, 特徴抽出部11を
経て特徴データに変換され、照合部12において既に作成
され辞書部15に記憶されている辞書(複数テンプレー
ト)と照合され、最も距離の近い又は、最も類似してい
るテンプレートが選択され、そのテンプレートの属する
カテゴリを入力パターンのカテゴリとして認識し、これ
を認識結果として出力する。
【0013】次に本発明のクラスタリング方法について
説明する。多数のサンプルからいくつかのクラスタを作
る時、各々のクラスタは、よく纏まっており(つまり、
クラスタを構成するサンプルの分散は小さく)、他のク
ラスタとの間では差が大きい(つまり、クラスタ間の分
散は大きい)ようなクラスタリングを行う。これは、自
クラスタ内分散(級内分散)を小さくし、他とのクラス
タ間分散(級間分散)を大きくする。つまり、級間分散
/級内分散で表される分散比(またはF比とも言う)を
大きくするということである。それによって、各クラス
タの違いが際立ったクラスタリングが出来る。
【0014】これをパターン認識の複数テンプレートの
場合に当てはめると、あるカテゴリをいくつかの代表
(各クラスタの平均)で表現する時、各々の代表の違い
が際立つことであり、これは、パターンの変形の仕方に
応じて、クラスタ(テンプレート)が構成されるように
なることである。従って、手書きの変形などに対して
も、変形の仕方毎にそのテンプレートをもつことにな
り、認識率の向上が期待できる。
【0015】なお、この分散比の考えは、統計学の分野
では従来から存在するものである。また、パターン認識
においても使用されているが、それは、多数の特徴から
認識に役立つ特徴を選択する特徴選択においてであり、
クラスタリングに応用したものではない。
【0016】分散比は次の式で示される。
【0017】
【数1】
【0018】N:クラスタ数 σi2 :i番目のクラスタの分散(i番目のクラスタを
作成するために使ったサンプルの分散) μi:i番目のクラスタの平均(i番目のクラスタを作
成するために使ったサンプルの平均) (1)式より分かるように分散比は、すでにクラスタが
決まっている時、それらのクラスタについて計算できる
ものである。しかし、ここでの目的は、分散比が大きく
なるようなクラスタを求めることである。あらゆるクラ
スタリングを行い、それらから(1)式を最大にするも
のを選択するのがよいが、サンプルの数が多いと計算が
極めて困難となる。そこで図1,図2で示すような近似
的方法をとる。
【0019】図1,図2にこの処理の流れ図を示す。本
実施例ではクラスタを作成するためのサンプル数をMと
し、このM個のサンプルからN個のクラスタを作成する
(ステップ1)。また、各クラスタを均等なサンプル数
Kから作成する場合の処理について述べる(ステップ
2)。各サンプルについて、そのサンプルと距離の近い
サンプルを(自身も含めて)K個選択する(ステップ
4)。(ここで、距離として何を使用するかは、サンプ
ルデータの性質によって決定することであるが、通常は
ユークリッド距離や市街地距離などがよく用いられ
る。)ここでサンプルiについて選択されたK個のサン
プルの集合をグループGiとする(ステップ5)。そし
てこれをサンプル1からMまで行う(ステップ3〜
6)。このM個のグループのうち、任意にN個のグルー
プを選択し、それらをC1,C2,・・・・CNとする
(ステップ7)。そしてそれらN個のグループの分散比
を求め、この値をFとする(ステップ8)。
【0020】次に、図2に移り、選択されなかった(M
─N)個のグループについて、順に以下の処理を行う
(ステップ9から14) 。つまり、1つのグループを取り
出し、これとCi(i=1,N)の合計(N+1)個の
グループで分散比を計算する。この値をfとする(ステ
ップ10) 。もしこのfがFより小さいなら、次のグルー
プを取り出す。大きいなら(N+1)個のグループ中で
分散比が最大となるN個の組み合わせを求める(ステッ
プ11,12)。このとき、取り出されたグループ(つまり、
Ciでない1個)は必ずN個に入るようにする。言い換
えると、もとのCi中よりどれか一つを除いて、入れ換
えるのである。このN個を新たにCi(i=1,N)と
し、そのときの分散比を新たにFとする(ステップ13)
。これを、(M−N)個のグループについて行い、最
後にCi(i=1,N)として残ったN個のグループが
分散比を大きくするN個のグループである(ステップ1
5) 。もし、これをパターン認識のテンプレートとして
使用する時は、このN個のグループからテンプレートを
作成すればよい。この方法はG1,G2,・・・・・G
Mの中から分散比が最大となるN個を選んだ訳ではない
が、最大に近いN個のグループが求められる。
【0021】
【発明の効果】以上の説明から明らかなように、本発明
は、クラスタ内の分散を小さくし、各クラスタ間の分散
を大きくすることにより、各クラスタ間の差異が明らか
になり、これをテンプレートに用いればパターン認識に
おける認識率が向上する。
【図面の簡単な説明】
【図1】本発明の実施例のクラスタリングの手順を示す
フロー図である。
【図2】本発明の実施例のクラスタリングの手順で図1
に後続するフロー図である。
【図3】本実施例を実施するパターン認識装置の全体構
成図である。
【符号の説明】
10 観測部 11 特徴抽出部 12 照合部 13 学習サンプル部 14 辞書生成部 15 辞書部
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平2−59980(JP,A) 特開 昭60−126772(JP,A) 特開 昭60−118987(JP,A) (58)調査した分野(Int.Cl.6,DB名) G06T 7/00

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】 識別対象のパターンをテンプレートを用
    いて識別するパターン識別装置であって、 前記テンプレートを作成するデータとなるサンプルをそ
    の属性によりクラスタに分類するに際し、各クラスタ間
    の分散を前記各クラスタ内の分散で除した値を分散比と
    し、サンプル数をM、1つのクラスタがK個のサンプル
    からなり前記分散比が最大となるN個(M=K・N)の
    クラスタを、各サンプルについてそのサンプルと距離の
    近いサンプルを自身を含めK個集めたクラスタをGiと
    し、M個(G1,G2・・・・GM)のクラスタを作成
    し、このM個のクラスタから任意のN個のクラスタを選
    択してそれらをC1,C2・・・・CNとし、そのN個
    のクラスタの分散比Fを求め、次に残ったM−N個のク
    ラスタから1つのクラスタCN+1を選択し、C1,C
    2・・・・CNに加えてN+1個のクラスタとし、この
    N+1個のクラスタの分散比fを求め、Fがfより小さ
    くなければ残りM−(N+1)個のクラスタより1つの
    クラスタを選び分散比fを求めて同様の比較を行い、F
    がfより小さければC1,C2・・・・CNの内より1
    つを除きCN+1を加えた合計N個のクラスタについて
    分散をN通り求めてこのうち最大の分散比で前記分散比
    Fの値を更新し、同様の処理を残りM−(N+2)個の
    クラスタについて繰り返し、最後に残ったC1,C2・
    ・・・CN個のクラスタを分散比が最大のクラスタとす
    ることにより作成し、作成されたクラスタの複数のテン
    プレートとして保持する手段を備えたことを特徴とする
    パターン認識装置。
JP3002400A 1991-01-14 1991-01-14 パターン認識装置 Expired - Fee Related JP2924192B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3002400A JP2924192B2 (ja) 1991-01-14 1991-01-14 パターン認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3002400A JP2924192B2 (ja) 1991-01-14 1991-01-14 パターン認識装置

Publications (2)

Publication Number Publication Date
JPH04239388A JPH04239388A (ja) 1992-08-27
JP2924192B2 true JP2924192B2 (ja) 1999-07-26

Family

ID=11528194

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3002400A Expired - Fee Related JP2924192B2 (ja) 1991-01-14 1991-01-14 パターン認識装置

Country Status (1)

Country Link
JP (1) JP2924192B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4852766B2 (ja) * 2005-11-11 2012-01-11 国立大学法人北陸先端科学技術大学院大学 クラスタリングシステム、及び、それを備える画像処理システム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60118987A (ja) * 1983-11-30 1985-06-26 Fujitsu Ltd ピ−ク抽出処理装置
JPS60126772A (ja) * 1983-12-14 1985-07-06 Fujitsu Ltd デ−タ処理装置

Also Published As

Publication number Publication date
JPH04239388A (ja) 1992-08-27

Similar Documents

Publication Publication Date Title
CN107909117B (zh) 基于脑功能网络特征对早晚期轻度认知障碍的分类装置
US6021220A (en) System and method for pattern recognition
US6247016B1 (en) Decision tree classifier with integrated building and pruning phases
DE69424196T2 (de) Automatische Zeichenerkennung mit Verwendung statischer und dynamischer Parameter
US7035754B2 (en) System and method for identifying an object
DE69814104T2 (de) Aufteilung von texten und identifizierung von themen
US8340429B2 (en) Searching document images
KR101443187B1 (ko) 영상 군집화 기반의 의료 영상 검색 방법
EP0355748A2 (en) A pattern recognition apparatus and method for doing the same
CN109241741B (zh) 一种基于图像纹理指纹的恶意代码分类方法
CN102982349A (zh) 一种图像识别方法及装置
EP0097820A1 (en) Method for adaptively assigning index numbers to picture element array patterns
CN109583438B (zh) 电子图像的文字的识别方法及图像处理装置
US7233692B2 (en) Method and computer program product for identifying output classes with multi-modal dispersion in feature space and incorporating multi-modal structure into a pattern recognition system
CN113486752A (zh) 基于心电信号的情感识别方法及系统
CN111104398A (zh) 针对智能船舶近似重复记录的检测方法、消除方法
US6337927B1 (en) Approximated invariant method for pattern detection
US7164791B2 (en) Method and computer program product for identifying and incorporating new output classes in a pattern recognition system during system operation
JP2924192B2 (ja) パターン認識装置
JPS60153574A (ja) 文字読取方法
CN115221949A (zh) 一种基于集成的多过滤式特征选择的网络流量分类方法
JP5020513B2 (ja) パターン認識装置、パターン認識方法、パターン認識プログラム、および記録媒体
CN113554028A (zh) 一种车牌字符分类方法
CN110990349A (zh) 一种智能系统安全体系中的不平衡日志过采样方法
WO2015029158A1 (ja) データ変換装置およびデータ変換方法ならびにデータ変換プログラム

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19990406

LAPS Cancellation because of no payment of annual fees