JPH04239388A - パターン認識装置 - Google Patents

パターン認識装置

Info

Publication number
JPH04239388A
JPH04239388A JP3002400A JP240091A JPH04239388A JP H04239388 A JPH04239388 A JP H04239388A JP 3002400 A JP3002400 A JP 3002400A JP 240091 A JP240091 A JP 240091A JP H04239388 A JPH04239388 A JP H04239388A
Authority
JP
Japan
Prior art keywords
clusters
cluster
variance
dispersion
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3002400A
Other languages
English (en)
Other versions
JP2924192B2 (ja
Inventor
▲裴▼ 東善
Touzen Hai
Haruo Akimoto
晴雄 秋元
Yasunao Isaki
伊崎 保直
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP3002400A priority Critical patent/JP2924192B2/ja
Publication of JPH04239388A publication Critical patent/JPH04239388A/ja
Application granted granted Critical
Publication of JP2924192B2 publication Critical patent/JP2924192B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、サンプルをその属性に
よりクラスタに分類するクラスタリング方式に関する。
【0002】
【従来の技術】パターン認識は、パターンから抽出した
特徴によって、パターンを誤りなく、所定のクラスに分
類することを目的としている。パターンの分類には、分
類されるべきクラス(カテゴリ)が不明の場合と、予め
分かっている場合とがある。不明の場合には、多数のサ
ンプルより、いかに上手にサンプルをグループ化するか
が重要となり、これは例えば、生物学や考古学などで必
要とされる。また、既知の場合は、例えば文字・図形な
どの認識においては、クラスタリングの技術は複数テン
プレートの作成に必要となる。特に、手書きの文字・図
形認識の分野では、手書きの様々な変形を代表させるの
に単一のテンプレートでは困難な場合が多く、一つのカ
テゴリに複数の代表、つまり複数テンプレートを作成す
る。このとき、あるカテゴリの多数のサンプルを、いか
にグループ化して、複数の代表を決めるか、の方法によ
って認識性能が大きく影響を受ける。
【0003】従来のクラスタリング方式としては、階層
的クラスタリング,K−meansクラスタリングなど
様々な方法があるが、これらは、いづれもサンプル間の
距離のみを基準として距離の近いサンプル同士を同一の
クラスタとして集めるという方法であった。
【0004】
【発明が解決しようとする課題】このため、上記方法で
は、出来上がったクラスタのまとまり具合を表す分散に
ついては考慮されておらず、各クラスタ相互間の区別が
明確でないことが多かった。本発明は、上述の問題点に
鑑みてなされたもので、分散を考慮したクラスタリング
を行うことにより各クラスタ間の差異が明らかとなるよ
うなクラスタリング方式を提供することを目的とする。
【0005】
【課題を解決するための手段】上記目的を達成するため
、本発明のクラスタリング方式は、サンプルをその属性
によりクラスタに分類するに際し、各クラスタ内の分散
を小さくし、各クラスタ間の分散を大きくするようにす
る。
【0006】また、前記サンプルが識別対象、前記クラ
スタがテンプレートであり、このテンプレートを用いて
前記識別対象を識別するようにする。
【0007】また、前記各クラスタ間の分散を前記各ク
ラスタ内の分散で除した値を分散比とし、サンプル数を
M、1つのクラスタがK個のサンプルからなり前記分散
比が最大となるN個(M=K・N)のクラスタを作成す
るに際し、各サンプルについてそのサンプルと距離の近
いサンプルを自身も含めK個集めたクラスタをGiとし
、M個(G1,G2・・・・GM)のクラスタを作成し
、このM個のクラスタから任意のN個のクラスタを選択
してそれらをC1,C2・・・CNとし、そのN個のク
ラスタの前記分散比Fを求め、次に残ったM−N個のク
ラスタから1つのクラスタCN+1を選択し、C1,C
2・・・・CNに加えてN+1個のクラスタとし、この
N+1個のクラスタの前記分散比fを求め、Fがfより
小さくなければ残りM−(N+1)個のクラスタより1
つのクラスタを選び分散比fを求め、同様の比較を行い
Fがfより小さければ、C1,C2・・・・CNの内よ
り1つを除きCN+1を加えた合計N個のクラスタにつ
いて前記分散比をN通り求めてこのうち最大の分散比で
Fの値を更新し、同様の処理を残りM−(N+2)個の
クラスタについて繰り返し、最後に残ったC1,C2,
・・・・CN個のクラスタを前記分散比が最大のクラス
タとする。
【0008】
【作用】上記構成により、各クラスタ内の分散は小さい
ので、同じ属性のサンプルが多く集まっており、またク
ラスタ相互間の分散は大きいので相互のクラスタの相違
が明らかなものとなる。
【0009】上記クラスタリングをパターン認識に適用
する場合、サンプルを識別対象となるパターンとし、ク
ラスタをこの識別対象を識別するテンプレートとすると
、テンプレート相互は差異が明らかなものとなるので識
別が容易となる。
【0010】また、実際にクラスタリングするに当たり
、クラスタ内の分散比を小さくクラスタ間の分散を大き
くする組合を求める作業は、サンプルの数が少なければ
全ての組み合わせについて検討できるが、数が多くなる
と極めて困難になり、また必ずしも最適の組み合わせで
なくても、それに近ければ実用上支障は少ない。そこで
、各クラスタ間の分散を各クラスタ内の分散で除した値
を分散比とし、Mをサンプル数、クラスタの数をN、各
クラスタのサンプル数をK個とした場合、各サンプルご
とに自身を含めてK個よりなるクラスタを合計M個作成
し、この内からN個のクラスタを選びその分散比Fを計
算する。次に残りM−Nのクラスタから1個のクラスタ
を取り出し前のN個と合わせてN+1のクラスタの分散
比fを計算し、Fがfより小さくなければ残りM−(N
+1)個のクラスタより1つのクラスタを選び分散比f
を求め同様の比較を行い、Fがfより小さければこの1
つ選んだクラスタを他の1〜N個のクラスタの1つと入
れ替えたN組のクラスタを作り、そのN組のクラスタの
最大の分散比を与えるN個のクラスタを新たな組とし、
この最大値でFを更新する。このようにして残りM−(
N+2)個をすべて処理したとき最後に残ったN個のク
ラスタが求める組み合わせに近い組み合わせである。
【0011】
【実施例】以下、本発明の実施例を図面を参照して説明
する。図1,図2は本発明の実施例の動作を示すフロー
図である。これらの図を説明するに先立ち本実施例を実
施する装置を図3を用いて説明する。図3はパターン認
識装置の全体構成を示す図である。観測部10によって
光電変換され電気信号に変換された入力パターンは、特
徴抽出部11で特徴データに変換される。複数のテンプ
レートを作成するデータとなるサンプルは学習サンプル
用に学習サンプル部13に蓄えられ、これより辞書生成
部14でクラスタリングされる。このクラスタリング方
法が図1, 図2に示すフロー図である。辞書生成部1
4で生成した辞書は辞書部15に記憶される。
【0012】認識時の処理手順は以下のように行う。入
力パターンは学習時と同様に観測部10, 特徴抽出部
11を経て特徴データに変換され、照合部12において
既に作成され辞書部15に記憶されている辞書(複数テ
ンプレート)と照合され、最も距離の近い又は、最も類
似しているテンプレートが選択され、そのテンプレート
の属するカテゴリを入力パターンのカテゴリとして認識
し、これを認識結果として出力する。
【0013】次に本発明のクラスタリング方法について
説明する。多数のサンプルからいくつかのクラスタを作
る時、各々のクラスタは、よく纏まっており(つまり、
クラスタを構成するサンプルの分散は小さく)、他のク
ラスタとの間では差が大きい(つまり、クラスタ間の分
散は大きい)ようなクラスタリングを行う。これは、自
クラスタ内分散(級内分散)を小さくし、他とのクラス
タ間分散(級間分散)を大きくする。つまり、級間分散
/級内分散で表される分散比(またはF比とも言う)を
大きくするということである。それによって、各クラス
タの違いが際立ったクラスタリングが出来る。
【0014】これをパターン認識の複数テンプレートの
場合に当てはめると、あるカテゴリをいくつかの代表(
各クラスタの平均)で表現する時、各々の代表の違いが
際立つことであり、これは、パターンの変形の仕方に応
じて、クラスタ(テンプレート)が構成されるようにな
ることである。従って、手書きの変形などに対しても、
変形の仕方毎にそのテンプレートをもつことになり、認
識率の向上が期待できる。
【0015】なお、この分散比の考えは、統計学の分野
では従来から存在するものである。また、パターン認識
においても使用されているが、それは、多数の特徴から
認識に役立つ特徴を選択する特徴選択においてであり、
クラスタリングに応用したものではない。
【0016】分散比は次の式で示される。
【0017】
【数1】
【0018】N:クラスタ数 σi2 :i番目のクラスタの分散(i番目のクラスタ
を作成するために使ったサンプルの分散)μi:i番目
のクラスタの平均(i番目のクラスタを作成するために
使ったサンプルの平均) (1)式より分かるように分散比は、すでにクラスタが
決まっている時、それらのクラスタについて計算できる
ものである。しかし、ここでの目的は、分散比が大きく
なるようなクラスタを求めることである。あらゆるクラ
スタリングを行い、それらから(1)式を最大にするも
のを選択するのがよいが、サンプルの数が多いと計算が
極めて困難となる。そこで図1,図2で示すような近似
的方法をとる。
【0019】図1,図2にこの処理の流れ図を示す。本
実施例ではクラスタを作成するためのサンプル数をMと
し、このM個のサンプルからN個のクラスタを作成する
(ステップ1)。また、各クラスタを均等なサンプル数
Kから作成する場合の処理について述べる(ステップ2
)。各サンプルについて、そのサンプルと距離の近いサ
ンプルを(自身も含めて)K個選択する(ステップ4)
。(ここで、距離として何を使用するかは、サンプルデ
ータの性質によって決定することであるが、通常はユー
クリッド距離や市街地距離などがよく用いられる。)こ
こでサンプルiについて選択されたK個のサンプルの集
合をグループGiとする(ステップ5)。そしてこれを
サンプル1からMまで行う(ステップ3〜6)。このM
個のグループのうち、任意にN個のグループを選択し、
それらをC1,C2,・・・・CNとする(ステップ7
)。そしてそれらN個のグループの分散比を求め、この
値をFとする(ステップ8)。
【0020】次に、図2に移り、選択されなかった(M
─N)個のグループについて、順に以下の処理を行う(
ステップ9から14) 。つまり、1つのグループを取
り出し、これとCi(i=1,N)の合計(N+1)個
のグループで分散比を計算する。この値をfとする(ス
テップ10) 。もしこのfがFより小さいなら、次の
グループを取り出す。大きいなら(N+1)個のグルー
プ中で分散比が最大となるN個の組み合わせを求める(
ステップ11,12)。このとき、取り出されたグルー
プ(つまり、Ciでない1個)は必ずN個に入るように
する。言い換えると、もとのCi中よりどれか一つを除
いて、入れ換えるのである。このN個を新たにCi(i
=1,N)とし、そのときの分散比を新たにFとする(
ステップ13) 。これを、(M−N)個のグループに
ついて行い、最後にCi(i=1,N)として残ったN
個のグループが分散比を大きくするN個のグループであ
る(ステップ15) 。もし、これをパターン認識のテ
ンプレートとして使用する時は、このN個のグループか
らテンプレートを作成すればよい。この方法はG1,G
2,・・・・・GMの中から分散比が最大となるN個を
選んだ訳ではないが、最大に近いN個のグループが求め
られる。
【0021】
【発明の効果】以上の説明から明らかなように、本発明
は、クラスタ内の分散を小さくし、各クラスタ間の分散
を大きくすることにより、各クラスタ間の差異が明らか
になり、これをテンプレートに用いればパターン認識に
おける認識率が向上する。
【図面の簡単な説明】
【図1】本発明の実施例のクラスタリングの手順を示す
フロー図である。
【図2】本発明の実施例のクラスタリングの手順で図1
に後続するフロー図である。
【図3】本実施例を実施するパターン認識装置の全体構
成図である。
【符号の説明】
10  観測部 11  特徴抽出部 12  照合部 13  学習サンプル部 14  辞書生成部 15  辞書部

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】  サンプルをその属性によりクラスタに
    分類するに際し、各クラスタ内の分散を小さくし、各ク
    ラスタ間の分散を大きくするようにしたことを特徴とす
    るクラスタリング方式。
  2. 【請求項2】  前記サンプルが識別対象、前記クラス
    タがテンプレートであり、このテンプレートを用いて前
    記識別対象を識別することを特徴とする請求項1記載の
    クラスタリング方式。
  3. 【請求項3】  前記各クラスタ間の分散を前記各クラ
    スタ内の分散で除した値を分散比とし、サンプル数をM
    、1つのクラスタがK個のサンプルからなり前記分散比
    が最大となるN個(M=K・N)のクラスタを作成する
    に際し、各サンプルについてそのサンプルと距離の近い
    サンプルを自身も含めK個集めたクラスタをGiとし、
    M個(G1,G2・・・・GM)のクラスタを作成し、
    このM個のクラスタから任意のN個のクラスタを選択し
    てそれらをC1,C2・・・CNとし、そのN個のクラ
    スタの前記分散比Fを求め、次に残ったM−N個のクラ
    スタから1つのクラスタCN+1を選択し、C1,C2
    ・・・・CNに加えてN+1個のクラスタとし、このN
    +1個のクラスタの前記分散比fを求め、Fがfより小
    さくなければ残りM−(N+1)個のクラスタより1つ
    のクラスタを選び分散比fを求め、同様の比較を行いF
    がfより小さければ、C1,C2・・・・CNの内より
    1つを除きCN+1を加えた合計N個のクラスタについ
    て前記分散比をN通り求めてこのうち最大の分散比でF
    の値を更新し、同様の処理を残りM−(N+2)個のク
    ラスタについて繰り返し、最後に残ったC1,C2,・
    ・・・CN個のクラスタを前記分散比が最大のクラスタ
    とすることを特徴とする請求項1記載のクラスタリング
    方式。
JP3002400A 1991-01-14 1991-01-14 パターン認識装置 Expired - Fee Related JP2924192B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3002400A JP2924192B2 (ja) 1991-01-14 1991-01-14 パターン認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3002400A JP2924192B2 (ja) 1991-01-14 1991-01-14 パターン認識装置

Publications (2)

Publication Number Publication Date
JPH04239388A true JPH04239388A (ja) 1992-08-27
JP2924192B2 JP2924192B2 (ja) 1999-07-26

Family

ID=11528194

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3002400A Expired - Fee Related JP2924192B2 (ja) 1991-01-14 1991-01-14 パターン認識装置

Country Status (1)

Country Link
JP (1) JP2924192B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007055359A1 (ja) * 2005-11-11 2007-05-18 Japan Advanced Institute Of Science And Technology クラスタリングシステム、及び、それを備える画像処理システム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60118987A (ja) * 1983-11-30 1985-06-26 Fujitsu Ltd ピ−ク抽出処理装置
JPS60126772A (ja) * 1983-12-14 1985-07-06 Fujitsu Ltd デ−タ処理装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60118987A (ja) * 1983-11-30 1985-06-26 Fujitsu Ltd ピ−ク抽出処理装置
JPS60126772A (ja) * 1983-12-14 1985-07-06 Fujitsu Ltd デ−タ処理装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007055359A1 (ja) * 2005-11-11 2007-05-18 Japan Advanced Institute Of Science And Technology クラスタリングシステム、及び、それを備える画像処理システム
JP4852766B2 (ja) * 2005-11-11 2012-01-11 国立大学法人北陸先端科学技術大学院大学 クラスタリングシステム、及び、それを備える画像処理システム

Also Published As

Publication number Publication date
JP2924192B2 (ja) 1999-07-26

Similar Documents

Publication Publication Date Title
CN110175158B (zh) 一种基于向量化的日志模板提取方法和系统
CN102663401B (zh) 一种图像特征提取和描述方法
CN109978034B (zh) 一种基于数据增强的声场景辨识方法
CN108875816A (zh) 融合置信度准则和多样性准则的主动学习样本选择策略
CN111000553B (zh) 一种基于投票集成学习的心电数据智能分类方法
CN107103326A (zh) 基于超像素聚类的协同显著性检测方法
CN103425996A (zh) 一种并行分布式的大规模图像识别方法
CN105760888A (zh) 一种基于属性聚类的邻域粗糙集集成学习方法
CN112750442B (zh) 一种具有小波变换的朱鹮种群生态体系监测系统及其方法
WO2020011069A1 (zh) 运动轨迹的特征处理方法、设备以及计算机存储介质
US7233692B2 (en) Method and computer program product for identifying output classes with multi-modal dispersion in feature space and incorporating multi-modal structure into a pattern recognition system
CN101968852A (zh) 基于熵排序的半监督谱聚类确定聚类数的方法
CN109446997A (zh) 文档编号自动识别方法
CN115170868A (zh) 一种基于聚类的小样本图像分类两阶段元学习方法
US7164791B2 (en) Method and computer program product for identifying and incorporating new output classes in a pattern recognition system during system operation
CN112381174B (zh) 一种针对多电极阵列的神经信号分类方法
CN107493641B (zh) 一种利用音乐驱动的灯光控制方法和装置
CN105006231A (zh) 基于模糊聚类决策树的分布式大型人口语者识别方法
JPH04239388A (ja) パターン認識装置
CN104166855B (zh) 视觉语音识别方法
US20140343944A1 (en) Method of visual voice recognition with selection of groups of most relevant points of interest
Vardhan et al. Density based clustering technique on crop yield prediction
CN113313213A (zh) 一种加速目标检测算法训练的数据集处理方法
Sun et al. Segmentation of pop music based on histogram clustering
CN108090514B (zh) 基于两阶段密度聚类的红外图像识别方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19990406

LAPS Cancellation because of no payment of annual fees