JPH0776986B2 - クラスタリング処理方法 - Google Patents

クラスタリング処理方法

Info

Publication number
JPH0776986B2
JPH0776986B2 JP63212192A JP21219288A JPH0776986B2 JP H0776986 B2 JPH0776986 B2 JP H0776986B2 JP 63212192 A JP63212192 A JP 63212192A JP 21219288 A JP21219288 A JP 21219288A JP H0776986 B2 JPH0776986 B2 JP H0776986B2
Authority
JP
Japan
Prior art keywords
cluster
distance
sample
samples
calculated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP63212192A
Other languages
English (en)
Other versions
JPH0259980A (ja
Inventor
正治 倉掛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP63212192A priority Critical patent/JPH0776986B2/ja
Publication of JPH0259980A publication Critical patent/JPH0259980A/ja
Publication of JPH0776986B2 publication Critical patent/JPH0776986B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Description

【発明の詳細な説明】 (1)発明の属する技術分野 本発明は、例えば、(i)教師無し分類を行う方法や、
(ii)文字・図形認識方式等においてサブクラスを決定
する方法や、(iii)認識辞書を構成する際のテンプレ
ートを複数化する方法などに用いられるクラスタリング
処理方法に関する。
(2)従来の技術 従来、クラスタリング手法では、学習サンプルが母集団
の性質を正しく反映しているとの仮定の元にサンプル間
の距離・クラスタ間の距離だけに基づいてクラスタリン
グを行っていたので、学習サンプルの数が少ない場合に
はクラスタリングの結果が学習サンプル中の偏ったサン
プルに大きく影響された。例えば、認識辞書構成の際に
複数テンプレートをクラスタリング手法を適用して決定
する場合、複数テンプレートの決定が学習サンプルの偏
りに大きく影響されてテストサンプルの認識の際に効果
を発揮しなかった。
学習サンプルを得ることを開示するものとして、例えば
特開昭60−126784号公報や特開昭62−145386号公報など
を挙げることができ、これら公報に開示される発明はク
ラスタリングを行うことによって標準パターンをより適
正なものにするようにしている。しかし、これらの処理
の結果標準パターンを得るにしても、学習サンプルに偏
りがあると十分な効果を挙げえないことが生じる。
(3)発明の目的 本発明の目的は、学習サンプルの数が少ない場合にも学
習サンプルの偏りの影響を減らして安定にクラスタリン
グを行うクラスタリング処理方法を提供することにあ
る。
(4)発明の構成 以下、文字・図形認識方式の認識辞書を構成する際のテ
ンプレートを複数化する場合を例にとって説明する。
サンプルとして例えば手書き文字を考え、各手書き文字
は、その文字に対して計測された、あるいは計算された
特徴量の値をベクトル形式で表した特徴ベクトルで表現
されていると想定する。
複数のベクトルとベクトル空間における分布をながめた
場合、分布が局在化(局所的にベクトルが密に存在して
いること)している場合があり、分布をこの局在化して
いる塊毎に分けることができる場合がある。この塊のこ
とをクラスタとよぶ。
特徴ベクトルを用いた文字認識の際には、各文字種毎に
比較用の特徴ベクトルを用意しておき、認識対象文字の
特徴ベクトルを各文字種の比較用の特徴ベクトルと類似
の程度を計算していき、最も類似している比較用特徴ベ
クトルの文字種を該認識対象文字の文字種とする。正し
く認識を行うためには、比較用の特徴ベクトルが各文字
種の最も典型的な特徴を表していることが必要であり、
テンプレートとよばれることがある。
一般的な場合、各文字種の典型的な特徴は、事前に集め
たその文字種の手書き文字、すなわち手書き文字サンプ
ルから決定される。最も単純な場合は、各文字種毎に、
手書き文字サンプルの特徴ベクトルの平均値をその文字
種の典型的な特徴を表しているとみなしてテンプレート
とする。しかし、該文字種の手書き文字サンプルの特徴
ベクトル空間での分布が局在化している場合には、平均
値1つで該文字種の典型的な特徴を表すことができず、
平均値1つを唯一のテンプレートとした場合には認識率
が低くなる可能性がでてくる。このような場合該文字種
の手書き文字サンプルの特徴ベクトル空間上で局在化し
ている塊、すなわちクラスタ毎に1つのテンプレートを
用意して、該文字種に複数のテンプレートを用いること
で認識率の向上がはかれる可能性がでてくる。
(4−1)発明の特徴と従来技術との差異 第3図は、従来のクラスタリング手法を適用した複数テ
ンプレート決定方法の処理ブロック図の一例である。
学習サンプルは特徴ベクトルで表現されている。処理を
始める前にテンプレートの数を決める(Kとする)。ま
たサンプル数をNとする。各クラスタはT=N/K個(T
の値は整数となるようにされる)のサンプルから構成さ
れる。
処理11において、学習サンプルから任意の1サンプルSi
を選ぶ。
処理12において、学習サンプルからSiへの距離が近い順
にT−1個選ぶ。
処理13において、処理12で選ばれたサンプルとSiの計T
個のサンプルとを学習サンプルから除く。
処理14において、上記T個のサンプルの平均をテンプレ
ートとする。
処理15において、サンプルが残っていれば処理11へ戻
り、残っていなければ処理を終了する。
処理12で用いられる距離はユークリッド距離・シティー
ブロック距離等を用いてよい。
以上述べてきたように従来の処理方法は、学習サンプル
の偏りの影響を考慮した手法ではないので、別の学習サ
ンプルを用いた場合には決定されるテンプレートが大き
く変わる可能性が高かった。これは学習サンプルと違う
テストサンプルを認識する際に、学習サンプルで決定し
た複数のテンプレートの効果が少ないことを意味する。
本発明は、テンプレートを決定する際に学習サンプルの
偏りの影響を減らす手法を提供するもので、テストサン
プルを高精度に認識する複数テンプレートの決定を可能
にする。
(4−2)実施例 N次元ベクトルで表現されている複数サンプルが与えら
れているとき、この複数サンプルにクラスタリング処理
を適用し、その結果構成された各クラスタに属するサン
プルの平均値をテンプレートとすることにより複数テン
プレートを作成する際において、本発明をクラスタリン
グ処理手法として用いる場合について説明する。
最初に与えられている複数サンプルを学習サンプルと呼
び、各学習サンプルはN次元ベクトルで表現されている
とする。文字図形認識方式において、各文字図形から計
測された複数の特徴値をベクトル形式に並べてN次元ベ
クトルで表現する。
本発明をクラスタリング処理手法として用いる場合は、
テンプレートの数は事前には決める必要はなく、クラス
タリング処理の結果により最終的に決まるクラスタ数が
テンプレートの数となる。
上記の学習サンプルに対して、以下の処理を行う。な
お、初期状態では各学習サンプルがそれぞれ一つのクラ
スタを形成するとする。
すべてのクラスタ間の距離を求め、すべてのクラスタ対
に距離の小さいほうから順位を付ける。距離が最も小さ
いクラスタ対に関して、当該クラスタ対を一つのクラス
タとみなして計算した予測誤差の値が、当該クラスタ対
の別々のクラスタとして計算した予測誤差の値以下であ
る場合には、このクラスタ対を融合して一つのクラスタ
とする。融合されるクラスタ対が見つかるまで、次の順
位のクラスタ対に対して同様な処理を繰り返していく。
クラスタ対が融合された場合には、すべてのクラスタ間
の距離を求めるところから処理を繰り返す。クラスタ対
間の距離が事前に決めた一定距離より小さい範囲で融合
するクラスタ対が存在しなければクラスタリングの処理
を終わる。この結果構成された各クラスタ毎に、属する
学習サンプルの平均値をテンプレートとすることにより
複数テンプレートを作成する。
予測誤差の計算に用いるテストサンプルには、一様乱
数、あるいは予測誤差を計算するクラスタに属する学習
サンプルの平均値を中心とする正規乱数等により発生さ
せた複数のN次元ベクトルを用いる。予測誤差を計算す
るクラスタに対して、当該クラスタから各テストサンプ
ルまでの距離と、当該クラスタに属する学習サンプルか
ら一部を除いた学習サンプルから構成されるクラスタか
ら各テストサンプルまでの距離との差の2乗和を予測誤
差とする。学習サンプルの除き方は、重複がないように
ひとつずつあるいは複数個順番に除く方法などがある。
予測誤差が小さいことは、学習サンプルの一部が欠ける
など学習サンプルが変動しても、テストサンプルまでの
距離計算が変動を受けにくいことを意味し、本発明をク
ラスタリング処理手法として用いて複数テンプレートを
作成する方法は、学習サンプルの偏りの影響を減らす手
法となっている。
第1図は、本発明の処理ブロック図の一例である。
学習サンプルは特徴ベクトルで表現されているとする。
処理21において、各サンプルをそれぞれ一つのクラスタ
とする。
処理22において、全てのクラスタ間の距離を求め、距離
の小さいほうから順位をつける。距離が最小のクラスタ
対をC1,C2とする。
処理23において、C1とC2とを融合した場合としない場合
とで後に述べる予測誤差を求める。
処理24において、C1とC2とを融合した場合の方が予測誤
差が小さければC1とC2とを融合して一つのクラスタとし
て処理22へ戻る。C1とC2とを融合しない方が予測誤差が
小さい場合には、処理25へ進む。
処理25において、次の順位のクラスタ対が存在してその
間の距離がある一定値より小さければ、次の順位のクラ
スタ対をC1,C2として処理23へ戻る。それ以外の場合に
は、処理26へ進む。
処理26において、各クラスタ毎に個々のサンプルによっ
て構成される凸多面体を求め、当該凸多面体の端点とな
るサンプルについての平均をとって当該平均値をテンプ
レートとして処理を終了する。
クラスタ間の距離は以下のように定義する。
C1からC2までの距離をC1からC2に属するサンプルまでの
距離のうちで最大のものとする。C2からC1までの距離も
同様にC2からC1に属するサンプルまでの距離のうちで最
大のものとする。そしてC1からC2までの距離とC2からC1
までの距離とのうち大きい方をクラスタC1とC2の距離と
する。
クラスタC1とサンプルXとの距離を以下のように定義す
る。第2図は、この定義を説明する説明図である。該ク
ラスタ内のサンプルWiの凸多面体Tの端点を求め端点の
平均をYとする。サンプルXからクラスタC1のサンプル
を含む超平面Π1への射影点をZとする。XからZまで
の距離をD1,YからZまでの距離をD2,YとZとを結ぶ直線
が凸多面体の境界面と交差する点とYとの距離をD3とす
ると、クラスタC1とサンプルXとの距離はD1+D2/D3で
定義される。D1,D2,D3を求める際の距離はユークリッド
距離・シティーブロック距離等の距離の公理を満たすも
のであれば特に問わない。
予測誤差は以下のように定義する。クラスタCに属する
サンプルをXi(i=1,……n)とし、乱数を用いて発生
させたテストサンプルをPj(j=1,……m)とする。ク
ラスタCからPjまでの距離をDj、クラスタCのサンプル
からXk(1<=k<=n)を除いたサンプルから構成さ
れるクラスタからPjまでの距離をDj(−k)とする。ク
ラスタCの予測誤差はクラスタCの全てのサンプルを一
度つづ除いたときのDjとDj(−k)との差を全てのテス
トサンプルに対して計算するもので以下のように定義さ
れる。
ΣΣ(Dj−Dj(−k))2 クラスタC1とC2とを融合した場合の予測誤差は、クラス
タC1,C2をまとめて一つのクラスタとみなして予測誤差
を計算したもので、クラスタC1とC2とを融合しない場合
の予測誤差は、テストサンプルまでの距離をクラスタC
1,C2のうち近い方のクラスタからの距離として計算した
ものである。以上の説明の様に、予測誤差はサンプルの
数が一つ減った場合にもクラスタリングの結果が変わら
ない場合に小さくなる。
(5)発明の効果 以上説明したように、本発明によれば、予測誤差に基づ
いてクラスタリングを行うので学習サンプルが多少変わ
っても得られるテンプレートはほとんど変わらない、す
なわち少数の偏った学習サンプルの影響を受けず学習サ
ンプルと違うテストサンプルを高精度に認識する複数テ
ンプレートの決定が可能となる。
【図面の簡単な説明】
第1図は本発明の処理ブロック図、第2図はクラスタか
らサンプル点までの距離の定義を説明する説明図、第3
図は従来のクラスタリング手法を適用した複数テンプレ
ート決定方法の処理ブロック図の一例を示す。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】処理対象となるサンプルについてN次元ベ
    クトルで表現される特徴を抽出した上で,当該各サンプ
    ルに対応した特徴を記憶装置上に保持しておき, 当該記憶装置上に保持された各サンプル間で,特徴が近
    似するサンプルの群をデータ処理装置による処理によっ
    てクラスタにまとめてテンプレートを作成してゆくクラ
    スタリング処理方法において, 各サンプルがそれぞれ独立した一つのクラスタを形成し
    ているものとした初期状態からはじめてクラスタ間を融
    合していく過程で,上記記憶装置から取出されたサンプ
    ルについてN次元ベクトル空間内でのクラスタからの距
    離を計算する距離計算手段をそなえると共に, 当該状態の下で得られているクラスタについて夫々のク
    ラスタ間の距離を計算する工程と, 当該クラスタについて,上記計算した距離の大きさの順
    にソートして記憶装置に保持する工程と,クラスタを構
    成するサンプルを一部除いた場合と除かない場合とで
    の,乱数発生により発生させたテストサンプルまでのク
    ラスタからの距離を上記距離計算手段で計算して,当該
    距離の違いを予測誤差として計算する工程と, 前記クラスタ間の距離を計算する工程により計算したク
    ラスタ間距離の小さいクラスタ対の順に記憶装置から取
    出して前記予測誤差に基づいて,当該クラスタ対をひと
    つのクラスタとみなして計算した場合の予測誤差が,当
    該クラスタ対を別々のクラスタとして計算した場合の予
    測誤差よりも小さい場合には当該クラスタ対を融合する
    と判定する工程と, クラスタ間距離が事前に与えられた閾値以下のクラスタ
    対のなかに前記工程により融合するクラスタ対が存在す
    る場合は処理を続け,融合するクラスタ対が存在しない
    場合には処理を終了すると決定する工程とを実行する ことを特徴とするクラスタリング処理方法。
JP63212192A 1988-08-26 1988-08-26 クラスタリング処理方法 Expired - Fee Related JPH0776986B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63212192A JPH0776986B2 (ja) 1988-08-26 1988-08-26 クラスタリング処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63212192A JPH0776986B2 (ja) 1988-08-26 1988-08-26 クラスタリング処理方法

Publications (2)

Publication Number Publication Date
JPH0259980A JPH0259980A (ja) 1990-02-28
JPH0776986B2 true JPH0776986B2 (ja) 1995-08-16

Family

ID=16618450

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63212192A Expired - Fee Related JPH0776986B2 (ja) 1988-08-26 1988-08-26 クラスタリング処理方法

Country Status (1)

Country Link
JP (1) JPH0776986B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1803627A2 (en) 2004-02-13 2007-07-04 JTEKT Corporation Electric power steering apparatus

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4894026B2 (ja) * 2006-10-05 2012-03-07 独立行政法人産業技術総合研究所 音楽アーティスト検索装置及び方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1803627A2 (en) 2004-02-13 2007-07-04 JTEKT Corporation Electric power steering apparatus

Also Published As

Publication number Publication date
JPH0259980A (ja) 1990-02-28

Similar Documents

Publication Publication Date Title
Senior A combination fingerprint classifier
US7362892B2 (en) Self-optimizing classifier
CN108985327B (zh) 一种基于因子分析的地形匹配区自组织优化分类方法
Li et al. Classifiability-based omnivariate decision trees
KR20040008792A (ko) 얼굴/유사얼굴 영상으로 학습된 패턴 분류기를 이용한얼굴 검출 방법 및 시스템
JPH07296117A (ja) 減少された要素特徴部分集合を用いたパターン認識システム用の分類重みマトリックスを構成する方法
JP2003256443A (ja) データ分類装置
WO1997035264A1 (en) Method and system for selecting pattern recognition training vectors
JP2003228706A (ja) データ分類装置
CN110598061A (zh) 一种多元图融合的异构信息网嵌入方法
Lerner et al. A classification-driven partially occluded object segmentation (CPOOS) method with application to chromosome analysis
Martineau et al. Learning error-correcting graph matching with a multiclass neural network
CN109034280B (zh) 手写模型训练方法、手写字识别方法、装置、设备及介质
US6507830B1 (en) Retrieval system, retrieval method and computer readable recording medium that records retrieval program
Cucchiara Genetic algorithms for clustering in machine vision
CN111914930A (zh) 一种基于自适应微簇融合的密度峰值聚类方法
CN115344693B (zh) 一种基于传统算法和神经网络算法融合的聚类方法
JPH0776986B2 (ja) クラスタリング処理方法
Jena et al. Elitist TLBO for identification and verification of plant diseases
CN110956177A (zh) 一种混合型验证码的识别方法及系统
CN113378870A (zh) 一种基于神经网络预测印刷电路板辐射源分布的方法和装置
EP0885427A1 (en) Method for optimizing a recognition dictionary to distinguish between patterns that are difficult to distinguish
Braga-Neto et al. Clustering
Duch et al. Neural networks in non-euclidean spaces
CN110302540B (zh) 基于ga-svm的游戏防沉迷判定系统及方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees