JP2890753B2 - 特徴選択方法 - Google Patents

特徴選択方法

Info

Publication number
JP2890753B2
JP2890753B2 JP2230929A JP23092990A JP2890753B2 JP 2890753 B2 JP2890753 B2 JP 2890753B2 JP 2230929 A JP2230929 A JP 2230929A JP 23092990 A JP23092990 A JP 23092990A JP 2890753 B2 JP2890753 B2 JP 2890753B2
Authority
JP
Japan
Prior art keywords
feature
correlation ratio
cluster
feature selection
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2230929A
Other languages
English (en)
Other versions
JPH04111189A (ja
Inventor
志行 横塚
一朗 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ENU TEI TEI DEETA KK
Original Assignee
ENU TEI TEI DEETA KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ENU TEI TEI DEETA KK filed Critical ENU TEI TEI DEETA KK
Priority to JP2230929A priority Critical patent/JP2890753B2/ja
Publication of JPH04111189A publication Critical patent/JPH04111189A/ja
Application granted granted Critical
Publication of JP2890753B2 publication Critical patent/JP2890753B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、パタン認識装置において、特徴ベクトルの
中からパタン認識に有効な特徴を選択して、高精度かつ
高速度でパタンを認識することが可能な特徴選択方法に
関する。
〔従来の技術〕
従来より、パタン認識装置では、入力されたパタンを
前処理し、特徴ベクトルを生成した後、パタンを認識す
るために有効な特徴を選択する特徴選択処理を行い、そ
れからその特徴について認識辞書の各パタンの特徴との
一致度を照合することにより認識する方法が用いられて
いる。
入力されたパタンをコンピュータにより認識する際に
は、そのパタンの多数の特徴について比較することによ
り、一致度を照合するが、その特徴数は膨大な数(例え
ば、832個)であるため、その特徴の全部を用いて照合
するのでは、非常に多くの時間がかかってしまう。
そのため、従来より、パタンを認識するための特徴ベ
クトルの中から認識に有効な特徴を選択する特徴選択方
法が用いられており、この方法には、相関比を用いた特
徴選択方法がよく知られている。
この方法は、第4図に示すように、先ずパタンの特徴
ベクトルの各特徴に対して相関比という評価関数の計算
を相関比計算部41で行う。次に、相関比の大きい順に特
徴を並び換えて、所望の次元数だけの選択情報の生成を
特徴選択情報生成部42で行う。ここで、相関比とは、カ
テゴリ内の分散値と、カテゴリ間の分散値との比で表わ
すものであって、特徴のカテゴリ間分離能力を評価する
ことができる。そして、選択情報をもとに特徴選択を、
特徴選択部43で行う。
なお、上記のように、相関比を計算した値から得られ
た特徴選択情報を用いて、変換ベクトルの特徴を指定さ
れた数だけ選択する方法は、本発明者により、提案され
ている(特願平2−182246号『次元圧縮方法』の明細書
ならびに図面参照)。
しかしながら、この特徴選択方法では、カテゴリ分布
密度の高い領域とカテゴリ分布領域の低い領域とが混在
するカテゴリ空間に対して、エラー発生確率の高いカテ
ゴリ密度の高い領域のカテゴリを識別するために有効な
特徴は十分選択されず、エラー発生確率の低い密度の低
い領域のカテゴリを識別するために有効な特徴は必要以
上に選択されてしまうという傾向がある。
〔発明が解決しようとする課題〕
パタン認識の分野においてよく用いられている特徴選
択方法として、相関比を用いた特徴選択方法が用いられ
ている。しかしながら、この方法は、前述のように、カ
テゴリ分布密度の高い領域とカテゴリ分布密度の低い領
域とが混在するカテゴリ空間に対して、カテゴリ密度の
高い領域を識別するのに有効な特徴は十分選択されず、
一方、密度の低い領域のカテゴリを識別するのに有効な
特徴は必要以上に選択されてしまうという問題がある。
本発明の目的は、このような従来の課題を解決し、カ
テゴリ密度の高い領域とカテゴリ密度の低い領域が混在
していても、パタン認識にとって有効な特徴を選択する
ことが可能な特徴選択方法を提供することにある。
〔課題を解決するための手段〕
上記目的を達成するために、本発明の特徴選択方法
は、あるカテゴリのセットの中のカテゴリをいくつかの
クラスに分割するクラスタリング実行過程と、各クラス
タの密度を計算するクラスタ密度計算過程と、そのクラ
スタ密度計算過程で求められたクラスタ毎に、カテゴリ
相互間の分離性を評価できる相関比と呼ばれる評価関数
を計算する相関比計算過程と、各クラスタ毎の相関比を
クラスタの密度を考慮することにより、1つの相関比に
統合する相関比統合過程と、その相関比統合過程により
得られた相関比を基に選択情報を生成する選択情報生成
過程と、選択情報を基に特徴を選択する選択特徴過程と
を有することに特徴がある。
〔作 用〕
本発明においては、正確な特徴選択を行うことを目標
として、先ず(i)あるカテゴリ空間に対してカテゴリ
分布の低密度領域、高密度領域を見つけるために、いく
つかのクラスタに分割して、それぞれクラスタの密度を
計算する。(ii)次に、各クラスタに属するカテゴリ毎
に相関比という評価関数を求める。(iii)そして、各
クラスタ毎の相関比をクラスタの密度を考慮することに
より、エラー発生確率の高い高密度領域のカテゴリを重
視することが可能となる1つの相関比に統合し、(iv)
統合された相関比を基に、所望の次元数だけの特徴選択
情報を生成し、特徴選択を行う。
これにより、密度の高い領域のカテゴリを識別するの
に必要な特徴を充分に選択することができ、かつ密度の
低い領域のカテゴリを識別するのに必要な特徴も適度に
選択される。
〔実施例〕
以下、本発明の実施例を、図面により詳細に説明す
る。
第1図は、本発明の一実施例を示す特徴選択方法の処
理の流れ図である。
第1図において、1は読取対象カテゴリセットの中の
各カテゴリの平均ベクトルを用いて、いくつかの似たも
のどうし(クラスタ)に分割するクラスタリング実行
部、2a〜2nは分割されたクラスタに属するカテゴリ毎に
相関比を計算する相関比計算部、3a〜3nはクラスタの密
度を計算するクラスタ密度計算部、4は各クラスタの相
関比とクラスタ密度を用いて、カテゴリセット全体の相
関比を計算する相関比統合部、5は相関比統合部4で計
算された相関比を基に、特徴の選択情報を生成する特徴
選択情報生成部、6は特徴選択情報により読取対象の特
徴ベクトルから特徴を選択する特徴選択部である。これ
らの各部1〜5は、いずれもコンピュータにより実行さ
れるプログラムで構成されている。第4図と比較すれば
明らかなように、本発明で新たに設けられた処理部は、
クラスタリング実行部1と、各クラスタ密度計算部3a〜
3nと、相関比統合部4とである。
本発明においては、(イ)読取対象カテゴリセットの
中のカテゴリをクラスタリングし(クラスタリング実行
部1が実行)、各クラスタの密度を計算した後(クラス
タ密度計算部3a〜3nが実行)、(ロ)特徴ベクトルの各
特徴軸毎に、各クラスタに属するカテゴリ毎の相関比を
求め(相関比計算部2a〜2nが実行)、(ハ)クラスタの
相関比とクラスタ密度を用いて、カテゴリセット全体の
相関比の統合を行う(相関比統合部4が実行)。そし
て、(ニ)相関比の大きい順にソートして、所望の次元
数だけの選択情報を生成し、特徴を選択する(特徴選択
情報生成部5および特徴選択部6が実行)。以上の手順
で実行される。
第2図は、第1図における特徴選択方法の動作フロー
チャートである。
(イ)クラスタリング処理、 先ず、読取対象の特徴ベクトルと、平均ベクトルが入
力したことを確認し(ステップ101)、読取対象のカテ
ゴリセットの中のカテゴリを以下のK平均法を用いてク
ラスタ分割する(ステップ102)。K平均法では、クラ
スタ分割のために次の4つの処理が必要である。
K個の初期クラスタ中心Z1(1)、Z2(1)、・・・
・・・ZK(1)を適当に決める(ステップ1021)。
次に、m回の繰り返しステップで、カテゴリの平均ベ
クトル{x}を下記の方法でK個のクラスタに分類する
(ステップ1022)。全てのi=1,2,・・・,K(i≠j)
について、 |x−zj(m)|<|x−zi(m)|であれば、x∈Sj
(m)とする。
ここで、Sj(m)はZj(m)をクラスタ中心とする集合
である。
次に、前の処理で得られたSj(m)の新しいクラスタ
中心をZj(m+1)として、 とする(ステップ1023)。ここで、NjはSj(m)の数で
ある。
次に、全てのj=1,2,・・・・・,Kに対して、Zj(m
+1)=Zj(m)となれば、アルゴリズムは収束したも
のとして終了する(ステップ1024)。そうでなければ、
ステップ1022)に戻る。
K平均法が収束した後に、各クラスタの密度を計算す
る(ステップ103)。この処理は、第1図のクラスタリ
ング実行部1とクラスタ密度計算部2a〜3nで行われる。
ここで、Diはクラスタiの密度である。
(ロ)相関比計算処理 ここでは、分割されたクラスタ内のカテゴリに対し
て、特徴軸の評価関数である相関比を計算する(ステッ
プ104)。具体的には、以下の計算を実行する。
相関比(f)は、カテゴリ間分散(SB)とカテゴリ内
分散(SW)との比で計算される。
ここで、moはクラスタ内のカテゴリ全体の平均ベクト
ルであり、miは各カテゴリの平均ベクトル、Niはカテゴ
リiのパタン数であり、Lはクラスタ内のカテゴリ数で
あり、Xijはカテゴリiのj番目の特徴ベクトルであ
る。
上記(4)式で明らかなことは、この値SBが大きけれ
ば大きいほど、互いに隣接するカテゴリが離れているこ
とを意味している。
また、上記(5)式で明らかなことは、この値SWが少
なければ少ないほど、このカテゴリ内のパタンが互いに
まとまっていることを意味している。
従って、ある特徴のカテゴリ間分散が大きく、かつカ
テゴリ内分散が少ないとき、つまり(3)式が大きけれ
ば大きいほど、その特徴軸はカテゴリ分離能力が高いと
言うことができる。
これらの処理は、第1図の相関比計算部2a〜2nで行わ
れる。
(ハ)相関比統合処理 ここでは、(ロ)で求めた各クラスタに属するカテゴ
リの相関比とクラスタ密度を用いて、カテゴリセット全
体の相関比の統合を以下のように行う(ステップ10
5)。
ここで、Diはクラスタiの密度、fiはクラスタiに属す
るカテゴリの相関比である。
以上の(ロ)、(ハ)は特徴ベクトルの各々の特徴軸
に対してそれぞれ計算する。
(ニ)特徴選択処理 ここでは、全ての特徴軸に対して求められた統合化さ
れた相関比を、大きい順にソートし、(ステップ10
6)、そして、所望の次元数だけの特徴選択情報を生成
する(ステップ106)。それを基に最終的に新特徴ベク
トルを得る(ステップ107)。
この処理は、第1図の特徴選択生成部5と特徴選択部
6で行われる。
以上で、読取対象の特徴ベクトルについての本発明の
特徴選択処理が終了したが、次の読取対象が残っている
ときには、最初に戻って同じ処理を繰り返す。
第3図は、本発明の特徴選択方法を組み込んだ文字認
識過程を示す処理流れ図である。
先ず、手書き文字の『亜』が入力されると、前記処理
部31では、規定された文字の大きさに従って正規化し、
かつ雑音が除去される。
その後、特徴抽出部32で非常に多次元の特徴ベクトル
が抽出される。次に、特徴選択部33では、本発明の処理
により得られた特徴のみが次の認識部34に送られる。
認識部34では、これらの特徴と認識辞書を参照するこ
とにより、最も確からしい文字『亜』を認識結果として
出力する。
このようにして、本発明を適用した認識装置では、密
度の高い領域のカテゴリを識別するのに必要な特徴は十
分に選択することができるとともに、密度の低い領域の
カテゴリを識別するのに必要な特徴も適度に選択するこ
とができる。
〔発明の効果〕
以上説明したように、本発明によれば、カテゴリ空間
の密度を考慮して特徴選択を行うため、従来の相関比に
よる特徴選択方法に比べて、パタンを認識するために有
効な特徴を選択することができる。
【図面の簡単な説明】
第1図は本発明の一実施例を示す特徴選択方法の処理の
流れ図、第2図は同じく動作フローチャート、第3図は
本発明の応用例である特徴選択過程を組み込んだ文字認
識過程の処理流れ図、第4図は従来の相関比による特徴
選択方法の処理の流れ図である。 1:クラスタリング実行部、2a〜2n:相関比計算部、3a〜3
n:クラスタ密度計算部、4:相関比統合部、5:特徴選択情
報生成部、6:特徴選択部、31:前処理部、32:特徴抽出
部、33:特徴選択部、34:認識部。

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】パタンを認識するための特徴ベクトルの中
    から、認識に有効な特徴のみを選択する特徴選択方法に
    おいて、あるカテゴリセットの中のカテゴリを複数のク
    ラスタに分割するクラスタリング実行過程と、各クラス
    タの密度をそれぞれ計算するクラスタ密度計算過程と、
    該クラスタ密度計算過程で求めたクラスタ毎に、カテゴ
    リ相互間の分離性を評価できる相関比と呼ばれる評価関
    数をそれぞれ計算する相関比計算過程と、各クラスタ毎
    の相関比をクラスタの密度を考慮することにより、1つ
    の相関比に統合する相関比統合過程と、該相関比統合過
    程で得られた相関比を基に特徴の選択情報を生成する特
    徴選択情報生成過程と、該特徴の選択情報を基に特徴を
    選択する特徴選択過程とを有することを特徴とする特徴
    選択方法。
JP2230929A 1990-08-31 1990-08-31 特徴選択方法 Expired - Lifetime JP2890753B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2230929A JP2890753B2 (ja) 1990-08-31 1990-08-31 特徴選択方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2230929A JP2890753B2 (ja) 1990-08-31 1990-08-31 特徴選択方法

Publications (2)

Publication Number Publication Date
JPH04111189A JPH04111189A (ja) 1992-04-13
JP2890753B2 true JP2890753B2 (ja) 1999-05-17

Family

ID=16915499

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2230929A Expired - Lifetime JP2890753B2 (ja) 1990-08-31 1990-08-31 特徴選択方法

Country Status (1)

Country Link
JP (1) JP2890753B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5999647A (en) * 1995-04-21 1999-12-07 Matsushita Electric Industrial Co., Ltd. Character extraction apparatus for extracting character data from a text image

Also Published As

Publication number Publication date
JPH04111189A (ja) 1992-04-13

Similar Documents

Publication Publication Date Title
Dash et al. Dimensionality reduction of unsupervised data
Ibrahim et al. Cluster representation of the structural description of images for effective classification
US8489531B2 (en) Identification of co-regulation patterns by unsupervised cluster analysis of gene expression data
Singha et al. Hand gesture recognition using two-level speed normalization, feature selection and classifier fusion
CN107066555B (zh) 面向专业领域的在线主题检测方法
CN112035620B (zh) 医疗查询系统的问答管理方法、装置、设备及存储介质
CN109241741B (zh) 一种基于图像纹理指纹的恶意代码分类方法
Iloanusi Fusion of finger types for fingerprint indexing using minutiae quadruplets
WO2002009026A1 (en) System and method for identifying an object
CN109189892B (zh) 一种基于文章评论的推荐方法及装置
CN113344019A (zh) 一种决策值选取初始聚类中心改进的K-means算法
CN115098690B (zh) 一种基于聚类分析的多数据文档分类方法及系统
Hu et al. Clustering matrix sequences based on the iterative dynamic time deformation procedure
JP2002183171A (ja) 文書データ・クラスタリングシステム
Mandal et al. Unsupervised non-redundant feature selection: a graph-theoretic approach
CN117235137B (zh) 一种基于向量数据库的职业信息查询方法及装置
CN113255752A (zh) 基于特征聚类的固体材料一致性分选方法
JP2890753B2 (ja) 特徴選択方法
CN111488903A (zh) 基于特征权重的决策树特征选择方法
Singh et al. Multiclass imbalanced big data classification utilizing spark cluster
CN110956177A (zh) 一种混合型验证码的识别方法及系统
Liparulo et al. Improved online fuzzy clustering based on unconstrained kernels
CN113688735A (zh) 一种图像分类方法、装置及电子设备
CN114169542A (zh) 用于不完整数据分类的集成学习树构建方法
Bouchrika et al. Rapid and efficient hand gestures recognizer based on classes discriminator wavelet networks

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080226

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090226

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100226

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100226

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110226

Year of fee payment: 12

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110226

Year of fee payment: 12