JP2890753B2 - 特徴選択方法 - Google Patents
特徴選択方法Info
- Publication number
- JP2890753B2 JP2890753B2 JP2230929A JP23092990A JP2890753B2 JP 2890753 B2 JP2890753 B2 JP 2890753B2 JP 2230929 A JP2230929 A JP 2230929A JP 23092990 A JP23092990 A JP 23092990A JP 2890753 B2 JP2890753 B2 JP 2890753B2
- Authority
- JP
- Japan
- Prior art keywords
- feature
- correlation ratio
- cluster
- feature selection
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Character Discrimination (AREA)
Description
中からパタン認識に有効な特徴を選択して、高精度かつ
高速度でパタンを認識することが可能な特徴選択方法に
関する。
前処理し、特徴ベクトルを生成した後、パタンを認識す
るために有効な特徴を選択する特徴選択処理を行い、そ
れからその特徴について認識辞書の各パタンの特徴との
一致度を照合することにより認識する方法が用いられて
いる。
は、そのパタンの多数の特徴について比較することによ
り、一致度を照合するが、その特徴数は膨大な数(例え
ば、832個)であるため、その特徴の全部を用いて照合
するのでは、非常に多くの時間がかかってしまう。
クトルの中から認識に有効な特徴を選択する特徴選択方
法が用いられており、この方法には、相関比を用いた特
徴選択方法がよく知られている。
ベクトルの各特徴に対して相関比という評価関数の計算
を相関比計算部41で行う。次に、相関比の大きい順に特
徴を並び換えて、所望の次元数だけの選択情報の生成を
特徴選択情報生成部42で行う。ここで、相関比とは、カ
テゴリ内の分散値と、カテゴリ間の分散値との比で表わ
すものであって、特徴のカテゴリ間分離能力を評価する
ことができる。そして、選択情報をもとに特徴選択を、
特徴選択部43で行う。
た特徴選択情報を用いて、変換ベクトルの特徴を指定さ
れた数だけ選択する方法は、本発明者により、提案され
ている(特願平2−182246号『次元圧縮方法』の明細書
ならびに図面参照)。
密度の高い領域とカテゴリ分布領域の低い領域とが混在
するカテゴリ空間に対して、エラー発生確率の高いカテ
ゴリ密度の高い領域のカテゴリを識別するために有効な
特徴は十分選択されず、エラー発生確率の低い密度の低
い領域のカテゴリを識別するために有効な特徴は必要以
上に選択されてしまうという傾向がある。
択方法として、相関比を用いた特徴選択方法が用いられ
ている。しかしながら、この方法は、前述のように、カ
テゴリ分布密度の高い領域とカテゴリ分布密度の低い領
域とが混在するカテゴリ空間に対して、カテゴリ密度の
高い領域を識別するのに有効な特徴は十分選択されず、
一方、密度の低い領域のカテゴリを識別するのに有効な
特徴は必要以上に選択されてしまうという問題がある。
テゴリ密度の高い領域とカテゴリ密度の低い領域が混在
していても、パタン認識にとって有効な特徴を選択する
ことが可能な特徴選択方法を提供することにある。
は、あるカテゴリのセットの中のカテゴリをいくつかの
クラスに分割するクラスタリング実行過程と、各クラス
タの密度を計算するクラスタ密度計算過程と、そのクラ
スタ密度計算過程で求められたクラスタ毎に、カテゴリ
相互間の分離性を評価できる相関比と呼ばれる評価関数
を計算する相関比計算過程と、各クラスタ毎の相関比を
クラスタの密度を考慮することにより、1つの相関比に
統合する相関比統合過程と、その相関比統合過程により
得られた相関比を基に選択情報を生成する選択情報生成
過程と、選択情報を基に特徴を選択する選択特徴過程と
を有することに特徴がある。
として、先ず(i)あるカテゴリ空間に対してカテゴリ
分布の低密度領域、高密度領域を見つけるために、いく
つかのクラスタに分割して、それぞれクラスタの密度を
計算する。(ii)次に、各クラスタに属するカテゴリ毎
に相関比という評価関数を求める。(iii)そして、各
クラスタ毎の相関比をクラスタの密度を考慮することに
より、エラー発生確率の高い高密度領域のカテゴリを重
視することが可能となる1つの相関比に統合し、(iv)
統合された相関比を基に、所望の次元数だけの特徴選択
情報を生成し、特徴選択を行う。
に必要な特徴を充分に選択することができ、かつ密度の
低い領域のカテゴリを識別するのに必要な特徴も適度に
選択される。
る。
理の流れ図である。
各カテゴリの平均ベクトルを用いて、いくつかの似たも
のどうし(クラスタ)に分割するクラスタリング実行
部、2a〜2nは分割されたクラスタに属するカテゴリ毎に
相関比を計算する相関比計算部、3a〜3nはクラスタの密
度を計算するクラスタ密度計算部、4は各クラスタの相
関比とクラスタ密度を用いて、カテゴリセット全体の相
関比を計算する相関比統合部、5は相関比統合部4で計
算された相関比を基に、特徴の選択情報を生成する特徴
選択情報生成部、6は特徴選択情報により読取対象の特
徴ベクトルから特徴を選択する特徴選択部である。これ
らの各部1〜5は、いずれもコンピュータにより実行さ
れるプログラムで構成されている。第4図と比較すれば
明らかなように、本発明で新たに設けられた処理部は、
クラスタリング実行部1と、各クラスタ密度計算部3a〜
3nと、相関比統合部4とである。
中のカテゴリをクラスタリングし(クラスタリング実行
部1が実行)、各クラスタの密度を計算した後(クラス
タ密度計算部3a〜3nが実行)、(ロ)特徴ベクトルの各
特徴軸毎に、各クラスタに属するカテゴリ毎の相関比を
求め(相関比計算部2a〜2nが実行)、(ハ)クラスタの
相関比とクラスタ密度を用いて、カテゴリセット全体の
相関比の統合を行う(相関比統合部4が実行)。そし
て、(ニ)相関比の大きい順にソートして、所望の次元
数だけの選択情報を生成し、特徴を選択する(特徴選択
情報生成部5および特徴選択部6が実行)。以上の手順
で実行される。
チャートである。
力したことを確認し(ステップ101)、読取対象のカテ
ゴリセットの中のカテゴリを以下のK平均法を用いてク
ラスタ分割する(ステップ102)。K平均法では、クラ
スタ分割のために次の4つの処理が必要である。
・・・ZK(1)を適当に決める(ステップ1021)。
クトル{x}を下記の方法でK個のクラスタに分類する
(ステップ1022)。全てのi=1,2,・・・,K(i≠j)
について、 |x−zj(m)|<|x−zi(m)|であれば、x∈Sj
(m)とする。
である。
中心をZj(m+1)として、 とする(ステップ1023)。ここで、NjはSj(m)の数で
ある。
+1)=Zj(m)となれば、アルゴリズムは収束したも
のとして終了する(ステップ1024)。そうでなければ、
ステップ1022)に戻る。
る(ステップ103)。この処理は、第1図のクラスタリ
ング実行部1とクラスタ密度計算部2a〜3nで行われる。
て、特徴軸の評価関数である相関比を計算する(ステッ
プ104)。具体的には、以下の計算を実行する。
分散(SW)との比で計算される。
ルであり、miは各カテゴリの平均ベクトル、Niはカテゴ
リiのパタン数であり、Lはクラスタ内のカテゴリ数で
あり、Xijはカテゴリiのj番目の特徴ベクトルであ
る。
ば大きいほど、互いに隣接するカテゴリが離れているこ
とを意味している。
なければ少ないほど、このカテゴリ内のパタンが互いに
まとまっていることを意味している。
テゴリ内分散が少ないとき、つまり(3)式が大きけれ
ば大きいほど、その特徴軸はカテゴリ分離能力が高いと
言うことができる。
れる。
リの相関比とクラスタ密度を用いて、カテゴリセット全
体の相関比の統合を以下のように行う(ステップ10
5)。
るカテゴリの相関比である。
に対してそれぞれ計算する。
れた相関比を、大きい順にソートし、(ステップ10
6)、そして、所望の次元数だけの特徴選択情報を生成
する(ステップ106)。それを基に最終的に新特徴ベク
トルを得る(ステップ107)。
6で行われる。
特徴選択処理が終了したが、次の読取対象が残っている
ときには、最初に戻って同じ処理を繰り返す。
識過程を示す処理流れ図である。
部31では、規定された文字の大きさに従って正規化し、
かつ雑音が除去される。
が抽出される。次に、特徴選択部33では、本発明の処理
により得られた特徴のみが次の認識部34に送られる。
とにより、最も確からしい文字『亜』を認識結果として
出力する。
度の高い領域のカテゴリを識別するのに必要な特徴は十
分に選択することができるとともに、密度の低い領域の
カテゴリを識別するのに必要な特徴も適度に選択するこ
とができる。
の密度を考慮して特徴選択を行うため、従来の相関比に
よる特徴選択方法に比べて、パタンを認識するために有
効な特徴を選択することができる。
流れ図、第2図は同じく動作フローチャート、第3図は
本発明の応用例である特徴選択過程を組み込んだ文字認
識過程の処理流れ図、第4図は従来の相関比による特徴
選択方法の処理の流れ図である。 1:クラスタリング実行部、2a〜2n:相関比計算部、3a〜3
n:クラスタ密度計算部、4:相関比統合部、5:特徴選択情
報生成部、6:特徴選択部、31:前処理部、32:特徴抽出
部、33:特徴選択部、34:認識部。
Claims (1)
- 【請求項1】パタンを認識するための特徴ベクトルの中
から、認識に有効な特徴のみを選択する特徴選択方法に
おいて、あるカテゴリセットの中のカテゴリを複数のク
ラスタに分割するクラスタリング実行過程と、各クラス
タの密度をそれぞれ計算するクラスタ密度計算過程と、
該クラスタ密度計算過程で求めたクラスタ毎に、カテゴ
リ相互間の分離性を評価できる相関比と呼ばれる評価関
数をそれぞれ計算する相関比計算過程と、各クラスタ毎
の相関比をクラスタの密度を考慮することにより、1つ
の相関比に統合する相関比統合過程と、該相関比統合過
程で得られた相関比を基に特徴の選択情報を生成する特
徴選択情報生成過程と、該特徴の選択情報を基に特徴を
選択する特徴選択過程とを有することを特徴とする特徴
選択方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2230929A JP2890753B2 (ja) | 1990-08-31 | 1990-08-31 | 特徴選択方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2230929A JP2890753B2 (ja) | 1990-08-31 | 1990-08-31 | 特徴選択方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH04111189A JPH04111189A (ja) | 1992-04-13 |
JP2890753B2 true JP2890753B2 (ja) | 1999-05-17 |
Family
ID=16915499
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2230929A Expired - Lifetime JP2890753B2 (ja) | 1990-08-31 | 1990-08-31 | 特徴選択方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2890753B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5999647A (en) * | 1995-04-21 | 1999-12-07 | Matsushita Electric Industrial Co., Ltd. | Character extraction apparatus for extracting character data from a text image |
-
1990
- 1990-08-31 JP JP2230929A patent/JP2890753B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH04111189A (ja) | 1992-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dash et al. | Dimensionality reduction of unsupervised data | |
Ibrahim et al. | Cluster representation of the structural description of images for effective classification | |
US8489531B2 (en) | Identification of co-regulation patterns by unsupervised cluster analysis of gene expression data | |
Singha et al. | Hand gesture recognition using two-level speed normalization, feature selection and classifier fusion | |
CN107066555B (zh) | 面向专业领域的在线主题检测方法 | |
CN112035620B (zh) | 医疗查询系统的问答管理方法、装置、设备及存储介质 | |
CN109241741B (zh) | 一种基于图像纹理指纹的恶意代码分类方法 | |
Iloanusi | Fusion of finger types for fingerprint indexing using minutiae quadruplets | |
WO2002009026A1 (en) | System and method for identifying an object | |
CN109189892B (zh) | 一种基于文章评论的推荐方法及装置 | |
CN113344019A (zh) | 一种决策值选取初始聚类中心改进的K-means算法 | |
CN115098690B (zh) | 一种基于聚类分析的多数据文档分类方法及系统 | |
Hu et al. | Clustering matrix sequences based on the iterative dynamic time deformation procedure | |
JP2002183171A (ja) | 文書データ・クラスタリングシステム | |
Mandal et al. | Unsupervised non-redundant feature selection: a graph-theoretic approach | |
CN117235137B (zh) | 一种基于向量数据库的职业信息查询方法及装置 | |
CN113255752A (zh) | 基于特征聚类的固体材料一致性分选方法 | |
JP2890753B2 (ja) | 特徴選択方法 | |
CN111488903A (zh) | 基于特征权重的决策树特征选择方法 | |
Singh et al. | Multiclass imbalanced big data classification utilizing spark cluster | |
CN110956177A (zh) | 一种混合型验证码的识别方法及系统 | |
Liparulo et al. | Improved online fuzzy clustering based on unconstrained kernels | |
CN113688735A (zh) | 一种图像分类方法、装置及电子设备 | |
CN114169542A (zh) | 用于不完整数据分类的集成学习树构建方法 | |
Bouchrika et al. | Rapid and efficient hand gestures recognizer based on classes discriminator wavelet networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080226 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090226 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100226 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100226 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110226 Year of fee payment: 12 |
|
EXPY | Cancellation because of completion of term | ||
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110226 Year of fee payment: 12 |