JP4657511B2 - パターン認識装置、パターン認識方法およびその方法をコンピュータに実行させるプログラム - Google Patents

パターン認識装置、パターン認識方法およびその方法をコンピュータに実行させるプログラム Download PDF

Info

Publication number
JP4657511B2
JP4657511B2 JP2001212730A JP2001212730A JP4657511B2 JP 4657511 B2 JP4657511 B2 JP 4657511B2 JP 2001212730 A JP2001212730 A JP 2001212730A JP 2001212730 A JP2001212730 A JP 2001212730A JP 4657511 B2 JP4657511 B2 JP 4657511B2
Authority
JP
Japan
Prior art keywords
recognition
pattern
category
identification
pattern recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001212730A
Other languages
English (en)
Other versions
JP2003030657A (ja
Inventor
博史 亀山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Glory Ltd
Original Assignee
Glory Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Glory Ltd filed Critical Glory Ltd
Priority to JP2001212730A priority Critical patent/JP4657511B2/ja
Publication of JP2003030657A publication Critical patent/JP2003030657A/ja
Application granted granted Critical
Publication of JP4657511B2 publication Critical patent/JP4657511B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、入力パターンがどのカテゴリーに属するかを認識辞書に基づいて判定して入力パターンのパターン認識をおこなうパターン認識装置、パターン認識方法およびその方法をコンピュータに実行させるプログラムに関し、特に、k最近傍のkが3以上の場合であっても、参照パターンを記憶するためのメモリ容量を抑制しつつ、ノンパラメトリックなパターン識別をおこなう場合の認識精度を上げることができるパターン認識装置、パターン認識方法およびその方法をコンピュータに実行させるプログラムに関する。
【0002】
【従来の技術】
従来、サンプルパターンの集合から入力パターンに近いものをk個選び、それらの持つラベルに基づいて入力パターンの分類を決定するk最近傍識別と呼ばれるパターン認識技術が知られており、特に最近では、処理の高速化並びに認識精度の向上を図る従来技術が知られている。
【0003】
ところが、これらの従来技術を用いたとしても、参照パターンの記憶容量上の問題や、認識精度上の問題が依然として存在するため、本件出願人は、特願2000−347272号において、認識辞書内の参照パターンのうちカテゴリー間の識別境界から離れた参照パターンを削除するよう構成することにより、参照パターンを記憶するためのメモリ容量を抑制しつつ、ノンパラメトリックなパターン識別をおこなう場合の認識精度を上げることとしている。
【0004】
具体的には、可変カーネル密度推定に基づいた識別関数で、バンド幅σjを異カテゴリとの最近傍距離の定数倍に設定しており、k最近傍の参照パターン数をNi、パターンの次元をdとした場合に、厳密な可変カーネル密度推定法におけるカーネルの重み係数1/Ni・σj^dを省略する点に特徴がある。
【0005】
この先行技術によれば、k最近傍のkが2のときには、2個の互いにカテゴリーが異なる近傍パターンの中点を結ぶ曲面が識別境界となるので、汎化能力が高くなるという意味で良い結果が得られる。
【0006】
【発明が解決しようとする課題】
しかしながら、この先行技術によれば、kが3以上の場合に望ましい結果が得られるか否かが不明確になるという問題がある。実際に文字認識をおこなう際には、k>2で使用されることが多いため、3最近傍以上の場合であっても精度良く類似文字を判別する必要がある。
【0007】
本発明は、上記従来技術による問題点を解決するためになされたものであり、k最近傍のkが3以上の場合であっても、参照パターンを記憶するためのメモリ容量を抑制しつつ、ノンパラメトリックなパターン識別をおこなう場合の認識精度を上げることができるパターン認識装置、パターン認識方法およびその方法をコンピュータに実行させるプログラムを提供することを目的とする。
【0008】
【課題を解決するための手段】
上述した課題を解決し、目的を達成するため、請求項1の発明に係るパターン認識装置は、入力パターンがどのカテゴリーに属するかを認識辞書に基づいて判定して前記入力パターンのパターン認識をおこなうパターン認識装置において、複数の参照パターンをカテゴリーごとに区分して記憶する認識辞書と、前記認識辞書内の各参照パターンについて、所定の近傍に位置する参照パターンの全てが同一カテゴリーに属するものを削除するエディティング手段と、前記エディティング手段により参照パターンが削除された認識辞書に基づいて局所線形識別によりパターン認識をおこなう認識手段とを備えたことを特徴とする。
【0009】
また、請求項2の発明に係るパターン認識装置は、請求項1の発明において、前記認識手段は、入力パターンの原特徴ベクトルを非線形に写像した高次元空間での局所線形識別によりパターン認識をおこなうことを特徴とする。
【0010】
また、請求項3の発明に係るパターン認識装置は、請求項1または2の発明において、前記認識手段は、原識別空間におけるユークリッド距離の関係を写像先の高次元空間で維持するガウシアンカーネルを識別関数とすることを特徴とする。
【0011】
また、請求項4の発明に係るパターン認識方法は、入力パターンがどのカテゴリーに属するかを認識辞書に基づいて判定して前記入力パターンのパターン認識をおこなうパターン認識方法において、複数の参照パターンをカテゴリーごとに区分して記憶する認識辞書内の各参照パターンについて、所定の近傍に位置する参照パターンの全てが同一カテゴリーに属するものを削除するエディティング工程と、前記エディティング工程により参照パターンが削除された認識辞書に基づいて局所線形識別によりパターン認識をおこなう認識工程とを含んだことを特徴とする。
【0014】
また、請求項の発明に係るプログラムは、請求項に記載された方法をコンピュータに実行させることで、そのプログラムを機械読み取り可能となり、これによって、請求項の動作をコンピュータによって実現することができる。
【0015】
【発明の実施の形態】
以下に添付図面を参照して、この発明に係るパターン認識装置、パターン認識方法およびその方法をコンピュータに実行させるプログラムの好適な実施の形態を詳細に説明する。なお、本実施の形態では、本発明を文字認識装置に適用した場合を示すこととする。
【0016】
(文字認識装置の構成)
まず、本実施の形態に係る文字認識装置の構成について説明する。図1は、本実施の形態に係る文字認識装置の構成を示す機能ブロック図である。同図に示す文字認識装置は、辞書のエディティングをおこなうとともに、後述する局所線形識別を採用することにより、非線形なクラス境界を区分超平面で近似することを特徴とする。また、カーネルトリックと呼ばれる手法を採用することにより、非線形に写像した高次元空間(無限次元)における局所線形識別をおこなうことを特徴とする。
【0017】
同図に示すように、この文字認識装置10は、画像入力部11と、前処理部12と、特徴抽出部13と、認識処理部14と、認識辞書15と、認識辞書管理部16とからなる。
【0018】
ここで、請求の範囲の認識辞書は認識辞書15に対応し、請求項1のエディティング手段は認識辞書管理部16に対応し、認識手段は認識処理部14に対応する。
【0019】
画像入力部11は、文字の画像を光学的に読み取るスキャナなどの入力デバイスであり、この画像入力部11によって読み取られた画像データは前処理部12に出力される。
【0020】
前処理部12は、画像入力部11から受け取った画像データの前処理をおこなう処理部であり、具体的には、この画像データを平滑化処理してノイズを除去した後に、これを所定のしきい値で二値化して二値画像を取得し、この二値画像から文字を切り出した後に、これを正規化する処理部である。
【0021】
特徴抽出部13は、前処理部12が前処理をおこなった正規化された文字データから特徴量を抽出する処理部であり、具体的には、文字の画像データを5×5などにメッシュ割りし、各メッシュについての輪郭の方向を求めることになる。たとえば、輪郭の方向を8方向とすると、5×5×8=200次元の特徴空間が形成されることになる。
【0022】
認識処理部14は、手書き文字などの入力文字から抽出された特徴量をあらかじめ用意された認識辞書15内の特徴量と照合することにより、入力文字がどのカテゴリーに属するかを判定し、その判定結果に基づいてパターン認識をおこなう処理部である。
【0023】
具体的には、この認識処理部14では、カーネルトリックを採用することにより、非線形に写像した高次元空間(無限次元)における局所線形識別をおこなっている。なお、このカーネルトリックおよび局所線形識別の説明については後述する。
【0024】
認識辞書15は、認識処理部14による入力文字の認識に利用する辞書であり、具体的には、各文字ごとにカテゴリーを対応付け、該カテゴリーごとに文字の特徴量(参照データ)を記憶する。
【0025】
認識辞書管理部16は、認識辞書15の作成並びに管理をおこなう処理部であり、具体的には、この認識辞書管理部16は、識別境界から離れたパターンを削除するエディティング(editing)処理をおこなうことにより、認識辞書14の容量を低減するとともに、バンド幅を可変にして識別関数をきめ細かく設定できるようにして認識精度を高めている。
【0026】
(エディティング処理の概念)
次に、図1に示した認識辞書管理部16によるエディティング処理について具体的に説明する。図2は、2種のカテゴリーに属する2次元の参照パターンの分布の一例を示す説明図であり、図3は、図2に示す参照パターンの分布に識別境界を設けた説明図である。
【0027】
一般的に、識別手法は、(1)パラメトリックな識別手法と(2)ノンパラメトリックな識別手法に区分することができ、(1)パラメトリックな識別手法には、識別境界が超平面となる線形識別と識別境界が2次超曲面となる2次識別などがあり、(2)ノンパラメトリックな識別境界には、ボロノイ境界によりカテゴリーが分離される最近傍識別と、平滑された識別境界をもつパーゼンクラシファイアなどがある。
【0028】
図2に示すように、図中の小さな矩形で示すカテゴリーAに属する参照パターン群と、図中に大きな矩形で示すカテゴリーBに属する参照パターン群とが存在し、カテゴリーAの参照パターン群がカテゴリーBに属する参照パターン群に挟まれている場合を考えると、図3に示すような2次識別の識別境界または平滑されたノンパラメトリックな識別境界が形成される。
【0029】
このように、従来のノンパラメトリックな識別境界を用いることにより、カテゴリーの識別をおこなうことができるわけであるが、従来の識別境界をそのまま用いることとすると、認識辞書15に記憶せねばならない参照パターン数が多くなってしまう。このため、認識辞書管理部16では、エディティング処理をおこなって参照パターン数を低減している。
【0030】
次に、この認識辞書管理部16によりおこなわれるエディティング処理の概念についてパーゼンクラシファイアと比較してさらに詳細に説明する。パーゼンウインドウの確率密度関数は、d次元データをsi、データ数をN、カーネル関数をKd[・]、バンド幅をhとすると、
【数1】
Figure 0004657511
のようになる。このため、このKd[・]とhを適切に選べば、pn(x)はxの確率密度分布に収束する。
【0031】
この場合の必要条件は、
d[・]≧0
∫Kd[・]dx=1
limN→∞h=0
limN→∞Nhd=∞
となる。
【0032】
ここで、d×dの正則行列をHとして、上式をより一般形にすると、
【数2】
Figure 0004657511
となる。なお、|H|はHの行列式の絶対値を意味するものとする。
【0033】
そして、ガウスカーネルを使うと、(1)式については、
【数3】
Figure 0004657511
となる。
【0034】
また、(2)式については、
【数4】
Figure 0004657511
となる。ただし、Σは標本共分散行列とする。
【0035】
そして、直接パーゼンクラシファイアを使う場合を考えると、カテゴリーごとの確率密度の推定値である
【数5】
Figure 0004657511
が最大となるwiをもって識別結果とすることになる。
【0036】
図4は、1次元データを対象としてパーゼンクラシファイアを用いた場合の識別概念を説明するための説明図である。なお、図中に○で示すデータは、平均190、標準偏差30の正規分布N(190,302)と、平均380、標準偏差30の正規分布N(380,302)とを8対2で混合した分布をもつ人工的に発生させたデータとし、図中に□で示すデータは、平均230、標準偏差60の正規分布N(230,602)と、平均330、標準偏差10の正規分布N(330,102)とを6対4で混合した分布をもつ人工データとする。また、カテゴリーごとのデータの個数は各々10個とする。
【0037】
そして、混合分布についてバンド幅の設定値として標準偏差を混合比率で平均した値に固定する、すなわちカテゴリーAのバンド幅を、(30×8+30×2)/10=30に設定し、カテゴリーBのバンド幅を、(60×6+10×4)/10=40に設定したとき、各々10個のデータを用いて推定される密度関数は、同図(a)に示す曲線になる。
【0038】
また、分布ごとにバンド幅を固定すると、すなわちカテゴリーAのバンド幅を、(1)のデータに対して30および(2)のデータに対して30、カテゴリーBのバンド幅を、(3)のデータに対して60および(4)のデータに対して10に設定すると、同図(b)に示す曲線のようになる。ここで、あるxが与えられた場合に、該xの確率密度関数の大きなカテゴリーにxが属するものと判断されることになる。
【0039】
このように、パーゼンクラシファイアを使って識別をおこなうことができるわけであるが、かかるパーゼンクラシファイアによれば、次元の呪いと呼ばれるdの増加によって累進的に大きなNのデータが必要になるという問題や、バンド幅が固定であるという問題が生ずる。
【0040】
そこで、本実施の形態にかかる認識辞書管理部16では、(5)式の分母の項であるhi d|Σi1/2を消すとともに、バンド幅を可変にする対策を講じている。具体的には、ガウスカーネルによる密度推定に基づいて事後確率を算出するが、そのときどのカテゴリーにも共通のΣを用い、かつ、密度正規化項1/hi dを無視することにする。
【0041】
Cをカテゴリー数とすると、カテゴリーwiの事後確率は、
【数6】
Figure 0004657511
となる。
【0042】
また、ここではカテゴリー境界付近のみを残すようにエディティングした参照パターンに対して、識別関数gi(x)を
【数7】
Figure 0004657511
とする。
【0043】
また、カテゴリーiのk番目の参照パターンのバンド幅hik
【数8】
Figure 0004657511
として、異カテゴリーパターン全体との最小距離の定数倍に設定する。この際、hik d/hjk d≠1であっても、1/hjk dを無視した方が高い識別精度が得られる。
【0044】
次に、図1に示した認識辞書管理部16によるエディティング処理手順について説明する。図5は、図1に示した認識辞書管理部16によるエディティング処理手順を示すフローチャートである。
【0045】
同図に示すように、この認識辞書管理部16では、選択されるサンプルの集合B={全サンプル}とし、Bの要素xに付与されたチェック済みCFLG[x]をすべてオフ(OFF)にし、近傍探索数r=10kとセットする初期化をおこなう(ステップS501)。
【0046】
その後、近傍探索数rをk’と比較して(ステップS502)、この近傍探索数rがk以上でなければ(ステップS502否定)そのまま処理を終了し、近傍探索数rがk以上である場合には(ステップS502肯定)、集合BのCFLG[x]=OFFであるものの中から、ランダムにサンプルxを1個抽出する(ステップS503)。
【0047】
そして、xの近傍r個の全部がxのカテゴリーと同じであるか否かを確認する(ステップS504)。なお、このk’が大きいほど1つのカテゴリーに属するパターン分布の外皮を近似する回帰が識別境界から分布の内部の方向に離れ、また識別境界を平滑化する作用を強めることになる。
【0048】
その結果、xの近傍r個の全部がxのカテゴリーと同じである場合には(ステップS504肯定)、BをB−{x}に更新し、CFLGをすべてOFFに戻してカウント値countを0とした後に(ステップS505)、ステップS503に移行する。
【0049】
これに対して、xの近傍r個の一つでもxのカテゴリーと同じでない場合には(ステップS504否定)、CFLG[x]をオン(ON)にして、カウント値countをインクリメントした後に(ステップS506)、このカウント値countが集合の個数|B|以上であるか否かを調べ(ステップS507)、カウント値countが集合の個数|B|以上でない場合には(ステップS507否定)、ステップS503に移行する。
【0050】
一方、カウント値countが集合の個数|B|以上である場合には(ステップS507肯定)、r=r−Δrとし、CFLGをすべてOFFに戻し、カウント値countを0とした後に(ステップS508)、ステップS502に移行する。
【0051】
上記一連のエディティング処理をおこなうことにより、認識辞書管理部16が識別境界から離れた参照パターンを削除し、もって認識辞書の容量を低減することができる。
【0052】
図6は、認識辞書管理部16による参照パターンの削減過程を説明するための説明図である。同図(a)に示す各カテゴリーあたり200個のサンプルが存在する場合に、k’=5すなわち、どの近傍5個についても必ず互いにカテゴリーの違うパターンが含まれているという終了条件を用いてエディティング処理を適用すると、同図(b)のようになる。
【0053】
そして、k’=4すなわち、どの近傍4個についても必ず互いにカテゴリーの違うパターンが含まれているという終了条件を用いてエディティング処理を適用すると同図(c)のようになり、同様にk’=3という終了条件を用いてエディティング処理を適用すると同図(d)のようになる。
【0054】
これらの図から分かるように、このエディティング処理をおこなうと、境界付近の参照パターンが残るが、境界から離れた部分の参照パターンは削減されることになる。
【0055】
次に、認識辞書管理部16によるバンド幅変更の効果について具体的に説明する。図7は、認識辞書管理部16によるバンド幅変更の効果の一例を説明するための説明図である。
【0056】
なお、図4と同様に、図中に○で示すデータは、平均190、標準偏差30の正規分布N(190,302)と、平均380、標準偏差30の正規分布N(380,302)とを8対2で混合した分布をもつ人工的に発生させたデータとし、図中に□で示すデータは、平均230、標準偏差60の正規分布N(230,602)と、平均330、標準偏差10の正規分布N(330,102)とを6対4で混合した分布をもつ人工データとする。また、カテゴリーごとのデータの個数は各々10個とする。
【0057】
同図(a)に示すように、混合分布についてバンド幅を固定(カテゴリーA;30、カテゴリーB;40)した場合にはエラーが6個生じ、同図(b)に示すように、分布ごとにバンド幅を固定(カテゴリーA;30と30、カテゴリーB60と10)すると、エラーが5個となった。
【0058】
これに対して、同図(c)に示すように、バンド幅を異カテゴリーとの最近傍距離とした場合には、エラーが3個となり、エラー個数が低減した。さらに、同図(d)に示すようにエディティング処理をおこなうと、エラー個数が2個となった。かかる場合にエラー個数が低減する理由は、2個の相対するカテゴリーとの識別境界をきめ細かく形成できるからである。
【0059】
次に、2カテゴリーであり、かつ、k最近傍が2個と単純化した場合について説明する。なお、バンド幅は、異カテゴリーパターンとの最小距離min||si−sj||(ただし、siとsjのカテゴリは異なる)の定数倍であるものとする。
【0060】
この場合には、(6)式で示したカテゴリーw1の事後確率は、
【数9】
Figure 0004657511
となる。また、近傍パターンのペアであるs1とs2は、h1=h2=κ||si−sj||となっていると考えられる。
【0061】
このため、
【数10】
Figure 0004657511
となり、xがs1とs2の中点(s1+s2)/2のとき、図8に示すように、P(w1|m)=P(w2|m)=1/2となり、識別境界がs1とs2の中点を通ることになる。
【0062】
(認識処理の概念)
次に、図1に示した認識処理部14の処理概念について説明する。この認識処理部14は、認識対象である入力データの近傍に所在する局所的な参照パターンを用いて線形識別をおこなう局所線形識別と、後述するカーネルトリックとを採用することにより、非線形に写像した高次元空間(無限次元)における局所線形識別をおこなっている。
【0063】
図9は、この認識処理部14がおこなう局所線形識別を説明するための説明図である。ここでは、カテゴリーAに属する参照パターンを小さな円で図示し、カテゴリーBに属する参照パターンを小さな四角で図示している。
【0064】
同図に示すように、認識対象となる入力データxが入力された場合には、この入力データxを中心とする半径rの円を局所領域と考え、各カテゴリーごとの局所平均mAおよびmBを求める。そして、この局所平均を垂直に2等分する分離超平面を考え、入力データxがこの分離超平面のどちらに所在するかによって識別をおこなう。
【0065】
具体的には、この入力データxの判定に際しては、
【数11】
Figure 0004657511
というf(x)を求め、もしf(x)>0であれば、入力データxがカテゴリーAに属するものと判定することになる。
【0066】
次に、サポートベクターマシンおよびカーネルトリックについて説明する。このサポートベクターマシンとは、「津田宏治,“サポートベクターマシンとは何か”,電子情報通信学会誌,2000年6月,pp460−466」に記載されるように、ある非線形変換によって特徴ベクトルを高次元空間に写像した後に、2つのカテゴリー(クラス)を分離する超平面を線形2次計画法により求める手法である。求める超平面は、線形分離を実現するもののうち、超平面と訓練パターンの距離の最小値であるマージンの量を最大にするものであり、汎化能力の点で優れたものである。このサポートベクターマシンにおいて、高次元空間に写像する目的は、訓練パターン数が増加したときにも線形分離を容易にすることであるが、写像後の高次元空間における識別関数の内積計算を、特徴ベクトルの写像を計算せずに直接カーネル関数によって置き換えることによって、計算量を小さくするテクニックが使われている。これがカーネルトリックと呼ばれている。
【0067】
図10は、カーネルトリックの概念を説明するための説明図である。同図に示すように、カテゴリーAとカテゴリーBの識別境界が複雑である場合には、本来カテゴリーAに属するデータaとカテゴリーBに属するデータbを識別境界L1で区分できないため、入力データが2つのカテゴリーのどちらに属するかを判断できない。
【0068】
しかしながら、次元数を増やすと、2つのカテゴリーを直線で分離しやすくなる。たとえば、同図に示す識別境界L1ではカテゴリーを分離することができないが、高次元にした識別境界L2を用いると、データaとデータbを区分することができる。このように、かかるカーネルトリックでは、特徴ベクトルを高次元空間に写像した後に、2つのカテゴリーを分離する超平面を求めることになる。
【0069】
ところで、このサポートベクターマシンには、サポートベクターの個数分だけカーネルの演算が必要なために識別処理に時間を要するという問題があるが、本発明ではすでに説明したようにエディティングをおこなっているので、このカーネルトリックを用いたとしても、近傍パターンに対してのみガウスカーネルの計算をおこなえば足りるので、迅速に識別処理をおこなうことができる。
【0070】
次に、この認識処理部14がおこなうカーネルトリックを利用した局所線形識別についてさらに具体的に説明する。図11は、カーネルトリックを利用した局所線形識別の概念を説明するための説明図である。
【0071】
図11(a)に示すように、原特徴空間での局所線形識別をおこなうこととすると、カテゴリーの境界が非常に入り組んでいる場合に、線形分離が不可能になってしまう。たとえば、同図に示す場合には、真のカテゴリー境界が波のようにうねっているにも係わらず、局所的な識別境界が直線であるため、妥当な結果が得られない。
【0072】
これに対して、図11(b)に示すように、カーネルトリックを利用して原特徴ベクトルを非線形に写像した高次元空間での局所線形識別をおこなうと、直線L3とL4の間がカテゴリーの分離帯となるため、局所的な線形識別によって線形分離が可能となる。
【0073】
次に、d次元の原特徴空間Rdにおける局所線形識別関数について具体的に説明する。ただし、ここでは2カテゴリー1,2の共分散行列Σ1,Σ2が等しく、かつ、単位行列の定数倍であるとする。
【0074】
この場合の局所線形識別関数f12(x)は、
【数12】
Figure 0004657511
となり、f12(x)>0であれば、入力データxをカテゴリー1に属すると識別する。
【0075】
ただし、局所平均m1,m2は、それぞれカテゴリー1および2に属する近傍パターンの平均であり、x1i(i=1,…,n1)、x2i(i=1,…,n2)は、それぞれカテゴリー1および2に属する近傍パターンであり、
【数13】
Figure 0004657511
を満たす。なお、dkはk最近傍距離である。
【0076】
また、原特徴空間での最近傍パターンが、写像先の高次元空間においても同一となる写像を選ぶことにより、Rdφにおける識別関数f12(φ(x))は、
【数14】
Figure 0004657511
となる。
【0077】
この識別関数は、Rdφにおいて内積の線形和によって表されているので、カーネルトリックの手法を適用できる。つまり、高次元への写像の計算φ(x)を実際におこなわなくても実数値関数の計算だけで済ますことができる。
【0078】
すなわち、K(x,y)=φ(x)tφ(y)の関係を持つカーネル関数によって、識別関数f12(φ(x))は、
【数15】
Figure 0004657511
となる。
【0079】
ガウシアンカーネルと呼ばれる関数
【数16】
Figure 0004657511
に対応するφは、原空間におけるユークリッド距離の関係を、写像先の空間においても保持する
【0080】
つまり、
【数17】
Figure 0004657511
が成立する。したがって原特徴空間におけるk最近傍パターンは、写像先の空間においてもk最近傍パターンとなっている。なお、ガウシアンカーネルに対応するφは、無限次元の空間に写像することになる。
【0081】
また、ここではその詳細な説明を省略するが、d次元の原特徴空間Rdにおける局所線形識別関数(Σ1≠Σ2のとき)は、
【数18】
Figure 0004657511
を用いた図12に示すフィッシャー(Fisher)の方法を用いることもできる。ただし、ΣTは、カテゴリー1および2の全共分散行列である。
【0082】
次に、図1に示した認識処理部14の処理手順について説明する。図13は、図1に示した認識処理部14の処理手順を示すフローチャートである。同図に示すように、この認識処理部14は、入力データである特徴ベクトルxを入力すると(ステップS1301)、N個の参照パターンからk個の最近傍パターンを探し(ステップS1302)、k個の最近傍パターンが全て同一のカテゴリーC0に属するか否かを確認する(ステップS1303)。
【0083】
その結果、全て同じカテゴリーC0に属する場合には(ステップS1304肯定)、カテゴリーC0に属するものと認識する(ステップS1310)。これに対して、全て同じカテゴリーC0に属するわけではない場合には(ステップS1304否定)、上位2つのカテゴリーC1とC2を選択し(ステップS1305)、すでに説明したカーネルトリックを用いた局所識別関数を適用する(ステップS1306)。
【0084】
そして、この識別関数の値が0よりも大きい場合には(ステップS1307肯定)、カテゴリーC1であると認識し(ステップS1308)、識別関数の値が0よりも大きくない場合には(ステップS1307否定)、カテゴリーC2であると認識する(ステップS1309)。
【0085】
上述してきたように、本実施の形態によれば、認識辞書管理部16により識別境界から離れたパターンを削除する認識辞書15のエディティング処理をおこなうとともに、認識処理部14によりカーネルトリックを用いた局所線型識別をおこなうよう構成したので、k最近傍のkが3以上の場合であっても、参照パターンを記憶するためのメモリ容量を抑制しつつ、ノンパラメトリックなパターン識別をおこなう場合の認識精度を上げることができる。
【0086】
なお、本実施の形態では、本発明を文字認識装置に適用した場合を示したが、本発明はこれに限定されるものではなく、パターンの認識をおこなう各種パターン認識装置に適用することができる。ただし、英文字、数字、カタカナなどカテゴリー数が少ないものについて特に有効である。また、カテゴリー数の多い漢字については、特定の類似するカテゴリー間の詳細判別処理を実現する手段として有効である。
【0087】
【発明の効果】
以上説明したように、請求項1の発明によれば、複数の参照パターンをカテゴリーごとに区分して記憶する認識辞書内の各参照パターンについて、所定の近傍に位置する参照パターンの全てが同一カテゴリーに属するものを削除し、参照パターンが削除された認識辞書に基づいて局所線形識別によりパターン認識をおこなうよう構成したので、k最近傍のkが3以上の場合であっても、参照パターンを記憶するためのメモリ容量を抑制しつつ、ノンパラメトリックなパターン識別をおこなう場合の認識精度を上げることが可能なパターン認識装置が得られるという効果を奏する。
【0088】
また、請求項2の発明によれば、入力パターンの原特徴ベクトルを非線形に写像した高次元空間での局所線形識別によりパターン認識をおこなうよう構成したので、識別境界が入り組んでいる場合であっても精度良く認識することが可能なパターン認識装置が得られるという効果を奏する。
【0089】
また、請求項3の発明によれば、原識別空間におけるユークリッド距離の関係を写像先の高次元空間で維持するガウシアンカーネルを識別関数とするよう構成したので、写像の前後で近傍に所在する参照パターンを変えずに効率良く認識することが可能なパターン認識装置が得られるという効果を奏する。
【0090】
また、請求項4の発明によれば、複数の参照パターンをカテゴリーごとに区分して記憶する認識辞書内の各参照パターンについて、所定の近傍に位置する参照パターンの全てが同一カテゴリーに属するものを削除し、参照パターンが削除された認識辞書に基づいて局所線形識別によりパターン認識をおこなうよう構成したので、k最近傍のkが3以上の場合であっても、参照パターンを記憶するためのメモリ容量を抑制しつつ、ノンパラメトリックなパターン識別をおこなう場合の認識精度を上げることが可能なパターン認識方法が得られるという効果を奏する。
【0093】
また、請求項の発明によれば、請求項に記載された方法をコンピュータに実行させることで、そのプログラムを機械読み取り可能となり、これによって、請求項の動作をコンピュータによって実現することができる。
【図面の簡単な説明】
【図1】この発明の実施の形態に係る文字認識装置の構成を示す機能ブロック図である。
【図2】2種のカテゴリーに属する参照パターンの分布の一例を示す説明図である。
【図3】図2に示す参照パターンの分布に識別境界の一例を設けた説明図である。
【図4】パーゼンクラシファイアを用いた場合の識別概念を説明するための説明図である。
【図5】図1に示した認識辞書管理部によるエディティング処理手順を示すフローチャートである。
【図6】図1に示した認識辞書管理部による参照パターンの削減過程を説明するための説明図である。
【図7】図1に示した認識辞書管理部によるバンド幅変更の効果の一例を説明するための説明図である。
【図8】2カテゴリ、かつ、k最近傍が2個と単純化した場合を説明するための説明図である。
【図9】図1に示した認識処理部がおこなう局所線形識別を説明するための説明図である。
【図10】カーネルトリックの概念を説明するための説明図である。
【図11】カーネルトリックを利用した局所線形識別の概念を説明するための説明図である。
【図12】フィッシャー(Fisher)の方法を説明するための説明図である。
【図13】図1に示した認識処理部の処理手順を示すフローチャートである。
【符号の説明】
10 文字認識装置
11 画像入力部
12 前処理部
13 特徴抽出部
14 認識処理部
15 認識辞書
16 認識辞書管理部
A,B カテゴリー

Claims (5)

  1. 入力パターンがどのカテゴリーに属するかを認識辞書に基づいて判定して前記入力パターンのパターン認識をおこなうパターン認識装置において、
    複数の参照パターンをカテゴリーごとに区分して記憶する認識辞書と、
    前記認識辞書内の各参照パターンについて、所定の近傍に位置する参照パターンの全てが同一カテゴリーに属するものを削除するエディティング手段と、
    前記エディティング手段により参照パターンが削除された認識辞書に基づいて局所線形識別によりパターン認識をおこなう認識手段と
    を備えたことを特徴とするパターン認識装置。
  2. 前記認識手段は、入力パターンの原特徴ベクトルを非線形に写像した高次元空間での局所線形識別によりパターン認識をおこなうことを特徴とする請求項1に記載のパターン認識装置。
  3. 前記認識手段は、原識別空間におけるユークリッド距離の関係を写像先の高次元空間で維持するガウシアンカーネルを識別関数とすることを特徴とする請求項1または2に記載のパターン認識装置。
  4. 入力パターンがどのカテゴリーに属するかを認識辞書に基づいて判定して前記入力パターンのパターン認識をおこなうパターン認識方法において、
    複数の参照パターンをカテゴリーごとに区分して記憶する認識辞書内の各参照パターンについて、所定の近傍に位置する参照パターンの全てが同一カテゴリーに属するものを削除するエディティング工程と、
    前記エディティング工程により参照パターンが削除された認識辞書に基づいて局所線形識別によりパターン認識をおこなう認識工程と
    を含んだことを特徴とするパターン認識方法。
  5. 前記請求項に記載された方法をコンピュータに実行させることを特徴とするコンピュータ読み取り可能なプログラム。
JP2001212730A 2001-07-12 2001-07-12 パターン認識装置、パターン認識方法およびその方法をコンピュータに実行させるプログラム Expired - Fee Related JP4657511B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001212730A JP4657511B2 (ja) 2001-07-12 2001-07-12 パターン認識装置、パターン認識方法およびその方法をコンピュータに実行させるプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001212730A JP4657511B2 (ja) 2001-07-12 2001-07-12 パターン認識装置、パターン認識方法およびその方法をコンピュータに実行させるプログラム

Publications (2)

Publication Number Publication Date
JP2003030657A JP2003030657A (ja) 2003-01-31
JP4657511B2 true JP4657511B2 (ja) 2011-03-23

Family

ID=19047841

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001212730A Expired - Fee Related JP4657511B2 (ja) 2001-07-12 2001-07-12 パターン認識装置、パターン認識方法およびその方法をコンピュータに実行させるプログラム

Country Status (1)

Country Link
JP (1) JP4657511B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4358229B2 (ja) 2004-07-09 2009-11-04 日本電信電話株式会社 信号検出システム、信号検出サーバ、信号検出方法及びプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002150286A (ja) * 2000-11-14 2002-05-24 Glory Ltd パターン認識装置、パターン認識方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002150286A (ja) * 2000-11-14 2002-05-24 Glory Ltd パターン認識装置、パターン認識方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Also Published As

Publication number Publication date
JP2003030657A (ja) 2003-01-31

Similar Documents

Publication Publication Date Title
Ren et al. Noise-resistant local binary pattern with an embedded error-correction mechanism
Arca et al. A face recognition system based on automatically determined facial fiducial points
US8638993B2 (en) Segmenting human hairs and faces
US20030053685A1 (en) Face detection in colour images with complex background
JP2004206656A (ja) 検出装置および検出方法
Banerjee et al. ARTeM: A new system for human authentication using finger vein images
CN107045621A (zh) 基于lbp与lda的人脸表情识别方法
US11315358B1 (en) Method and system for detection of altered fingerprints
Leo et al. SVM based expression-invariant 3D face recognition system
Wan et al. Learning metric features for writer-independent signature verification using dual triplet loss
Mata-Montero et al. A texture and curvature bimodal leaf recognition model for identification of costa rican plant species
JP4657511B2 (ja) パターン認識装置、パターン認識方法およびその方法をコンピュータに実行させるプログラム
JP6101470B2 (ja) 顔表情解析装置および顔表情解析プログラム
JP3977007B2 (ja) パターン認識装置、パターン認識方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
Lee et al. Robust sclera recognition based on a local spherical structure
Aggarwal et al. Face Recognition System Using Image Enhancement with PCA and LDA
Tselios et al. Fusion of directional transitional features for off-line signature verification
Alobaidi et al. Face detection based on probability of amplitude distribution of local binary patterns algorithm
Couto et al. Texture characterization via improved deterministic walks on image-generated complex network
US20220058409A1 (en) Methods and systems for authenticating a user
George Automatic recognition of facial expression using features of salient patches with SVM and ANN classifier
Chatterjee et al. Feature Extraction and Segmentation Techniques in a Static Hand Gesture Recognition System
Modak et al. A novel multimodal biometric authentication framework using rule-based ANFIS based on hybrid level fusion
Choras et al. A survey on methods of image processing and recognition for personal identification
Neuhaus et al. Novel kernels for error-tolerant graph classification.

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20051213

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080529

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100909

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100914

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101221

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101222

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140107

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140107

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees