JP4657511B2

JP4657511B2 - パターン認識装置、パターン認識方法およびその方法をコンピュータに実行させるプログラム

Info

Publication number: JP4657511B2
Application number: JP2001212730A
Authority: JP
Inventors: 博史亀山
Original assignee: Glory Ltd
Current assignee: Glory Ltd
Priority date: 2001-07-12
Filing date: 2001-07-12
Publication date: 2011-03-23
Anticipated expiration: 2021-07-12
Also published as: JP2003030657A

Description

【０００１】
【発明の属する技術分野】
この発明は、入力パターンがどのカテゴリーに属するかを認識辞書に基づいて判定して入力パターンのパターン認識をおこなうパターン認識装置、パターン認識方法およびその方法をコンピュータに実行させるプログラムに関し、特に、ｋ最近傍のｋが３以上の場合であっても、参照パターンを記憶するためのメモリ容量を抑制しつつ、ノンパラメトリックなパターン識別をおこなう場合の認識精度を上げることができるパターン認識装置、パターン認識方法およびその方法をコンピュータに実行させるプログラムに関する。
【０００２】
【従来の技術】
従来、サンプルパターンの集合から入力パターンに近いものをｋ個選び、それらの持つラベルに基づいて入力パターンの分類を決定するｋ最近傍識別と呼ばれるパターン認識技術が知られており、特に最近では、処理の高速化並びに認識精度の向上を図る従来技術が知られている。
【０００３】
ところが、これらの従来技術を用いたとしても、参照パターンの記憶容量上の問題や、認識精度上の問題が依然として存在するため、本件出願人は、特願２０００−３４７２７２号において、認識辞書内の参照パターンのうちカテゴリー間の識別境界から離れた参照パターンを削除するよう構成することにより、参照パターンを記憶するためのメモリ容量を抑制しつつ、ノンパラメトリックなパターン識別をおこなう場合の認識精度を上げることとしている。
【０００４】
具体的には、可変カーネル密度推定に基づいた識別関数で、バンド幅σjを異カテゴリとの最近傍距離の定数倍に設定しており、ｋ最近傍の参照パターン数をＮｉ、パターンの次元をｄとした場合に、厳密な可変カーネル密度推定法におけるカーネルの重み係数１／Ｎｉ・σj^ｄを省略する点に特徴がある。
【０００５】
この先行技術によれば、ｋ最近傍のｋが２のときには、２個の互いにカテゴリーが異なる近傍パターンの中点を結ぶ曲面が識別境界となるので、汎化能力が高くなるという意味で良い結果が得られる。
【０００６】
【発明が解決しようとする課題】
しかしながら、この先行技術によれば、ｋが３以上の場合に望ましい結果が得られるか否かが不明確になるという問題がある。実際に文字認識をおこなう際には、ｋ＞２で使用されることが多いため、３最近傍以上の場合であっても精度良く類似文字を判別する必要がある。
【０００７】
本発明は、上記従来技術による問題点を解決するためになされたものであり、ｋ最近傍のｋが３以上の場合であっても、参照パターンを記憶するためのメモリ容量を抑制しつつ、ノンパラメトリックなパターン識別をおこなう場合の認識精度を上げることができるパターン認識装置、パターン認識方法およびその方法をコンピュータに実行させるプログラムを提供することを目的とする。
【０００８】
【課題を解決するための手段】
上述した課題を解決し、目的を達成するため、請求項１の発明に係るパターン認識装置は、入力パターンがどのカテゴリーに属するかを認識辞書に基づいて判定して前記入力パターンのパターン認識をおこなうパターン認識装置において、複数の参照パターンをカテゴリーごとに区分して記憶する認識辞書と、前記認識辞書内の各参照パターンについて、所定の近傍に位置する参照パターンの全てが同一カテゴリーに属するものを削除するエディティング手段と、前記エディティング手段により参照パターンが削除された認識辞書に基づいて局所線形識別によりパターン認識をおこなう認識手段とを備えたことを特徴とする。
【０００９】
また、請求項２の発明に係るパターン認識装置は、請求項１の発明において、前記認識手段は、入力パターンの原特徴ベクトルを非線形に写像した高次元空間での局所線形識別によりパターン認識をおこなうことを特徴とする。
【００１０】
また、請求項３の発明に係るパターン認識装置は、請求項１または２の発明において、前記認識手段は、原識別空間におけるユークリッド距離の関係を写像先の高次元空間で維持するガウシアンカーネルを識別関数とすることを特徴とする。
【００１１】
また、請求項４の発明に係るパターン認識方法は、入力パターンがどのカテゴリーに属するかを認識辞書に基づいて判定して前記入力パターンのパターン認識をおこなうパターン認識方法において、複数の参照パターンをカテゴリーごとに区分して記憶する認識辞書内の各参照パターンについて、所定の近傍に位置する参照パターンの全てが同一カテゴリーに属するものを削除するエディティング工程と、前記エディティング工程により参照パターンが削除された認識辞書に基づいて局所線形識別によりパターン認識をおこなう認識工程とを含んだことを特徴とする。
【００１４】
また、請求項５の発明に係るプログラムは、請求項４に記載された方法をコンピュータに実行させることで、そのプログラムを機械読み取り可能となり、これによって、請求項４の動作をコンピュータによって実現することができる。
【００１５】
【発明の実施の形態】
以下に添付図面を参照して、この発明に係るパターン認識装置、パターン認識方法およびその方法をコンピュータに実行させるプログラムの好適な実施の形態を詳細に説明する。なお、本実施の形態では、本発明を文字認識装置に適用した場合を示すこととする。
【００１６】
（文字認識装置の構成）
まず、本実施の形態に係る文字認識装置の構成について説明する。図１は、本実施の形態に係る文字認識装置の構成を示す機能ブロック図である。同図に示す文字認識装置は、辞書のエディティングをおこなうとともに、後述する局所線形識別を採用することにより、非線形なクラス境界を区分超平面で近似することを特徴とする。また、カーネルトリックと呼ばれる手法を採用することにより、非線形に写像した高次元空間（無限次元）における局所線形識別をおこなうことを特徴とする。
【００１７】
同図に示すように、この文字認識装置１０は、画像入力部１１と、前処理部１２と、特徴抽出部１３と、認識処理部１４と、認識辞書１５と、認識辞書管理部１６とからなる。
【００１８】
ここで、請求の範囲の認識辞書は認識辞書１５に対応し、請求項１のエディティング手段は認識辞書管理部１６に対応し、認識手段は認識処理部１４に対応する。
【００１９】
画像入力部１１は、文字の画像を光学的に読み取るスキャナなどの入力デバイスであり、この画像入力部１１によって読み取られた画像データは前処理部１２に出力される。
【００２０】
前処理部１２は、画像入力部１１から受け取った画像データの前処理をおこなう処理部であり、具体的には、この画像データを平滑化処理してノイズを除去した後に、これを所定のしきい値で二値化して二値画像を取得し、この二値画像から文字を切り出した後に、これを正規化する処理部である。
【００２１】
特徴抽出部１３は、前処理部１２が前処理をおこなった正規化された文字データから特徴量を抽出する処理部であり、具体的には、文字の画像データを５×５などにメッシュ割りし、各メッシュについての輪郭の方向を求めることになる。たとえば、輪郭の方向を８方向とすると、５×５×８＝２００次元の特徴空間が形成されることになる。
【００２２】
認識処理部１４は、手書き文字などの入力文字から抽出された特徴量をあらかじめ用意された認識辞書１５内の特徴量と照合することにより、入力文字がどのカテゴリーに属するかを判定し、その判定結果に基づいてパターン認識をおこなう処理部である。
【００２３】
具体的には、この認識処理部１４では、カーネルトリックを採用することにより、非線形に写像した高次元空間（無限次元）における局所線形識別をおこなっている。なお、このカーネルトリックおよび局所線形識別の説明については後述する。
【００２４】
認識辞書１５は、認識処理部１４による入力文字の認識に利用する辞書であり、具体的には、各文字ごとにカテゴリーを対応付け、該カテゴリーごとに文字の特徴量（参照データ）を記憶する。
【００２５】
認識辞書管理部１６は、認識辞書１５の作成並びに管理をおこなう処理部であり、具体的には、この認識辞書管理部１６は、識別境界から離れたパターンを削除するエディティング（editing）処理をおこなうことにより、認識辞書１４の容量を低減するとともに、バンド幅を可変にして識別関数をきめ細かく設定できるようにして認識精度を高めている。
【００２６】
（エディティング処理の概念）
次に、図１に示した認識辞書管理部１６によるエディティング処理について具体的に説明する。図２は、２種のカテゴリーに属する２次元の参照パターンの分布の一例を示す説明図であり、図３は、図２に示す参照パターンの分布に識別境界を設けた説明図である。
【００２７】
一般的に、識別手法は、（１）パラメトリックな識別手法と（２）ノンパラメトリックな識別手法に区分することができ、（１）パラメトリックな識別手法には、識別境界が超平面となる線形識別と識別境界が２次超曲面となる２次識別などがあり、（２）ノンパラメトリックな識別境界には、ボロノイ境界によりカテゴリーが分離される最近傍識別と、平滑された識別境界をもつパーゼンクラシファイアなどがある。
【００２８】
図２に示すように、図中の小さな矩形で示すカテゴリーＡに属する参照パターン群と、図中に大きな矩形で示すカテゴリーＢに属する参照パターン群とが存在し、カテゴリーＡの参照パターン群がカテゴリーＢに属する参照パターン群に挟まれている場合を考えると、図３に示すような２次識別の識別境界または平滑されたノンパラメトリックな識別境界が形成される。
【００２９】
このように、従来のノンパラメトリックな識別境界を用いることにより、カテゴリーの識別をおこなうことができるわけであるが、従来の識別境界をそのまま用いることとすると、認識辞書１５に記憶せねばならない参照パターン数が多くなってしまう。このため、認識辞書管理部１６では、エディティング処理をおこなって参照パターン数を低減している。
【００３０】
次に、この認識辞書管理部１６によりおこなわれるエディティング処理の概念についてパーゼンクラシファイアと比較してさらに詳細に説明する。パーゼンウインドウの確率密度関数は、ｄ次元データをｓ_i、データ数をＮ、カーネル関数をＫ_d［・］、バンド幅をｈとすると、
【数１】

のようになる。このため、このＫ_d［・］とｈを適切に選べば、ｐ_n（ｘ）はｘの確率密度分布に収束する。
【００３１】
この場合の必要条件は、
Ｋ_d［・］≧０
∫Ｋ_d［・］ｄｘ＝１
lim_N→∞ｈ＝０
lim_N→∞Ｎｈ^d＝∞
となる。
【００３２】
ここで、ｄ×ｄの正則行列をＨとして、上式をより一般形にすると、
【数２】

となる。なお、｜H｜はHの行列式の絶対値を意味するものとする。
【００３３】
そして、ガウスカーネルを使うと、（１）式については、
【数３】

となる。
【００３４】
また、（２）式については、
【数４】

となる。ただし、Σは標本共分散行列とする。
【００３５】
そして、直接パーゼンクラシファイアを使う場合を考えると、カテゴリーごとの確率密度の推定値である
【数５】

が最大となるｗ_iをもって識別結果とすることになる。
【００３６】
図４は、１次元データを対象としてパーゼンクラシファイアを用いた場合の識別概念を説明するための説明図である。なお、図中に○で示すデータは、平均１９０、標準偏差３０の正規分布Ｎ（１９０，３０²）と、平均３８０、標準偏差３０の正規分布Ｎ（３８０，３０²）とを８対２で混合した分布をもつ人工的に発生させたデータとし、図中に□で示すデータは、平均２３０、標準偏差６０の正規分布Ｎ（２３０，６０²）と、平均３３０、標準偏差１０の正規分布Ｎ（３３０，１０²）とを６対４で混合した分布をもつ人工データとする。また、カテゴリーごとのデータの個数は各々１０個とする。
【００３７】
そして、混合分布についてバンド幅の設定値として標準偏差を混合比率で平均した値に固定する、すなわちカテゴリーＡのバンド幅を、（３０×８＋３０×２）／１０＝３０に設定し、カテゴリーＢのバンド幅を、（６０×６＋１０×４）／１０＝４０に設定したとき、各々１０個のデータを用いて推定される密度関数は、同図（ａ）に示す曲線になる。
【００３８】
また、分布ごとにバンド幅を固定すると、すなわちカテゴリーＡのバンド幅を、（１）のデータに対して３０および（２）のデータに対して３０、カテゴリーＢのバンド幅を、（３）のデータに対して６０および（４）のデータに対して１０に設定すると、同図（ｂ）に示す曲線のようになる。ここで、あるｘが与えられた場合に、該ｘの確率密度関数の大きなカテゴリーにｘが属するものと判断されることになる。
【００３９】
このように、パーゼンクラシファイアを使って識別をおこなうことができるわけであるが、かかるパーゼンクラシファイアによれば、次元の呪いと呼ばれるｄの増加によって累進的に大きなＮのデータが必要になるという問題や、バンド幅が固定であるという問題が生ずる。
【００４０】
そこで、本実施の形態にかかる認識辞書管理部１６では、（５）式の分母の項であるｈ_i ^d｜Σ_i｜^1/2を消すとともに、バンド幅を可変にする対策を講じている。具体的には、ガウスカーネルによる密度推定に基づいて事後確率を算出するが、そのときどのカテゴリーにも共通のΣを用い、かつ、密度正規化項１／ｈ_i ^dを無視することにする。
【００４１】
Ｃをカテゴリー数とすると、カテゴリーｗ_iの事後確率は、
【数６】

となる。
【００４２】
また、ここではカテゴリー境界付近のみを残すようにエディティングした参照パターンに対して、識別関数ｇ_i（ｘ）を
【数７】

とする。
【００４３】
また、カテゴリーｉのｋ番目の参照パターンのバンド幅ｈ_ikを
【数８】

として、異カテゴリーパターン全体との最小距離の定数倍に設定する。この際、ｈ_ik ^d／ｈ_jk ^d≠１であっても、１／ｈ_jk ^dを無視した方が高い識別精度が得られる。
【００４４】
次に、図１に示した認識辞書管理部１６によるエディティング処理手順について説明する。図５は、図１に示した認識辞書管理部１６によるエディティング処理手順を示すフローチャートである。
【００４５】
同図に示すように、この認識辞書管理部１６では、選択されるサンプルの集合Ｂ＝｛全サンプル｝とし、Ｂの要素ｘに付与されたチェック済みＣＦＬＧ［ｘ］をすべてオフ（ＯＦＦ）にし、近傍探索数ｒ＝１０ｋとセットする初期化をおこなう（ステップＳ５０１）。
【００４６】
その後、近傍探索数ｒをｋ’と比較して（ステップＳ５０２）、この近傍探索数ｒがｋ以上でなければ（ステップＳ５０２否定）そのまま処理を終了し、近傍探索数ｒがｋ以上である場合には（ステップＳ５０２肯定）、集合ＢのＣＦＬＧ［ｘ］＝ＯＦＦであるものの中から、ランダムにサンプルｘを１個抽出する（ステップＳ５０３）。
【００４７】
そして、ｘの近傍ｒ個の全部がｘのカテゴリーと同じであるか否かを確認する（ステップＳ５０４）。なお、このｋ’が大きいほど１つのカテゴリーに属するパターン分布の外皮を近似する回帰が識別境界から分布の内部の方向に離れ、また識別境界を平滑化する作用を強めることになる。
【００４８】
その結果、ｘの近傍ｒ個の全部がｘのカテゴリーと同じである場合には（ステップＳ５０４肯定）、ＢをＢ−｛ｘ｝に更新し、ＣＦＬＧをすべてＯＦＦに戻してカウント値countを０とした後に（ステップＳ５０５）、ステップＳ５０３に移行する。
【００４９】
これに対して、ｘの近傍ｒ個の一つでもｘのカテゴリーと同じでない場合には（ステップＳ５０４否定）、ＣＦＬＧ［ｘ］をオン（ＯＮ）にして、カウント値countをインクリメントした後に（ステップＳ５０６）、このカウント値countが集合の個数｜Ｂ｜以上であるか否かを調べ（ステップＳ５０７）、カウント値countが集合の個数｜Ｂ｜以上でない場合には（ステップＳ５０７否定）、ステップＳ５０３に移行する。
【００５０】
一方、カウント値countが集合の個数｜Ｂ｜以上である場合には（ステップＳ５０７肯定）、ｒ＝ｒ−Δｒとし、ＣＦＬＧをすべてＯＦＦに戻し、カウント値countを０とした後に（ステップＳ５０８）、ステップＳ５０２に移行する。
【００５１】
上記一連のエディティング処理をおこなうことにより、認識辞書管理部１６が識別境界から離れた参照パターンを削除し、もって認識辞書の容量を低減することができる。
【００５２】
図６は、認識辞書管理部１６による参照パターンの削減過程を説明するための説明図である。同図（ａ）に示す各カテゴリーあたり２００個のサンプルが存在する場合に、ｋ’＝５すなわち、どの近傍５個についても必ず互いにカテゴリーの違うパターンが含まれているという終了条件を用いてエディティング処理を適用すると、同図（ｂ）のようになる。
【００５３】
そして、ｋ’＝４すなわち、どの近傍４個についても必ず互いにカテゴリーの違うパターンが含まれているという終了条件を用いてエディティング処理を適用すると同図（ｃ）のようになり、同様にｋ’＝３という終了条件を用いてエディティング処理を適用すると同図（ｄ）のようになる。
【００５４】
これらの図から分かるように、このエディティング処理をおこなうと、境界付近の参照パターンが残るが、境界から離れた部分の参照パターンは削減されることになる。
【００５５】
次に、認識辞書管理部１６によるバンド幅変更の効果について具体的に説明する。図７は、認識辞書管理部１６によるバンド幅変更の効果の一例を説明するための説明図である。
【００５６】
なお、図４と同様に、図中に○で示すデータは、平均１９０、標準偏差３０の正規分布Ｎ（１９０，３０²）と、平均３８０、標準偏差３０の正規分布Ｎ（３８０，３０²）とを８対２で混合した分布をもつ人工的に発生させたデータとし、図中に□で示すデータは、平均２３０、標準偏差６０の正規分布Ｎ（２３０，６０²）と、平均３３０、標準偏差１０の正規分布Ｎ（３３０，１０²）とを６対４で混合した分布をもつ人工データとする。また、カテゴリーごとのデータの個数は各々１０個とする。
【００５７】
同図（ａ）に示すように、混合分布についてバンド幅を固定（カテゴリーＡ；３０、カテゴリーＢ；４０）した場合にはエラーが６個生じ、同図（ｂ）に示すように、分布ごとにバンド幅を固定（カテゴリーＡ；３０と３０、カテゴリーＢ６０と１０）すると、エラーが５個となった。
【００５８】
これに対して、同図（ｃ）に示すように、バンド幅を異カテゴリーとの最近傍距離とした場合には、エラーが３個となり、エラー個数が低減した。さらに、同図（ｄ）に示すようにエディティング処理をおこなうと、エラー個数が２個となった。かかる場合にエラー個数が低減する理由は、２個の相対するカテゴリーとの識別境界をきめ細かく形成できるからである。
【００５９】
次に、２カテゴリーであり、かつ、ｋ最近傍が２個と単純化した場合について説明する。なお、バンド幅は、異カテゴリーパターンとの最小距離ｍｉｎ||ｓ_i−ｓ_j||（ただし、ｓ_iとｓ_jのカテゴリは異なる）の定数倍であるものとする。
【００６０】
この場合には、（６）式で示したカテゴリーｗ₁の事後確率は、
【数９】

となる。また、近傍パターンのペアであるｓ₁とｓ₂は、ｈ₁＝ｈ₂＝κ||ｓ_i−ｓ_j||となっていると考えられる。
【００６１】
このため、
【数１０】

となり、ｘがｓ₁とｓ₂の中点（ｓ₁＋ｓ₂）／２のとき、図８に示すように、Ｐ（ｗ₁｜ｍ）＝Ｐ（ｗ₂｜ｍ）＝１／２となり、識別境界がｓ₁とｓ₂の中点を通ることになる。
【００６２】
（認識処理の概念）
次に、図１に示した認識処理部１４の処理概念について説明する。この認識処理部１４は、認識対象である入力データの近傍に所在する局所的な参照パターンを用いて線形識別をおこなう局所線形識別と、後述するカーネルトリックとを採用することにより、非線形に写像した高次元空間（無限次元）における局所線形識別をおこなっている。
【００６３】
図９は、この認識処理部１４がおこなう局所線形識別を説明するための説明図である。ここでは、カテゴリーＡに属する参照パターンを小さな円で図示し、カテゴリーＢに属する参照パターンを小さな四角で図示している。
【００６４】
同図に示すように、認識対象となる入力データｘが入力された場合には、この入力データｘを中心とする半径ｒの円を局所領域と考え、各カテゴリーごとの局所平均ｍ_Aおよびｍ_Bを求める。そして、この局所平均を垂直に２等分する分離超平面を考え、入力データｘがこの分離超平面のどちらに所在するかによって識別をおこなう。
【００６５】
具体的には、この入力データｘの判定に際しては、
【数１１】

というｆ（ｘ）を求め、もしｆ（ｘ）＞０であれば、入力データｘがカテゴリーＡに属するものと判定することになる。
【００６６】
次に、サポートベクターマシンおよびカーネルトリックについて説明する。このサポートベクターマシンとは、「津田宏治，“サポートベクターマシンとは何か”，電子情報通信学会誌，2000年６月，pp460−466」に記載されるように、ある非線形変換によって特徴ベクトルを高次元空間に写像した後に、２つのカテゴリー（クラス）を分離する超平面を線形２次計画法により求める手法である。求める超平面は、線形分離を実現するもののうち、超平面と訓練パターンの距離の最小値であるマージンの量を最大にするものであり、汎化能力の点で優れたものである。このサポートベクターマシンにおいて、高次元空間に写像する目的は、訓練パターン数が増加したときにも線形分離を容易にすることであるが、写像後の高次元空間における識別関数の内積計算を、特徴ベクトルの写像を計算せずに直接カーネル関数によって置き換えることによって、計算量を小さくするテクニックが使われている。これがカーネルトリックと呼ばれている。
【００６７】
図１０は、カーネルトリックの概念を説明するための説明図である。同図に示すように、カテゴリーＡとカテゴリーＢの識別境界が複雑である場合には、本来カテゴリーＡに属するデータａとカテゴリーＢに属するデータｂを識別境界Ｌ１で区分できないため、入力データが２つのカテゴリーのどちらに属するかを判断できない。
【００６８】
しかしながら、次元数を増やすと、２つのカテゴリーを直線で分離しやすくなる。たとえば、同図に示す識別境界Ｌ１ではカテゴリーを分離することができないが、高次元にした識別境界Ｌ２を用いると、データａとデータｂを区分することができる。このように、かかるカーネルトリックでは、特徴ベクトルを高次元空間に写像した後に、２つのカテゴリーを分離する超平面を求めることになる。
【００６９】
ところで、このサポートベクターマシンには、サポートベクターの個数分だけカーネルの演算が必要なために識別処理に時間を要するという問題があるが、本発明ではすでに説明したようにエディティングをおこなっているので、このカーネルトリックを用いたとしても、近傍パターンに対してのみガウスカーネルの計算をおこなえば足りるので、迅速に識別処理をおこなうことができる。
【００７０】
次に、この認識処理部１４がおこなうカーネルトリックを利用した局所線形識別についてさらに具体的に説明する。図１１は、カーネルトリックを利用した局所線形識別の概念を説明するための説明図である。
【００７１】
図１１（ａ）に示すように、原特徴空間での局所線形識別をおこなうこととすると、カテゴリーの境界が非常に入り組んでいる場合に、線形分離が不可能になってしまう。たとえば、同図に示す場合には、真のカテゴリー境界が波のようにうねっているにも係わらず、局所的な識別境界が直線であるため、妥当な結果が得られない。
【００７２】
これに対して、図１１（ｂ）に示すように、カーネルトリックを利用して原特徴ベクトルを非線形に写像した高次元空間での局所線形識別をおこなうと、直線Ｌ３とＬ４の間がカテゴリーの分離帯となるため、局所的な線形識別によって線形分離が可能となる。
【００７３】
次に、ｄ次元の原特徴空間Ｒ^dにおける局所線形識別関数について具体的に説明する。ただし、ここでは２カテゴリー１，２の共分散行列Σ₁，Σ₂が等しく、かつ、単位行列の定数倍であるとする。
【００７４】
この場合の局所線形識別関数ｆ₁₂（ｘ）は、
【数１２】

となり、ｆ₁₂（ｘ）＞０であれば、入力データｘをカテゴリー１に属すると識別する。
【００７５】
ただし、局所平均ｍ₁，ｍ₂は、それぞれカテゴリー１および２に属する近傍パターンの平均であり、ｘ_1i（i=1,…,n₁）、ｘ_2i（i=1,…,n₂）は、それぞれカテゴリー１および２に属する近傍パターンであり、
【数１３】

を満たす。なお、ｄ_kはｋ最近傍距離である。
【００７６】
また、原特徴空間での最近傍パターンが、写像先の高次元空間においても同一となる写像を選ぶことにより、Ｒ^dφにおける識別関数ｆ₁₂（φ（ｘ））は、
【数１４】

となる。
【００７７】
この識別関数は、Ｒ^dφにおいて内積の線形和によって表されているので、カーネルトリックの手法を適用できる。つまり、高次元への写像の計算φ（ｘ）を実際におこなわなくても実数値関数の計算だけで済ますことができる。
【００７８】
すなわち、Ｋ（ｘ，ｙ）＝φ（ｘ）^tφ（ｙ）の関係を持つカーネル関数によって、識別関数ｆ₁₂（φ（ｘ））は、
【数１５】

となる。
【００７９】
ガウシアンカーネルと呼ばれる関数
【数１６】

に対応するφは、原空間におけるユークリッド距離の関係を、写像先の空間においても保持する
【００８０】
つまり、
【数１７】

が成立する。したがって原特徴空間におけるｋ最近傍パターンは、写像先の空間においてもｋ最近傍パターンとなっている。なお、ガウシアンカーネルに対応するφは、無限次元の空間に写像することになる。
【００８１】
また、ここではその詳細な説明を省略するが、ｄ次元の原特徴空間Ｒ^dにおける局所線形識別関数（Σ₁≠Σ₂のとき）は、
【数１８】

を用いた図１２に示すフィッシャー（Fisher）の方法を用いることもできる。ただし、Σ_Tは、カテゴリー１および２の全共分散行列である。
【００８２】
次に、図１に示した認識処理部１４の処理手順について説明する。図１３は、図１に示した認識処理部１４の処理手順を示すフローチャートである。同図に示すように、この認識処理部１４は、入力データである特徴ベクトルｘを入力すると（ステップＳ１３０１）、Ｎ個の参照パターンからｋ個の最近傍パターンを探し（ステップＳ１３０２）、ｋ個の最近傍パターンが全て同一のカテゴリーＣ₀に属するか否かを確認する（ステップＳ１３０３）。
【００８３】
その結果、全て同じカテゴリーＣ₀に属する場合には（ステップＳ１３０４肯定）、カテゴリーＣ₀に属するものと認識する（ステップＳ１３１０）。これに対して、全て同じカテゴリーＣ₀に属するわけではない場合には（ステップＳ１３０４否定）、上位２つのカテゴリーＣ₁とＣ₂を選択し（ステップＳ１３０５）、すでに説明したカーネルトリックを用いた局所識別関数を適用する（ステップＳ１３０６）。
【００８４】
そして、この識別関数の値が０よりも大きい場合には（ステップＳ１３０７肯定）、カテゴリーＣ₁であると認識し（ステップＳ１３０８）、識別関数の値が０よりも大きくない場合には（ステップＳ１３０７否定）、カテゴリーＣ₂であると認識する（ステップＳ１３０９）。
【００８５】
上述してきたように、本実施の形態によれば、認識辞書管理部１６により識別境界から離れたパターンを削除する認識辞書１５のエディティング処理をおこなうとともに、認識処理部１４によりカーネルトリックを用いた局所線型識別をおこなうよう構成したので、ｋ最近傍のｋが３以上の場合であっても、参照パターンを記憶するためのメモリ容量を抑制しつつ、ノンパラメトリックなパターン識別をおこなう場合の認識精度を上げることができる。
【００８６】
なお、本実施の形態では、本発明を文字認識装置に適用した場合を示したが、本発明はこれに限定されるものではなく、パターンの認識をおこなう各種パターン認識装置に適用することができる。ただし、英文字、数字、カタカナなどカテゴリー数が少ないものについて特に有効である。また、カテゴリー数の多い漢字については、特定の類似するカテゴリー間の詳細判別処理を実現する手段として有効である。
【００８７】
【発明の効果】
以上説明したように、請求項１の発明によれば、複数の参照パターンをカテゴリーごとに区分して記憶する認識辞書内の各参照パターンについて、所定の近傍に位置する参照パターンの全てが同一カテゴリーに属するものを削除し、参照パターンが削除された認識辞書に基づいて局所線形識別によりパターン認識をおこなうよう構成したので、ｋ最近傍のｋが３以上の場合であっても、参照パターンを記憶するためのメモリ容量を抑制しつつ、ノンパラメトリックなパターン識別をおこなう場合の認識精度を上げることが可能なパターン認識装置が得られるという効果を奏する。
【００８８】
また、請求項２の発明によれば、入力パターンの原特徴ベクトルを非線形に写像した高次元空間での局所線形識別によりパターン認識をおこなうよう構成したので、識別境界が入り組んでいる場合であっても精度良く認識することが可能なパターン認識装置が得られるという効果を奏する。
【００８９】
また、請求項３の発明によれば、原識別空間におけるユークリッド距離の関係を写像先の高次元空間で維持するガウシアンカーネルを識別関数とするよう構成したので、写像の前後で近傍に所在する参照パターンを変えずに効率良く認識することが可能なパターン認識装置が得られるという効果を奏する。
【００９０】
また、請求項４の発明によれば、複数の参照パターンをカテゴリーごとに区分して記憶する認識辞書内の各参照パターンについて、所定の近傍に位置する参照パターンの全てが同一カテゴリーに属するものを削除し、参照パターンが削除された認識辞書に基づいて局所線形識別によりパターン認識をおこなうよう構成したので、ｋ最近傍のｋが３以上の場合であっても、参照パターンを記憶するためのメモリ容量を抑制しつつ、ノンパラメトリックなパターン識別をおこなう場合の認識精度を上げることが可能なパターン認識方法が得られるという効果を奏する。
【００９３】
また、請求項５の発明によれば、請求項４に記載された方法をコンピュータに実行させることで、そのプログラムを機械読み取り可能となり、これによって、請求項４の動作をコンピュータによって実現することができる。
【図面の簡単な説明】
【図１】この発明の実施の形態に係る文字認識装置の構成を示す機能ブロック図である。
【図２】２種のカテゴリーに属する参照パターンの分布の一例を示す説明図である。
【図３】図２に示す参照パターンの分布に識別境界の一例を設けた説明図である。
【図４】パーゼンクラシファイアを用いた場合の識別概念を説明するための説明図である。
【図５】図１に示した認識辞書管理部によるエディティング処理手順を示すフローチャートである。
【図６】図１に示した認識辞書管理部による参照パターンの削減過程を説明するための説明図である。
【図７】図１に示した認識辞書管理部によるバンド幅変更の効果の一例を説明するための説明図である。
【図８】２カテゴリ、かつ、ｋ最近傍が２個と単純化した場合を説明するための説明図である。
【図９】図１に示した認識処理部がおこなう局所線形識別を説明するための説明図である。
【図１０】カーネルトリックの概念を説明するための説明図である。
【図１１】カーネルトリックを利用した局所線形識別の概念を説明するための説明図である。
【図１２】フィッシャー（Fisher）の方法を説明するための説明図である。
【図１３】図１に示した認識処理部の処理手順を示すフローチャートである。
【符号の説明】
１０文字認識装置
１１画像入力部
１２前処理部
１３特徴抽出部
１４認識処理部
１５認識辞書
１６認識辞書管理部
Ａ，Ｂカテゴリー

Claims

入力パターンがどのカテゴリーに属するかを認識辞書に基づいて判定して前記入力パターンのパターン認識をおこなうパターン認識装置において、
複数の参照パターンをカテゴリーごとに区分して記憶する認識辞書と、
前記認識辞書内の各参照パターンについて、所定の近傍に位置する参照パターンの全てが同一カテゴリーに属するものを削除するエディティング手段と、
前記エディティング手段により参照パターンが削除された認識辞書に基づいて局所線形識別によりパターン認識をおこなう認識手段と
を備えたことを特徴とするパターン認識装置。
前記認識手段は、入力パターンの原特徴ベクトルを非線形に写像した高次元空間での局所線形識別によりパターン認識をおこなうことを特徴とする請求項１に記載のパターン認識装置。
前記認識手段は、原識別空間におけるユークリッド距離の関係を写像先の高次元空間で維持するガウシアンカーネルを識別関数とすることを特徴とする請求項１または２に記載のパターン認識装置。
入力パターンがどのカテゴリーに属するかを認識辞書に基づいて判定して前記入力パターンのパターン認識をおこなうパターン認識方法において、
複数の参照パターンをカテゴリーごとに区分して記憶する認識辞書内の各参照パターンについて、所定の近傍に位置する参照パターンの全てが同一カテゴリーに属するものを削除するエディティング工程と、
前記エディティング工程により参照パターンが削除された認識辞書に基づいて局所線形識別によりパターン認識をおこなう認識工程と
を含んだことを特徴とするパターン認識方法。
前記請求項４に記載された方法をコンピュータに実行させることを特徴とするコンピュータ読み取り可能なプログラム。