JP3945971B2 - パターン認識装置、パターン認識方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents
パターン認識装置、パターン認識方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 Download PDFInfo
- Publication number
- JP3945971B2 JP3945971B2 JP2000339522A JP2000339522A JP3945971B2 JP 3945971 B2 JP3945971 B2 JP 3945971B2 JP 2000339522 A JP2000339522 A JP 2000339522A JP 2000339522 A JP2000339522 A JP 2000339522A JP 3945971 B2 JP3945971 B2 JP 3945971B2
- Authority
- JP
- Japan
- Prior art keywords
- category
- recognition
- learning
- pattern recognition
- recognition dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
この発明は、認識辞書に記憶した特徴量に基づいて入力パターンが属するカテゴリーを判定し、この判定結果に基づいてパターン認識をおこなうパターン認識装置、パターン認識方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体に関し、特に、類似カテゴリーを考慮する場合の悪影響を抑制して認識精度を向上させるとともに、過学習を防止しつつ迅速かつ効率良く学習をおこなうことができるパターン認識装置、パターン認識方法および記録媒体に関する。
【0002】
【従来の技術】
従来、手書き文字などの入力パターンから抽出された特徴ベクトルをあらかじめ用意された認識辞書と照合することにより、入力パターンがどのカテゴリーに属するかを判定し、その判定結果に基づいてパターン認識をおこなう技術が知られている。
【0003】
たとえば、特公平2−59507号公報(従来技術1)には、文字の形状を量子化して作成された特徴ベクトルからカテゴリーごとに共分散行列を計算して部分空間を作成し、部分空間の軸の方向、各軸での分散を辞書としてあらかじめ登録しておき、入力パターンと辞書の相違度により識別をおこなうよう構成した光学的文字読取方式が開示されている。この従来技術1は、高次の固有値を一定値として扱い、漢字のような構造が複雑な字種に対して高次項を近似的に考慮することにより高精度な認識を実現するものである。
【0004】
また、川谷隆彦,”2次識別関数と差分主成分の多段併用による手書き漢字認識”,信学技報,pp63−70,1999/4(従来技術2)には、共分散行列の正則化項として単位行列の定数倍、全カテゴリーの平均、類似カテゴリーの平均を用いることとした文字認識技術が開示されており、ここでは類似カテゴリーの共分散行列の加重平均を用いて正則化をおこなうことにより、全カテゴリーの平均、単位行列や、類似カテゴリーの平均を用いる場合よりも共分散行列の推定精度を向上させている。
【0005】
さらに、特開平10−301917号公報(従来技術3)には、正解カテゴリーの部分空間の原点の位置ベクトル、基底ベクトルの修正だけでなく、競合カテゴリーの部分空間の原点の位置ベクトル、基底ベクトルも修正することにより、学習パターンに対する誤認識を低減させるようにした認識辞書学習方法が開示されている。具体的には、この従来技術3では、着目カテゴリーと類似カテゴリーを遠ざけるように基底ベクトル(軸の方向)、各基底ベクトルの重みを勾配法により修正しており、得られた基底ベクトル(軸の方向)、各基底ベクトルの重みを辞書として登録している。
【0006】
【発明が解決しようとする課題】
しかしながら、上記従来技術1によれば、カテゴリーごとに部分空間の固有値と固有ベクトルを求めて辞書を作成し、認識において誤読が減るように正則化パラメータσを試行錯誤により求めることとなるが、ここでは類似カテゴリー(競合カテゴリー)を全く考慮していないため、十分な認識精度が得られないという問題がある。
【0007】
また、従来技術2によれば、類似カテゴリーの共分散行列の平均と着目カテゴリーの共分散行列を混合し、得られた共分散行列を推定される真の共分散行列として用いているので、共分散行列の推定精度は確かに向上するが、かかる混合がかえって認識に悪影響を与える場合があるという問題がある。すなわち、認識という側面から考えると、類似カテゴリーの共分散行列を混合することは、類似カテゴリーと着目カテゴリーを識別するための情報を保存するように軸を傾けることを意味するので、混合された共分散行列から得られる固有値が認識に悪影響を与える可能性が生ずるのである。
【0008】
さらに、従来技術3によれば、ベイズ決定則から導かれる二次識別関数の場合に基底ベクトルを修正しながら基底ベクトルでの重みを修正するわけであるが、同時に修正学習をもおこなうため、多カテゴリーを扱う識別の学習としては学習時間がかかりすぎ、また過学習となりやすいという問題がある。さらに、データごとに勾配法により学習することとしているので、学習に用いるパラメータの決定が難しくなるという問題もある。
【0009】
この発明は、上述した従来技術による問題点を解消するためになされたものであり、類似カテゴリーを考慮する場合の悪影響を抑制して認識精度を向上させるとともに、過学習を防止しつつ迅速かつ効率良く学習をおこなうことができるパターン認識装置、パターン認識方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体を提供することを目的とする。
【0010】
【課題を解決するための手段】
上述した課題を解決し、目的を達成するため、請求項1の発明に係るパターン認識装置は、認識辞書に記憶した特徴量に基づいて入力パターンが属するカテゴリーを判定し、この判定結果に基づいてパターン認識をおこなうパターン認識装置において、着目カテゴリーと類似する類似カテゴリーの共分散行列の加重平均及び着目カテゴリーの共分散行列を混合した部分空間の軸方向に着目カテゴリーの学習データを射影して求めた分散を用いて形成した二次識別関数に基づいて前記認識辞書を作成する認識辞書作成手段と、前記類似カテゴリーを考慮したベイズ決定則から導かれる二次識別関数における最小分類誤り基準により前記認識辞書の学習をおこなう学習処理手段とを備えたことを特徴とする。
【0012】
また、請求項2の発明に係るパターン認識装置は、請求項1の発明において、前記学習処理手段は、前記認識辞書作成手段により求めた類似カテゴリーを考慮した分散をもとに最小分類誤り基準を適用して得られる平均損失が最小となるように勾配法により学習をおこなうことを特徴とする。
【0013】
また、請求項3の発明に係るパターン認識方法は、認識辞書に記憶した特徴量に基づいて入力パターンが属するカテゴリーを判定し、この判定結果に基づいてパターン認識をおこなうパターン認識装置のパターン認識方法において、前記パターン認識装置により着目カテゴリーと類似する類似カテゴリーの共分散行列の加重平均及び着目カテゴリーの共分散行列を混合した部分空間の軸方向に着目カテゴリーの学習データを射影して求めた分散を用いて形成した二次識別関数に基づいて前記認識辞書を作成する認識辞書作成工程と、前記パターン認識装置により前記類似カテゴリーを考慮したベイズ決定則から導かれる二次識別関数における最小分類誤り基準により前記認識辞書の学習をおこなう学習処理工程とを含んだことを特徴とする。
【0015】
また、請求項4の発明に係るパターン認識方法は、請求項3の発明において、前記学習処理工程は、前記認識辞書作成工程により求めた類似カテゴリーを考慮した分散をもとに最小分類誤り基準を適用して得られる平均損失が最小となるように勾配法により学習をおこなうことを特徴とする。
【0016】
また、請求項5の発明に係る記録媒体は、請求項3〜4のいずれか一つに記載された方法をコンピュータに実行させるプログラムを記録したことで、そのプログラムを機械読み取り可能となり、これによって、請求項3〜4のいずれか一つの動作をコンピュータによって実現することができる。
【0017】
【発明の実施の形態】
以下に添付図面を参照して、この発明に係るパターン認識装置、パターン認識方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体の好適な実施の形態を詳細に説明する。なお、本実施の形態では、本発明を手書き文字認識に適用した場合を示すこととする。
【0018】
(文字認識装置の構成)
まず、本実施の形態に係る文字認識装置の構成について説明する。図1は、本実施の形態に係る文字認識装置の構成を示す機能ブロック図である。同図に示すように、この文字認識装置10は、画像入力部11と、前処理部12と、特徴抽出部13と、認識処理部14と、認識辞書15と、認識辞書作成部16と、学習処理部17とからなる。ここで、この認識辞書作成部16は請求項1の認識辞書作成手段に対応し、学習処理部17は請求項1の学習処理手段に対応する。
【0019】
画像入力部11は、文字の画像を光学的に読み取るスキャナなどの入力デバイスであり、この画像入力部11によって読み取られた画像データは前処理部12に出力される。
【0020】
前処理部12は、画像入力部11から受け取った画像データの前処理をおこなう処理部であり、具体的には、この画像データを平滑化処理してノイズを除去した後に、これを所定のしきい値で二値化して二値画像を取得し、この二値画像から文字を切り出した後に、これを正規化する処理部である。
【0021】
特徴抽出部13は、前処理部12が前処理をおこなった正規化された文字データから特徴量を抽出する処理部であり、具体的には、文字の画像データを5×5などにメッシュ割りし、各メッシュについての輪郭の方向を求めることになる。たとえば、輪郭の方向を8方向とすると、5×5×8=200次元の特徴空間が形成されることになる。
【0022】
認識処理部14は、手書き文字などの入力文字から抽出された特徴量をあらかじめ用意された認識辞書15内の特徴量と照合することにより、入力文字がどのカテゴリーに属するかを判定し、その判定結果に基づいてパターン認識をおこなう処理部である。
【0023】
認識辞書作成部16は、認識辞書15を作成する処理部であり、具体的には、類似するカテゴリー(ライバルカテゴリー)を考慮したベイズ決定則から導かれる二次識別関数に基づいて認識辞書15を作成する。
【0024】
学習処理部17は、認識処理部14による認識結果を用いて認識辞書15の学習をおこなう処理部であり、具体的には、ベイズ決定則から導かれる二次識別関数における最小分類誤り(MCE)に基づいて学習をおこなう。
【0025】
識別という側面から部分空間の作成を考えるとライバルカテゴリーの共分散行列を混合するということは、ライバルカテゴリーと着目カテゴリーを識別するための情報を保存するように軸を傾けることを意味するので、混合された共分散行列から得られる固有値が認識に悪影響を与えることがある。
【0026】
このため、認識辞書作成部16では、かかる悪影響を最小限に抑えることにより識別能力を向上させている。具体的には、上記従来技術2のようにライバルカテゴリーの共分散行列の平均を用いるのではなく、加重平均(候補パターンとなる頻度を用いる)を使用し、さらにライバルカテゴリーと着目カテゴリーを混合して得られた共分散行列の固有値を使うのではなく、着目カテゴリーのデータを固有ベクトル(部分空間の軸の方向)に射影することにより固有ベクトルでの分散を求めている。ただし、固有ベクトルは混合して得られた共分散行列から求める。
【0027】
また、学習処理部17では、得られた分散に対して最小分類誤り基準に基づき、従来技術3と異なる誤分類尺度を用いて平均損失を最小になるようにデータセットごとに勾配法により学習をおこなう。これにより、さらに認識率を向上させることができる。また、分散の初期値としてライバルカテゴリーを考慮した分散を用いるため局所解の問題を避けることができ、未知データに対しても十分な認識精度を得ることができる。ここで用いた部分空間の軸の方向(固有ベクトル)は、類似カテゴリーと着目カテゴリーの共分散行列を混合することにより得られる共分散行列から求められる。
【0028】
このように、この文字認識装置10は、認識辞書作成部16がライバルカテゴリーを考慮したベイズ決定則から導かれる二次識別関数により認識辞書15を作成する点に第1の特徴があり、また、学習処理部17がライバルカテゴリーを考慮したベイズ決定則から導かれる二次識別関数における最小分類誤り基準により認識辞書15の学習をおこなう点に第2の特徴がある。なお、認識処理部14の認識処理(認識アルゴリズム)自体は従来技術のものと同様である。
【0029】
(認識辞書の作成について)
次に、図1に示した認識辞書作成部16による認識辞書の作成について具体的に説明する。通常、ベイズ決定則から導かれる二次識別関数では、「ある入力データが注目カテゴリーの分布に当てはめるとどれくらいあてはまるか」という基準で識別がなされるが、これでは、識別を行う部分空間の次元を圧縮した場合、ライバルカテゴリーと正解のカテゴリーを分類することが極めて困難である。
【0030】
すなわち、識別面から見ると、ベイズ決定則から導かれる二次識別関数の値が自らのカテゴリーらしさを表現しつつ、ライバルカテゴリーのデータに対して敏感に反応することが望まれることになる。ここで、ライバルカテゴリーに敏感に反応するには、ライバルカテゴリーの主成分の情報をより多く反映するように部分空間を張る必要があるので、この認識辞書作成部16では、ライバルカテゴリーを考慮した部分空間を形成している。
【0031】
図2は、図1に示した認識辞書作成部16によるライバルカテゴリーを考慮した部分空間の軸形成の概念を説明するための説明図である。ただしここでは、正解のカテゴリーをC1とし、ライバルカテゴリーをC2としている。
【0032】
同図に示すように、ここでは部分空間の軸に射影した場合に、カテゴリーC2らしさの情報があまり消えないように軸を決めることにより、カテゴリーC2の分布の特徴を残すようにしている。具体的には、カテゴリーC2の主軸の傾きを考慮してカテゴリーC1本来の主軸の傾きを図示したように変更する。
【0033】
部分空間法、修正二次識別関数(MQDF)による識別は、部分空間を張る軸に射影することにより識別するものであり、分散が小さい軸は無視する手法である。そこで、2次元特徴空間で図2のように新たな軸を決めることにどのような意味があるかを説明する。
【0034】
図3は、正解カテゴリーの主軸および新しい主軸の成分をライバルカテゴリーの主軸に射影した場合の情報量を説明するための説明図である。ここで、図中に示したC1主軸はカテゴリーC1の標本共分散行列から得られた主軸であり、新しい主軸は、ライバルカテゴリーC2を考慮することにより作成される主軸であり、C2主軸は、ライバルカテゴリーC2の標本共分散行列から得られた主軸である。また、m1はカテゴリーC1の中心であり、P1はC1主軸上でm1から距離が1の点であり、P2は新しい主軸上でm1から距離が1の点であり、H1はC2主軸上にP1から射影した点であり、H2はC2主軸上にP2から射影した点である。
【0035】
同図に示すように、新しい主軸はC1主軸をC2主軸の方向に少し傾けた形となる。ここで、|m1−H1|<|m2−H2|なので、C2主軸上に表れるべき情報はC1主軸からのものよりも新しい主軸からのものの方が多い。ただし、ここではC1主軸、新しい主軸での分散は等しいと仮定する。
【0036】
図4は、XをカテゴリーC1の主軸、副軸、新しい主軸、新しい副軸に射影した後、カテゴリーC2の主軸に射影した場合の情報量を説明するための説明図である。ここで、図中に示したC1副軸は、カテゴリーC1の標本共分散行列から得られた短軸であり、新しい副軸は、ライバルカテゴリーC2を考慮することにより作成される短軸である。また、Xは入力データであり、P1はXをC1主軸上へ射影した点であり、P1NEWはXを新しい主軸上へ射影した点であり、P2はXをC1副軸上へ射影した点であり、P2NEWはXを新しい副軸上へ射影した点である。さらに、H1はC2主軸上にP1から射影した点であり、H2はC2主軸上にP1NEWから射影した点であり、H3はC2主軸上にP2から射影した点であり、H4はC2主軸上にP2NEWから射影した点である。
【0037】
同図に示すように、すべての軸を用いればどのような軸を用いても同じであることがわかる。短軸を用いない部分空間において、各カテゴリー自身の情報量をよりよく保存しようとすると、分散最大化基準で軸を決めれば良いが、ライバルカテゴリーの情報も考慮したいのであれば、C1主軸より新しい主軸の方がよいと考えられる。なぜなら、短軸を用いない場合、各カテゴリーの情報はかなり保存されるが、ライバルカテゴリーと識別するための情報は欠落することになるからである。
【0038】
このことから分かるように、ライバルカテゴリーに軸が似れば似るほど識別するための情報は増えるわけであるが、図2の分布にしたがってその分散を計算すると、ライバルカテゴリーと分布の差がほとんどなくなる。これではカテゴリーの分布をよりよく表現したとは言えない。
【0039】
ベイズ決定則から導かれる二次識別関数で要求されているのは、自らの分布をよりよく表現しつつ、ライバルカテゴリーの情報を保有する部分空間を作成することであるので、ライバルカテゴリーを考慮して作成した軸に対して、標本から得られる分散を計算するべきである。自カテゴリーの分布をより良く表現する部分空間を作ることとライバルカテゴリーの情報をよりよく表現することは、トレードオフの関係にあるので、識別の性質上、自カテゴリーの分布をより良く表現することが優先される。
【0040】
このため、ここでは
Σ*=(1−α)Σi+αΣr
として定式化する。ただし、ΣiはカテゴリーCiの共分散行列であり、Σrはライバルカテゴリーの共分散行列の加重平均であり、αはライバルカテゴリーの混合比(0≦α≦1)である。
【0041】
このように作成されたΣ*は、ライバルカテゴリーを考慮して、該ライバルカテゴリーの分布からある程度の変形を加味したものとして捉えることができる。これは、ライバルカテゴリーのデータにおいて見られた変形は自カテゴリーにおいても見られるはずであり、また、ライバルカテゴリーの情報をより多く含んだものであると言える。
【0042】
例えば、ベイズ決定則から導かれる二次識別関数が修正二次識別関数であるとすると、図1に示した認識辞書作成部16では、
【数1】
と定義した識別関数g(x)を採用することとなる。これは、「ライバルカテゴリーの情報を加味した部分空間で自カテゴリーを正確に記述することにより識別をおこなう」という立場に立つものである。
【0043】
これに対して、一般的なベイズ決定則から導かれる二次識別関数f(x)は、
【数2】
として定義される。これは、「ライバルカテゴリーの情報を加味し、自カテゴリーをより正確に表現された部分空間で識別をおこなう」という立場に立つものである。
【0044】
この立場の違いは、「標本サンプルから得られた分布に対してライバルパターンの分布を考慮することにより得られる分布が母集団の分布に近づくのか」、「そして、それは識別にとって最良であるのか」ということに起因する。
【0045】
次に、上記識別関数g(x)、f(x)を用いた場合の実験結果について説明する。図5は、識別関数g(x)、f(x)を用いた場合の実験結果を示す説明図である。なお、使用する字種はひらがな73カテゴリーとし、辞書は各カテゴリーの偶数番目のデータ約100個で作成し、テストデータは奇数番目のデータ約100個とし、使用する固有値数は29、パラメータhは実験による最も良い値を用いるものとし、リジェクトは無いものとする。
【0046】
図5に示すように、混合比率αを上げていくとg(x)、f(x)ともに0.4で最も認識精度がよく、このことからライバルパターンを考慮することにより母集団との推定誤差が減少したのではないかと考えられる。しかしながら、混合比率αが0.35以上ではg(x)を用いたの認識精度が良くなることから、母集団の推定誤差が増大したと考えられる。
【0047】
このことから、混合比率を上げていくとあるところから推定誤差が増大し、標本サンプルから得られる分散を用いることにより推定誤差をある程度減少させ認識精度が向上することが分かる。
【0048】
また、混合比率が0.4以上でg(x)、f(x)ともに認識精度が同じ幅で落ちているのは、識別するための情報が落ちたことを意味し、g(x)のほうが部分空間の各軸での分散の推定誤差が少ないことを意味している。ある一定以上の混合比率では自カテゴリーの情報量が減少し、識別する精度が低下することが分かる。
【0049】
次に、識別関数f(x)とg(x)による識別結果について説明する。図6は、識別関数f(x)とg(x)を用いた場合の識別結果を説明するための説明図であり、同図(a)には識別関数g(x)を用いた方が識別関数f(x)を用いた場合よりも良くなる例を示しており、同図(b)には識別関数g(x)を用いた方が識別関数f(x)を用いた場合よりも悪くなる例を示している。ただし、ここでは混合比率αを0.4とする。
【0050】
同図(b)に示すように、濁音、撥音のような文字に対しては識別関数f(x)を用いる方が良い場合もあるが、明らかに異なる文字に関しては、識別関数g(x)を用いる方がよい。
【0051】
このように、ライバルカテゴリーを加味して決定した部分空間で識別することが有効であり、ライバルカテゴリーの混合比率を上げる場合には、自カテゴリー(学習データ)を部分空間の各軸に射影し分散を求めることが有効となる。また、ライバルカテゴリーの共分散行列を用いることにより、自カテゴリーの変形を考慮することが可能になり、母分布の推定誤差が減少する。
【0052】
(学習処理)
次に、図1に示した学習処理部17による学習処理について説明する。認識辞書作成部16が用いるベイズ決定則から導かれる二次識別関数(MQDF)は文字認識において高い認識精度を持つことが示されている。しかしながら、このベイズ決定則から導かれる二次識別関数は各カテゴリーのみを記述する形であるため、良く似たカテゴリー間では十分な認識精度を得るのが難しい。特に、識別で用いる部分空間の次元数を減少させると認識精度が低下する。これは、ライバルパターンの分布を考慮していないため自カテゴリの情報が減少すると正確に識別できなくなるためである。
【0053】
このため、部分空間の軸に対して最小分類誤り(MCE)に基づき学習をおこなうことにより、認識精度を向上させる技術が知られている。このため、この学習処理部17では、最小分類誤り(MCE)に基づく学習によって固有値を修正することにより、認識精度を向上させている。
【0054】
まず、この最小分類誤り(MCE)とはいかなるものであるかについて説明する。この最小分類誤り(MCE)とは、ベイズ決定則における全損失を勾配探索により最小化する学習の枠組みであり、全損失を求めるに際して確率密度関数と事前確率が既知でなくてはならないが、これらを求めることは一般に困難なので、代わりに学習サンプルxiによる平均損失が用いられる。
【0055】
具体的には、学習サンプル数をN、クラス数をM、推定すべきパラメータをΛ、損失関数をl(u)(下記(5)式)とし、xiがクラスwkに属するときは1、それ以外のときには0となる関数を1(xi∈Ck)とすると、平均損失L0(Λ)は、
【数3】
となる。
【0056】
また、誤分類尺度uk(x;Λ)については、
uk(x;Λ)=(d1−d2)/(d2+e) ・・・(4)
と定義する。ただし、d1は正解カテゴリーへの距離、d2はライバルカテゴリーへの距離の最短値であるものとする。
【0057】
さらに、損失関数l(u)を、
l(u)=1/(1+e-α(t)u) ・・・(5)
α(t)=12(t+1) ・・・(6)
と定義する。
【0058】
ここで、時間tに依存する微少な正の実数をε(t)とすると、最急勾配法によって、
【数4】
という漸化式で平均損失を最小化することができる。
【0059】
次に、図1に示した学習処理部17が採用する損失の最小化について説明する。ここでは、誤分類尺度uk(x;Λ)については(4)式に示したものを採用し、損失関数l(u)については(5)式に示したものを採用する。そして、クラスwiとxとの距離d(i、x)を
【数5】
のように定義する。また、平均損失L(t)を
【数6】
と定義する。ただし、Nは各クラスの学習データ数である。
【0060】
ここで、この学習処理部17でも、最急勾配法を用いて損失Lを最小化するため、上記(4)式と同様に、
【数7】
の漸化式を用いることになる。なお、この(7)式に関連して以下に示すような関係式が成立する。
【数8】
【0061】
このため、学習データで自カテゴリーに対する修正をおこなう場合には、(12)、(13)、(14)、(16)式から、次式に示す(17)式にしたがうことになり、またライバルカテゴリーに対する修正をおこなう場合には、(12)、(13)、(15)、(16)式から、(18)式にしたがうことになる。なお、λij<0のときにはλij=0とする。
【数9】
【0062】
以上のことから、
【数10】
となり、誤分類尺度での値がしきい値h以上である場合には、(17)式および(18)を用いて修正をおこなうことになる。
【0063】
なお、(20)式が下記に示す(21)式および(22)式の条件を満たす場合には、(23)式、(24)式から明らかなように収束する。すなわち、本学習則は収束することになる。
【数11】
【0064】
また、(19)式を用いて固有値の発散問題について説明する。図7は、(19)式を説明するためのイメージ図である。同図に示すように、∇l+>∇l-であるならばλijは増大していくが、このλijがある一定以上増大すると、∇l-が増大するはずなので、結果的に均衡状態になると考えられる。また、この逆の場合にも同様になる。
【0065】
また、「λij<0のときにはλij=0とする」とした理由は、λijがどんどん減少してマイナスとなった場合に、(17)式、(18)式による修正量が膨大なものとなり、その結果∇l+が増加に転じた場合でも収束が困難になるからである。同時に修正を続けることにより収束するとすれば、ε(t)を単調減少させても、その減少が緩やかであれば問題ないはずである。また、修正を続けた結果、加速的に修正量が増加して発散するのを防ぐために、ここではε(t)を単調減少関数としている。
【0066】
次に、上記固有値学習が未知データに対して有効である旨を示す実験結果について説明する。なお、ここでは識別関数として下記に示すベイズ決定則から導かれる二次識別関数、例えば、修正二次識別関数とすると、
【数12】
を用いることとする。ただし、ΣiはクラスCiの共分散行列であり、PijはクラスCiの共分散行列から作成される固有ベクトルであり、λijはクラスCiの共分散行列から作成される固有値である。また、ここではlogP(Ci)は各クラスで同じ値とし、h=60、k=29とする。さらに、認識対象は73字種とし、学習データは各カテゴリーの偶数番目とし、テストデータは各カテゴリーの奇数番目とする。
【0067】
図8は、図1に示した学習処理部17により学習をおこなった実験結果の一例を示す図である。なお、ε1=2とする。同図に示すように学習を繰り返すと、学習回数15回で未知データに対してもっとも認識精度がよく、それ以降は認識精度が低下する。
【0068】
これに対して、学習データについては学習すればするほど認識精度が上がる。つまり、学習回数15回で未知データに対して最もフィッティングし、それ以降は過学習の状態となる。
【0069】
また、(6)式を定数とした場合も同じような傾向が見られるが、認識能力は若干低くなった。これは、(6)式を単調減少させることにより、より分布の周辺に重みを持たせることとなり認識精度が良くなったと考えられる。
【0070】
次に、かかる学習処理部17による学習の結果、改善された例と悪くなった例について説明する。図9は、図1に示した学習処理部17による学習の結果、改善された例と悪くなった一例を示す図である。同図(b)に示すように一部の文字については悪くなる場合もあるが、基本的にはかかる学習によれば、同図(a)に示すように、濁音、撥音のような文字などについて改善される。
【0071】
このように、この学習処理部17では、学習する際にライバルカテゴリーを用いた修正をおこなっているので、単に最小分類誤り(MCE)基準を用いる場合よりも未知データに対して文字の認識率を高めることができる。
【0072】
上述してきたように、本実施の形態では、認識辞書作成部16がライバルカテゴリーを考慮したベイズ決定則から導かれる二次識別関数により認識辞書15を作成するとともに、学習処理部17がライバルカテゴリーを考慮したベイズ決定則から導かれる二次識別関数における最小分類誤り基準により認識辞書15の学習をおこなうよう構成したので、認識精度を向上させることができる。
【0073】
なお、本実施の形態では、本発明に係る認識辞書作成部16および学習処理部17を文字認識装置に設けた場合について説明したが、本発明はこれに限定されるものではなく、スタンドアロンの認識辞書作成装置に適用することもできる。また、ここでは文字認識をおこなう場合に適用することとしたが、本発明はこれに限定されるものではなく、部分空間を使った各種パターン認識に適用することもできる。
【0074】
【発明の効果】
以上説明したように、請求項1の発明によれば、着目カテゴリーと類似する類似カテゴリーの共分散行列の加重平均及び着目カテゴリーの共分散行列を混合した部分空間の軸方向に着目カテゴリーの学習データを射影して求めた分散を用いて形成した二次識別関数に基づいて前記認識辞書を作成するとともに、類似カテゴリーを考慮したベイズ決定則から導かれる二次識別関数における最小分類誤り基準により認識辞書の学習をおこなうよう構成したので、類似カテゴリーを考慮する場合の悪影響を抑制して認識精度を向上させるとともに、過学習を防止しつつ迅速かつ効率良く学習をおこなうことが可能なパターン認識装置が得られるという効果を奏する。特に、共分散行列の推定誤差を減少させ、もって認識精度を向上させることが可能となる。
【0076】
また、請求項2の発明によれば、求めた類似カテゴリーを考慮した分散をもとに最小分類誤り基準を適用して得られる平均損失が最小となるように勾配法により学習をおこなうよう構成したので、さらに認識率を向上させることが可能なパターン認識装置が得られるという効果を奏する。
【0077】
また、請求項3の発明によれば、着目カテゴリーと類似する類似カテゴリーの共分散行列の加重平均及び着目カテゴリーの共分散行列を混合した部分空間の軸方向に着目カテゴリーの学習データを射影して求めた分散を用いて形成した二次識別関数に基づいて前記認識辞書を作成するとともに、類似カテゴリーを考慮したベイズ決定則から導かれる二次識別関数における最小分類誤り基準により認識辞書の学習をおこなうよう構成したので、類似カテゴリーを考慮する場合の悪影響を抑制して認識精度を向上させるとともに、過学習を防止しつつ迅速かつ効率良く学習をおこなうことが可能なパターン認識方法が得られるという効果を奏する。特に、共分散行列の推定誤差を減少させ、もって認識精度を向上させることが可能となる。
【0079】
また、請求項4の発明によれば、求めた類似カテゴリーを考慮した分散をもとに最小分類誤り基準を適用して得られる平均損失が最小となるように勾配法により学習をおこなうよう構成したので、さらに認識率を向上させることが可能なパターン認識方法が得られるという効果を奏する。
【0080】
また、請求項5の発明によれば、請求項3〜4のいずれか一つに記載された方法をコンピュータに実行させるプログラムを記録したことで、そのプログラムを機械読み取り可能となり、これによって、請求項3〜4のいずれか一つの動作をコンピュータによって実現することが可能な記録媒体が得られるという効果を奏する。
【図面の簡単な説明】
【図1】この発明の実施の形態に係る文字認識装置の構成を示す機能ブロック図である。
【図2】図1に示した認識辞書作成部によるライバルカテゴリーを考慮した部分空間の軸形成の概念を説明するための説明図である。
【図3】正解カテゴリーの主軸および新しい主軸の成分をライバルカテゴリーの主軸に射影した場合の情報量を説明するための説明図である。
【図4】XをカテゴリーC1の主軸、副軸、新しい主軸、新しい副軸に射影した後、カテゴリーC2の主軸に射影した場合の情報量を説明するための説明図である。
【図5】識別関数g(x)、f(x)を用いた場合の実験結果を示す説明図である。
【図6】識別関数f(x)とg(x)を用いた場合の識別結果を説明するための説明図である。
【図7】(19)式を説明するためのイメージ図である。
【図8】図1に示した学習処理部により学習をおこなった実験結果の一例を示す図である。
【図9】図1に示した学習処理部による学習の結果、改善された例と悪くなった一例を示す図である。
【符号の説明】
10 文字認識装置
11 画像入力部
12 前処理部
13 特徴抽出部
14 認識処理部
15 認識辞書
16 認識辞書作成部
17 学習処理部
Claims (5)
- 認識辞書に記憶した特徴量に基づいて入力パターンが属するカテゴリーを判定し、この判定結果に基づいてパターン認識をおこなうパターン認識装置において、
着目カテゴリーと類似する類似カテゴリーの共分散行列の加重平均及び着目カテゴリーの共分散行列を混合した部分空間の軸方向に着目カテゴリーの学習データを射影して求めた分散を用いて形成した二次識別関数に基づいて前記認識辞書を作成する認識辞書作成手段と、
前記類似カテゴリーを考慮したベイズ決定則から導かれる二次識別関数における最小分類誤り基準により前記認識辞書の学習をおこなう学習処理手段と
を備えたことを特徴とするパターン認識装置。 - 前記学習処理手段は、前記認識辞書作成手段により求めた類似カテゴリーを考慮した分散をもとに最小分類誤り基準を適用して得られる平均損失が最小となるように勾配法により学習をおこなうことを特徴とする請求項1に記載のパターン認識装置。
- 認識辞書に記憶した特徴量に基づいて入力パターンが属するカテゴリーを判定し、この判定結果に基づいてパターン認識をおこなうパターン認識装置のパターン認識方法において、
前記パターン認識装置により着目カテゴリーと類似する類似カテゴリーの共分散行列の加重平均及び着目カテゴリーの共分散行列を混合した部分空間の軸方向に着目カテゴリーの学習データを射影して求めた分散を用いて形成した二次識別関数に基づいて前記認識辞書を作成する認識辞書作成工程と、
前記パターン認識装置により前記類似カテゴリーを考慮したベイズ決定則から導かれる二次識別関数における最小分類誤り基準により前記認識辞書の学習をおこなう学習処理工程と
を含んだことを特徴とするパターン認識方法。 - 前記学習処理工程は、前記認識辞書作成工程により求めた類似カテゴリーを考慮した分散をもとに最小分類誤り基準を適用して得られる平均損失が最小となるように勾配法により学習をおこなうことを特徴とする請求項3に記載のパターン認識方法。
- 前記請求項3〜4に記載された方法をコンピュータに実行させるプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000339522A JP3945971B2 (ja) | 2000-11-07 | 2000-11-07 | パターン認識装置、パターン認識方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000339522A JP3945971B2 (ja) | 2000-11-07 | 2000-11-07 | パターン認識装置、パターン認識方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002150221A JP2002150221A (ja) | 2002-05-24 |
JP3945971B2 true JP3945971B2 (ja) | 2007-07-18 |
Family
ID=18814586
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000339522A Expired - Fee Related JP3945971B2 (ja) | 2000-11-07 | 2000-11-07 | パターン認識装置、パターン認識方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3945971B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8526679B2 (en) | 2009-10-30 | 2013-09-03 | Canon Kabushiki Kaisha | Image processing apparatus and image processing method |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007173912A (ja) * | 2005-12-19 | 2007-07-05 | Glory Ltd | 印刷検査装置 |
US20070139703A1 (en) | 2005-12-19 | 2007-06-21 | Glory Ltd. | Print inspecting apparatus |
JP5214762B2 (ja) | 2011-03-25 | 2013-06-19 | 株式会社東芝 | 認識装置、方法及びプログラム |
-
2000
- 2000-11-07 JP JP2000339522A patent/JP3945971B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8526679B2 (en) | 2009-10-30 | 2013-09-03 | Canon Kabushiki Kaisha | Image processing apparatus and image processing method |
Also Published As
Publication number | Publication date |
---|---|
JP2002150221A (ja) | 2002-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3258425B1 (en) | Information processing apparatus, information processing method, and storage medium | |
Seo et al. | Soft nearest prototype classification | |
JP4517633B2 (ja) | 対象物検出装置及び方法 | |
US6397200B1 (en) | Data reduction system for improving classifier performance | |
US7783086B2 (en) | Information processing apparatus and method, recording medium, and program | |
JPH06176161A (ja) | 入力分類方法、トレーニング方法、及び装置 | |
JP2006268825A (ja) | オブジェクト検出装置、学習装置、オブジェクト検出システム、方法、およびプログラム | |
KR20040037180A (ko) | 학습 모델 부분들을 사용하는 안면 인식 시스템 및 방법 | |
JP4553044B2 (ja) | 集団学習装置及び方法 | |
JP2005202932A (ja) | データを複数のクラスに分類する方法 | |
JP3121717B2 (ja) | テキスト中の未知テキスト要素を識別する方法およびテキスト中のキーワードの所在を突き止める方法 | |
US7003164B2 (en) | Pattern recognition apparatus and method using probability density function | |
JPH06176160A (ja) | 入力分類方法、トレーニング方法、及び装置 | |
US8340428B2 (en) | Unsupervised writer style adaptation for handwritten word spotting | |
JP3945971B2 (ja) | パターン認識装置、パターン認識方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2002251592A (ja) | パターン認識辞書学習方法 | |
JP3482191B2 (ja) | 住所読み取りのための方法 | |
US20230222392A1 (en) | Computer-readable recording medium storing detection program, detection method, and detection device | |
JPH10307889A (ja) | 文字認識方法、装置及び文字認識プログラムを記録した記録媒体 | |
CN111241960B (zh) | 一种基于维纳滤波与pca的人脸识别方法及系统 | |
JP3264242B2 (ja) | 認識辞書学習方法及びその装置並びにプログラムを記録した機械読み取り可能な記録媒体 | |
Serre et al. | Feature selection for face detection | |
Mohan et al. | Fast face detection using boosted eigenfaces | |
JP5625196B2 (ja) | 特徴点検出装置、特徴点検出方法、特徴点検出プログラム及び記録媒体 | |
JP5652250B2 (ja) | 画像処理プログラム及び画像処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20051212 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20061222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070116 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070316 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070410 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070410 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 3945971 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100420 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110420 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120420 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120420 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130420 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130420 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140420 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140420 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |