JP3945971B2

JP3945971B2 - パターン認識装置、パターン認識方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number: JP3945971B2
Application number: JP2000339522A
Authority: JP
Inventors: 直樹 ▲高▼田; 佳洋入江
Original assignee: Glory Ltd
Current assignee: Glory Ltd
Priority date: 2000-11-07
Filing date: 2000-11-07
Publication date: 2007-07-18
Anticipated expiration: 2020-11-07
Also published as: JP2002150221A

Description

【０００１】
【発明の属する技術分野】
この発明は、認識辞書に記憶した特徴量に基づいて入力パターンが属するカテゴリーを判定し、この判定結果に基づいてパターン認識をおこなうパターン認識装置、パターン認識方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体に関し、特に、類似カテゴリーを考慮する場合の悪影響を抑制して認識精度を向上させるとともに、過学習を防止しつつ迅速かつ効率良く学習をおこなうことができるパターン認識装置、パターン認識方法および記録媒体に関する。
【０００２】
【従来の技術】
従来、手書き文字などの入力パターンから抽出された特徴ベクトルをあらかじめ用意された認識辞書と照合することにより、入力パターンがどのカテゴリーに属するかを判定し、その判定結果に基づいてパターン認識をおこなう技術が知られている。
【０００３】
たとえば、特公平２−５９５０７号公報（従来技術１）には、文字の形状を量子化して作成された特徴ベクトルからカテゴリーごとに共分散行列を計算して部分空間を作成し、部分空間の軸の方向、各軸での分散を辞書としてあらかじめ登録しておき、入力パターンと辞書の相違度により識別をおこなうよう構成した光学的文字読取方式が開示されている。この従来技術１は、高次の固有値を一定値として扱い、漢字のような構造が複雑な字種に対して高次項を近似的に考慮することにより高精度な認識を実現するものである。
【０００４】
また、川谷隆彦，”２次識別関数と差分主成分の多段併用による手書き漢字認識”，信学技報，pp63−70，1999/4（従来技術２）には、共分散行列の正則化項として単位行列の定数倍、全カテゴリーの平均、類似カテゴリーの平均を用いることとした文字認識技術が開示されており、ここでは類似カテゴリーの共分散行列の加重平均を用いて正則化をおこなうことにより、全カテゴリーの平均、単位行列や、類似カテゴリーの平均を用いる場合よりも共分散行列の推定精度を向上させている。
【０００５】
さらに、特開平１０−３０１９１７号公報（従来技術３）には、正解カテゴリーの部分空間の原点の位置ベクトル、基底ベクトルの修正だけでなく、競合カテゴリーの部分空間の原点の位置ベクトル、基底ベクトルも修正することにより、学習パターンに対する誤認識を低減させるようにした認識辞書学習方法が開示されている。具体的には、この従来技術３では、着目カテゴリーと類似カテゴリーを遠ざけるように基底ベクトル（軸の方向）、各基底ベクトルの重みを勾配法により修正しており、得られた基底ベクトル（軸の方向）、各基底ベクトルの重みを辞書として登録している。
【０００６】
【発明が解決しようとする課題】
しかしながら、上記従来技術１によれば、カテゴリーごとに部分空間の固有値と固有ベクトルを求めて辞書を作成し、認識において誤読が減るように正則化パラメータσを試行錯誤により求めることとなるが、ここでは類似カテゴリー（競合カテゴリー）を全く考慮していないため、十分な認識精度が得られないという問題がある。
【０００７】
また、従来技術２によれば、類似カテゴリーの共分散行列の平均と着目カテゴリーの共分散行列を混合し、得られた共分散行列を推定される真の共分散行列として用いているので、共分散行列の推定精度は確かに向上するが、かかる混合がかえって認識に悪影響を与える場合があるという問題がある。すなわち、認識という側面から考えると、類似カテゴリーの共分散行列を混合することは、類似カテゴリーと着目カテゴリーを識別するための情報を保存するように軸を傾けることを意味するので、混合された共分散行列から得られる固有値が認識に悪影響を与える可能性が生ずるのである。
【０００８】
さらに、従来技術３によれば、ベイズ決定則から導かれる二次識別関数の場合に基底ベクトルを修正しながら基底ベクトルでの重みを修正するわけであるが、同時に修正学習をもおこなうため、多カテゴリーを扱う識別の学習としては学習時間がかかりすぎ、また過学習となりやすいという問題がある。さらに、データごとに勾配法により学習することとしているので、学習に用いるパラメータの決定が難しくなるという問題もある。
【０００９】
この発明は、上述した従来技術による問題点を解消するためになされたものであり、類似カテゴリーを考慮する場合の悪影響を抑制して認識精度を向上させるとともに、過学習を防止しつつ迅速かつ効率良く学習をおこなうことができるパターン認識装置、パターン認識方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体を提供することを目的とする。
【００１０】
【課題を解決するための手段】
上述した課題を解決し、目的を達成するため、請求項１の発明に係るパターン認識装置は、認識辞書に記憶した特徴量に基づいて入力パターンが属するカテゴリーを判定し、この判定結果に基づいてパターン認識をおこなうパターン認識装置において、着目カテゴリーと類似する類似カテゴリーの共分散行列の加重平均及び着目カテゴリーの共分散行列を混合した部分空間の軸方向に着目カテゴリーの学習データを射影して求めた分散を用いて形成した二次識別関数に基づいて前記認識辞書を作成する認識辞書作成手段と、前記類似カテゴリーを考慮したベイズ決定則から導かれる二次識別関数における最小分類誤り基準により前記認識辞書の学習をおこなう学習処理手段とを備えたことを特徴とする。
【００１２】
また、請求項２の発明に係るパターン認識装置は、請求項１の発明において、前記学習処理手段は、前記認識辞書作成手段により求めた類似カテゴリーを考慮した分散をもとに最小分類誤り基準を適用して得られる平均損失が最小となるように勾配法により学習をおこなうことを特徴とする。
【００１３】
また、請求項３の発明に係るパターン認識方法は、認識辞書に記憶した特徴量に基づいて入力パターンが属するカテゴリーを判定し、この判定結果に基づいてパターン認識をおこなうパターン認識装置のパターン認識方法において、前記パターン認識装置により着目カテゴリーと類似する類似カテゴリーの共分散行列の加重平均及び着目カテゴリーの共分散行列を混合した部分空間の軸方向に着目カテゴリーの学習データを射影して求めた分散を用いて形成した二次識別関数に基づいて前記認識辞書を作成する認識辞書作成工程と、前記パターン認識装置により前記類似カテゴリーを考慮したベイズ決定則から導かれる二次識別関数における最小分類誤り基準により前記認識辞書の学習をおこなう学習処理工程とを含んだことを特徴とする。
【００１５】
また、請求項４の発明に係るパターン認識方法は、請求項３の発明において、前記学習処理工程は、前記認識辞書作成工程により求めた類似カテゴリーを考慮した分散をもとに最小分類誤り基準を適用して得られる平均損失が最小となるように勾配法により学習をおこなうことを特徴とする。
【００１６】
また、請求項５の発明に係る記録媒体は、請求項３〜４のいずれか一つに記載された方法をコンピュータに実行させるプログラムを記録したことで、そのプログラムを機械読み取り可能となり、これによって、請求項３〜４のいずれか一つの動作をコンピュータによって実現することができる。
【００１７】
【発明の実施の形態】
以下に添付図面を参照して、この発明に係るパターン認識装置、パターン認識方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体の好適な実施の形態を詳細に説明する。なお、本実施の形態では、本発明を手書き文字認識に適用した場合を示すこととする。
【００１８】
（文字認識装置の構成）
まず、本実施の形態に係る文字認識装置の構成について説明する。図１は、本実施の形態に係る文字認識装置の構成を示す機能ブロック図である。同図に示すように、この文字認識装置１０は、画像入力部１１と、前処理部１２と、特徴抽出部１３と、認識処理部１４と、認識辞書１５と、認識辞書作成部１６と、学習処理部１７とからなる。ここで、この認識辞書作成部１６は請求項１の認識辞書作成手段に対応し、学習処理部１７は請求項１の学習処理手段に対応する。
【００１９】
画像入力部１１は、文字の画像を光学的に読み取るスキャナなどの入力デバイスであり、この画像入力部１１によって読み取られた画像データは前処理部１２に出力される。
【００２０】
前処理部１２は、画像入力部１１から受け取った画像データの前処理をおこなう処理部であり、具体的には、この画像データを平滑化処理してノイズを除去した後に、これを所定のしきい値で二値化して二値画像を取得し、この二値画像から文字を切り出した後に、これを正規化する処理部である。
【００２１】
特徴抽出部１３は、前処理部１２が前処理をおこなった正規化された文字データから特徴量を抽出する処理部であり、具体的には、文字の画像データを５×５などにメッシュ割りし、各メッシュについての輪郭の方向を求めることになる。たとえば、輪郭の方向を８方向とすると、５×５×８＝２００次元の特徴空間が形成されることになる。
【００２２】
認識処理部１４は、手書き文字などの入力文字から抽出された特徴量をあらかじめ用意された認識辞書１５内の特徴量と照合することにより、入力文字がどのカテゴリーに属するかを判定し、その判定結果に基づいてパターン認識をおこなう処理部である。
【００２３】
認識辞書作成部１６は、認識辞書１５を作成する処理部であり、具体的には、類似するカテゴリー（ライバルカテゴリー）を考慮したベイズ決定則から導かれる二次識別関数に基づいて認識辞書１５を作成する。
【００２４】
学習処理部１７は、認識処理部１４による認識結果を用いて認識辞書１５の学習をおこなう処理部であり、具体的には、ベイズ決定則から導かれる二次識別関数における最小分類誤り（ＭＣＥ）に基づいて学習をおこなう。
【００２５】
識別という側面から部分空間の作成を考えるとライバルカテゴリーの共分散行列を混合するということは、ライバルカテゴリーと着目カテゴリーを識別するための情報を保存するように軸を傾けることを意味するので、混合された共分散行列から得られる固有値が認識に悪影響を与えることがある。
【００２６】
このため、認識辞書作成部１６では、かかる悪影響を最小限に抑えることにより識別能力を向上させている。具体的には、上記従来技術２のようにライバルカテゴリーの共分散行列の平均を用いるのではなく、加重平均（候補パターンとなる頻度を用いる）を使用し、さらにライバルカテゴリーと着目カテゴリーを混合して得られた共分散行列の固有値を使うのではなく、着目カテゴリーのデータを固有ベクトル（部分空間の軸の方向）に射影することにより固有ベクトルでの分散を求めている。ただし、固有ベクトルは混合して得られた共分散行列から求める。
【００２７】
また、学習処理部１７では、得られた分散に対して最小分類誤り基準に基づき、従来技術３と異なる誤分類尺度を用いて平均損失を最小になるようにデータセットごとに勾配法により学習をおこなう。これにより、さらに認識率を向上させることができる。また、分散の初期値としてライバルカテゴリーを考慮した分散を用いるため局所解の問題を避けることができ、未知データに対しても十分な認識精度を得ることができる。ここで用いた部分空間の軸の方向（固有ベクトル）は、類似カテゴリーと着目カテゴリーの共分散行列を混合することにより得られる共分散行列から求められる。
【００２８】
このように、この文字認識装置１０は、認識辞書作成部１６がライバルカテゴリーを考慮したベイズ決定則から導かれる二次識別関数により認識辞書１５を作成する点に第１の特徴があり、また、学習処理部１７がライバルカテゴリーを考慮したベイズ決定則から導かれる二次識別関数における最小分類誤り基準により認識辞書１５の学習をおこなう点に第２の特徴がある。なお、認識処理部１４の認識処理（認識アルゴリズム）自体は従来技術のものと同様である。
【００２９】
（認識辞書の作成について）
次に、図１に示した認識辞書作成部１６による認識辞書の作成について具体的に説明する。通常、ベイズ決定則から導かれる二次識別関数では、「ある入力データが注目カテゴリーの分布に当てはめるとどれくらいあてはまるか」という基準で識別がなされるが、これでは、識別を行う部分空間の次元を圧縮した場合、ライバルカテゴリーと正解のカテゴリーを分類することが極めて困難である。
【００３０】
すなわち、識別面から見ると、ベイズ決定則から導かれる二次識別関数の値が自らのカテゴリーらしさを表現しつつ、ライバルカテゴリーのデータに対して敏感に反応することが望まれることになる。ここで、ライバルカテゴリーに敏感に反応するには、ライバルカテゴリーの主成分の情報をより多く反映するように部分空間を張る必要があるので、この認識辞書作成部１６では、ライバルカテゴリーを考慮した部分空間を形成している。
【００３１】
図２は、図１に示した認識辞書作成部１６によるライバルカテゴリーを考慮した部分空間の軸形成の概念を説明するための説明図である。ただしここでは、正解のカテゴリーをＣ₁とし、ライバルカテゴリーをＣ₂としている。
【００３２】
同図に示すように、ここでは部分空間の軸に射影した場合に、カテゴリーC₂らしさの情報があまり消えないように軸を決めることにより、カテゴリーＣ₂の分布の特徴を残すようにしている。具体的には、カテゴリーＣ₂の主軸の傾きを考慮してカテゴリーＣ₁本来の主軸の傾きを図示したように変更する。
【００３３】
部分空間法、修正二次識別関数（ＭＱＤＦ）による識別は、部分空間を張る軸に射影することにより識別するものであり、分散が小さい軸は無視する手法である。そこで、２次元特徴空間で図２のように新たな軸を決めることにどのような意味があるかを説明する。
【００３４】
図３は、正解カテゴリーの主軸および新しい主軸の成分をライバルカテゴリーの主軸に射影した場合の情報量を説明するための説明図である。ここで、図中に示したＣ₁主軸はカテゴリーＣ₁の標本共分散行列から得られた主軸であり、新しい主軸は、ライバルカテゴリーＣ₂を考慮することにより作成される主軸であり、Ｃ₂主軸は、ライバルカテゴリーＣ₂の標本共分散行列から得られた主軸である。また、ｍ₁はカテゴリーＣ₁の中心であり、Ｐ₁はＣ₁主軸上でｍ₁から距離が１の点であり、Ｐ₂は新しい主軸上でｍ₁から距離が１の点であり、H₁はＣ₂主軸上にＰ₁から射影した点であり、H₂はＣ₂主軸上にＰ₂から射影した点である。
【００３５】
同図に示すように、新しい主軸はＣ₁主軸をＣ₂主軸の方向に少し傾けた形となる。ここで、｜ｍ₁−H₁｜＜｜ｍ₂−H₂｜なので、Ｃ₂主軸上に表れるべき情報はＣ₁主軸からのものよりも新しい主軸からのものの方が多い。ただし、ここではＣ₁主軸、新しい主軸での分散は等しいと仮定する。
【００３６】
図４は、ＸをカテゴリーＣ₁の主軸、副軸、新しい主軸、新しい副軸に射影した後、カテゴリーＣ₂の主軸に射影した場合の情報量を説明するための説明図である。ここで、図中に示したＣ₁副軸は、カテゴリーＣ₁の標本共分散行列から得られた短軸であり、新しい副軸は、ライバルカテゴリーＣ₂を考慮することにより作成される短軸である。また、Ｘは入力データであり、Ｐ₁はＸをＣ₁主軸上へ射影した点であり、Ｐ_1NEWはＸを新しい主軸上へ射影した点であり、Ｐ₂はＸをＣ₁副軸上へ射影した点であり、Ｐ_2NEWはＸを新しい副軸上へ射影した点である。さらに、H₁はＣ₂主軸上にＰ₁から射影した点であり、H₂はＣ₂主軸上にＰ_1NEWから射影した点であり、H₃はＣ₂主軸上にＰ₂から射影した点であり、H₄はＣ₂主軸上にＰ_2NEWから射影した点である。
【００３７】
同図に示すように、すべての軸を用いればどのような軸を用いても同じであることがわかる。短軸を用いない部分空間において、各カテゴリー自身の情報量をよりよく保存しようとすると、分散最大化基準で軸を決めれば良いが、ライバルカテゴリーの情報も考慮したいのであれば、Ｃ₁主軸より新しい主軸の方がよいと考えられる。なぜなら、短軸を用いない場合、各カテゴリーの情報はかなり保存されるが、ライバルカテゴリーと識別するための情報は欠落することになるからである。
【００３８】
このことから分かるように、ライバルカテゴリーに軸が似れば似るほど識別するための情報は増えるわけであるが、図２の分布にしたがってその分散を計算すると、ライバルカテゴリーと分布の差がほとんどなくなる。これではカテゴリーの分布をよりよく表現したとは言えない。
【００３９】
ベイズ決定則から導かれる二次識別関数で要求されているのは、自らの分布をよりよく表現しつつ、ライバルカテゴリーの情報を保有する部分空間を作成することであるので、ライバルカテゴリーを考慮して作成した軸に対して、標本から得られる分散を計算するべきである。自カテゴリーの分布をより良く表現する部分空間を作ることとライバルカテゴリーの情報をよりよく表現することは、トレードオフの関係にあるので、識別の性質上、自カテゴリーの分布をより良く表現することが優先される。
【００４０】
このため、ここでは
Σ^*＝（１−α）Σ_i＋αΣ_r
として定式化する。ただし、Σ_iはカテゴリーＣ_iの共分散行列であり、Σ_rはライバルカテゴリーの共分散行列の加重平均であり、αはライバルカテゴリーの混合比（０≦α≦１）である。
【００４１】
このように作成されたΣ^*は、ライバルカテゴリーを考慮して、該ライバルカテゴリーの分布からある程度の変形を加味したものとして捉えることができる。これは、ライバルカテゴリーのデータにおいて見られた変形は自カテゴリーにおいても見られるはずであり、また、ライバルカテゴリーの情報をより多く含んだものであると言える。
【００４２】
例えば、ベイズ決定則から導かれる二次識別関数が修正二次識別関数であるとすると、図１に示した認識辞書作成部１６では、
【数１】

と定義した識別関数ｇ（ｘ）を採用することとなる。これは、「ライバルカテゴリーの情報を加味した部分空間で自カテゴリーを正確に記述することにより識別をおこなう」という立場に立つものである。
【００４３】
これに対して、一般的なベイズ決定則から導かれる二次識別関数ｆ（ｘ）は、
【数２】

として定義される。これは、「ライバルカテゴリーの情報を加味し、自カテゴリーをより正確に表現された部分空間で識別をおこなう」という立場に立つものである。
【００４４】
この立場の違いは、「標本サンプルから得られた分布に対してライバルパターンの分布を考慮することにより得られる分布が母集団の分布に近づくのか」、「そして、それは識別にとって最良であるのか」ということに起因する。
【００４５】
次に、上記識別関数ｇ（ｘ）、ｆ（ｘ）を用いた場合の実験結果について説明する。図５は、識別関数ｇ（ｘ）、ｆ（ｘ）を用いた場合の実験結果を示す説明図である。なお、使用する字種はひらがな７３カテゴリーとし、辞書は各カテゴリーの偶数番目のデータ約１００個で作成し、テストデータは奇数番目のデータ約１００個とし、使用する固有値数は２９、パラメータｈは実験による最も良い値を用いるものとし、リジェクトは無いものとする。
【００４６】
図５に示すように、混合比率αを上げていくとｇ（ｘ）、ｆ（ｘ）ともに０．４で最も認識精度がよく、このことからライバルパターンを考慮することにより母集団との推定誤差が減少したのではないかと考えられる。しかしながら、混合比率αが０．３５以上ではｇ（ｘ）を用いたの認識精度が良くなることから、母集団の推定誤差が増大したと考えられる。
【００４７】
このことから、混合比率を上げていくとあるところから推定誤差が増大し、標本サンプルから得られる分散を用いることにより推定誤差をある程度減少させ認識精度が向上することが分かる。
【００４８】
また、混合比率が０．４以上でｇ（ｘ）、ｆ（ｘ）ともに認識精度が同じ幅で落ちているのは、識別するための情報が落ちたことを意味し、ｇ（ｘ）のほうが部分空間の各軸での分散の推定誤差が少ないことを意味している。ある一定以上の混合比率では自カテゴリーの情報量が減少し、識別する精度が低下することが分かる。
【００４９】
次に、識別関数ｆ（ｘ）とｇ（ｘ）による識別結果について説明する。図６は、識別関数ｆ（ｘ）とｇ（ｘ）を用いた場合の識別結果を説明するための説明図であり、同図（ａ）には識別関数ｇ（ｘ）を用いた方が識別関数ｆ（ｘ）を用いた場合よりも良くなる例を示しており、同図（ｂ）には識別関数ｇ（ｘ）を用いた方が識別関数ｆ（ｘ）を用いた場合よりも悪くなる例を示している。ただし、ここでは混合比率αを０．４とする。
【００５０】
同図（ｂ）に示すように、濁音、撥音のような文字に対しては識別関数ｆ（ｘ）を用いる方が良い場合もあるが、明らかに異なる文字に関しては、識別関数ｇ（ｘ）を用いる方がよい。
【００５１】
このように、ライバルカテゴリーを加味して決定した部分空間で識別することが有効であり、ライバルカテゴリーの混合比率を上げる場合には、自カテゴリー（学習データ）を部分空間の各軸に射影し分散を求めることが有効となる。また、ライバルカテゴリーの共分散行列を用いることにより、自カテゴリーの変形を考慮することが可能になり、母分布の推定誤差が減少する。
【００５２】
（学習処理）
次に、図１に示した学習処理部１７による学習処理について説明する。認識辞書作成部１６が用いるベイズ決定則から導かれる二次識別関数（ＭＱＤＦ）は文字認識において高い認識精度を持つことが示されている。しかしながら、このベイズ決定則から導かれる二次識別関数は各カテゴリーのみを記述する形であるため、良く似たカテゴリー間では十分な認識精度を得るのが難しい。特に、識別で用いる部分空間の次元数を減少させると認識精度が低下する。これは、ライバルパターンの分布を考慮していないため自カテゴリの情報が減少すると正確に識別できなくなるためである。
【００５３】
このため、部分空間の軸に対して最小分類誤り（ＭＣＥ）に基づき学習をおこなうことにより、認識精度を向上させる技術が知られている。このため、この学習処理部１７では、最小分類誤り（ＭＣＥ）に基づく学習によって固有値を修正することにより、認識精度を向上させている。
【００５４】
まず、この最小分類誤り（ＭＣＥ）とはいかなるものであるかについて説明する。この最小分類誤り（ＭＣＥ）とは、ベイズ決定則における全損失を勾配探索により最小化する学習の枠組みであり、全損失を求めるに際して確率密度関数と事前確率が既知でなくてはならないが、これらを求めることは一般に困難なので、代わりに学習サンプルｘｉによる平均損失が用いられる。
【００５５】
具体的には、学習サンプル数をＮ、クラス数をＭ、推定すべきパラメータをΛ、損失関数をｌ（u）（下記（５）式）とし、ｘ_iがクラスｗ_kに属するときは１、それ以外のときには０となる関数を１（ｘ_i∈Ｃ_k）とすると、平均損失Ｌ₀（Λ）は、
【数３】

となる。
【００５６】
また、誤分類尺度ｕ_k（ｘ；Λ）については、
ｕ_k（ｘ；Λ）＝（ｄ₁−ｄ₂）／（ｄ₂＋ｅ）・・・（４）
と定義する。ただし、ｄ₁は正解カテゴリーへの距離、ｄ₂はライバルカテゴリーへの距離の最短値であるものとする。
【００５７】
さらに、損失関数ｌ（ｕ）を、
ｌ（ｕ）＝１／（１＋ｅ^-α^(t)u）・・・（５）
α（ｔ）＝１２（ｔ＋１）・・・（６）
と定義する。
【００５８】
ここで、時間ｔに依存する微少な正の実数をε（ｔ）とすると、最急勾配法によって、
【数４】

という漸化式で平均損失を最小化することができる。
【００５９】
次に、図１に示した学習処理部１７が採用する損失の最小化について説明する。ここでは、誤分類尺度ｕ_k（ｘ；Λ）については（４）式に示したものを採用し、損失関数ｌ（ｕ）については（５）式に示したものを採用する。そして、クラスｗ_iとｘとの距離ｄ（ｉ、ｘ）を
【数５】

のように定義する。また、平均損失Ｌ（ｔ）を
【数６】

と定義する。ただし、Ｎは各クラスの学習データ数である。
【００６０】
ここで、この学習処理部１７でも、最急勾配法を用いて損失Ｌを最小化するため、上記（４）式と同様に、
【数７】

の漸化式を用いることになる。なお、この（７）式に関連して以下に示すような関係式が成立する。
【数８】

【００６１】
このため、学習データで自カテゴリーに対する修正をおこなう場合には、（１２）、（１３）、（１４）、（１６）式から、次式に示す（１７）式にしたがうことになり、またライバルカテゴリーに対する修正をおこなう場合には、（１２）、（１３）、（１５）、（１６）式から、（１８）式にしたがうことになる。なお、λ_ij＜０のときにはλ_ij＝０とする。
【数９】

【００６２】
以上のことから、
【数１０】

となり、誤分類尺度での値がしきい値ｈ以上である場合には、（１７）式および（１８）を用いて修正をおこなうことになる。
【００６３】
なお、（２０）式が下記に示す（２１）式および（２２）式の条件を満たす場合には、（２３）式、（２４）式から明らかなように収束する。すなわち、本学習則は収束することになる。
【数１１】

【００６４】
また、（１９）式を用いて固有値の発散問題について説明する。図７は、（１９）式を説明するためのイメージ図である。同図に示すように、∇ｌ₊＞∇ｌ_-であるならばλ_ijは増大していくが、このλ_ijがある一定以上増大すると、∇ｌ_-が増大するはずなので、結果的に均衡状態になると考えられる。また、この逆の場合にも同様になる。
【００６５】
また、「λ_ij＜０のときにはλ_ij＝０とする」とした理由は、λ_ijがどんどん減少してマイナスとなった場合に、（１７）式、（１８）式による修正量が膨大なものとなり、その結果∇ｌ₊が増加に転じた場合でも収束が困難になるからである。同時に修正を続けることにより収束するとすれば、ε（ｔ）を単調減少させても、その減少が緩やかであれば問題ないはずである。また、修正を続けた結果、加速的に修正量が増加して発散するのを防ぐために、ここではε（ｔ）を単調減少関数としている。
【００６６】
次に、上記固有値学習が未知データに対して有効である旨を示す実験結果について説明する。なお、ここでは識別関数として下記に示すベイズ決定則から導かれる二次識別関数、例えば、修正二次識別関数とすると、
【数１２】

を用いることとする。ただし、Σ_iはクラスＣ_iの共分散行列であり、Ｐ_ijはクラスＣ_iの共分散行列から作成される固有ベクトルであり、λ_ijはクラスＣ_iの共分散行列から作成される固有値である。また、ここではｌｏｇＰ（Ｃｉ）は各クラスで同じ値とし、ｈ＝６０、ｋ＝２９とする。さらに、認識対象は７３字種とし、学習データは各カテゴリーの偶数番目とし、テストデータは各カテゴリーの奇数番目とする。
【００６７】
図８は、図１に示した学習処理部１７により学習をおこなった実験結果の一例を示す図である。なお、ε₁＝２とする。同図に示すように学習を繰り返すと、学習回数１５回で未知データに対してもっとも認識精度がよく、それ以降は認識精度が低下する。
【００６８】
これに対して、学習データについては学習すればするほど認識精度が上がる。つまり、学習回数１５回で未知データに対して最もフィッティングし、それ以降は過学習の状態となる。
【００６９】
また、（６）式を定数とした場合も同じような傾向が見られるが、認識能力は若干低くなった。これは、（６）式を単調減少させることにより、より分布の周辺に重みを持たせることとなり認識精度が良くなったと考えられる。
【００７０】
次に、かかる学習処理部１７による学習の結果、改善された例と悪くなった例について説明する。図９は、図１に示した学習処理部１７による学習の結果、改善された例と悪くなった一例を示す図である。同図（ｂ）に示すように一部の文字については悪くなる場合もあるが、基本的にはかかる学習によれば、同図（ａ）に示すように、濁音、撥音のような文字などについて改善される。
【００７１】
このように、この学習処理部１７では、学習する際にライバルカテゴリーを用いた修正をおこなっているので、単に最小分類誤り（ＭＣＥ）基準を用いる場合よりも未知データに対して文字の認識率を高めることができる。
【００７２】
上述してきたように、本実施の形態では、認識辞書作成部１６がライバルカテゴリーを考慮したベイズ決定則から導かれる二次識別関数により認識辞書１５を作成するとともに、学習処理部１７がライバルカテゴリーを考慮したベイズ決定則から導かれる二次識別関数における最小分類誤り基準により認識辞書１５の学習をおこなうよう構成したので、認識精度を向上させることができる。
【００７３】
なお、本実施の形態では、本発明に係る認識辞書作成部１６および学習処理部１７を文字認識装置に設けた場合について説明したが、本発明はこれに限定されるものではなく、スタンドアロンの認識辞書作成装置に適用することもできる。また、ここでは文字認識をおこなう場合に適用することとしたが、本発明はこれに限定されるものではなく、部分空間を使った各種パターン認識に適用することもできる。
【００７４】
【発明の効果】
以上説明したように、請求項１の発明によれば、着目カテゴリーと類似する類似カテゴリーの共分散行列の加重平均及び着目カテゴリーの共分散行列を混合した部分空間の軸方向に着目カテゴリーの学習データを射影して求めた分散を用いて形成した二次識別関数に基づいて前記認識辞書を作成するとともに、類似カテゴリーを考慮したベイズ決定則から導かれる二次識別関数における最小分類誤り基準により認識辞書の学習をおこなうよう構成したので、類似カテゴリーを考慮する場合の悪影響を抑制して認識精度を向上させるとともに、過学習を防止しつつ迅速かつ効率良く学習をおこなうことが可能なパターン認識装置が得られるという効果を奏する。特に、共分散行列の推定誤差を減少させ、もって認識精度を向上させることが可能となる。
【００７６】
また、請求項２の発明によれば、求めた類似カテゴリーを考慮した分散をもとに最小分類誤り基準を適用して得られる平均損失が最小となるように勾配法により学習をおこなうよう構成したので、さらに認識率を向上させることが可能なパターン認識装置が得られるという効果を奏する。
【００７７】
また、請求項３の発明によれば、着目カテゴリーと類似する類似カテゴリーの共分散行列の加重平均及び着目カテゴリーの共分散行列を混合した部分空間の軸方向に着目カテゴリーの学習データを射影して求めた分散を用いて形成した二次識別関数に基づいて前記認識辞書を作成するとともに、類似カテゴリーを考慮したベイズ決定則から導かれる二次識別関数における最小分類誤り基準により認識辞書の学習をおこなうよう構成したので、類似カテゴリーを考慮する場合の悪影響を抑制して認識精度を向上させるとともに、過学習を防止しつつ迅速かつ効率良く学習をおこなうことが可能なパターン認識方法が得られるという効果を奏する。特に、共分散行列の推定誤差を減少させ、もって認識精度を向上させることが可能となる。
【００７９】
また、請求項４の発明によれば、求めた類似カテゴリーを考慮した分散をもとに最小分類誤り基準を適用して得られる平均損失が最小となるように勾配法により学習をおこなうよう構成したので、さらに認識率を向上させることが可能なパターン認識方法が得られるという効果を奏する。
【００８０】
また、請求項５の発明によれば、請求項３〜４のいずれか一つに記載された方法をコンピュータに実行させるプログラムを記録したことで、そのプログラムを機械読み取り可能となり、これによって、請求項３〜４のいずれか一つの動作をコンピュータによって実現することが可能な記録媒体が得られるという効果を奏する。
【図面の簡単な説明】
【図１】この発明の実施の形態に係る文字認識装置の構成を示す機能ブロック図である。
【図２】図１に示した認識辞書作成部によるライバルカテゴリーを考慮した部分空間の軸形成の概念を説明するための説明図である。
【図３】正解カテゴリーの主軸および新しい主軸の成分をライバルカテゴリーの主軸に射影した場合の情報量を説明するための説明図である。
【図４】ＸをカテゴリーＣ₁の主軸、副軸、新しい主軸、新しい副軸に射影した後、カテゴリーＣ₂の主軸に射影した場合の情報量を説明するための説明図である。
【図５】識別関数ｇ（ｘ）、ｆ（ｘ）を用いた場合の実験結果を示す説明図である。
【図６】識別関数ｆ（ｘ）とｇ（ｘ）を用いた場合の識別結果を説明するための説明図である。
【図７】（１９）式を説明するためのイメージ図である。
【図８】図１に示した学習処理部により学習をおこなった実験結果の一例を示す図である。
【図９】図１に示した学習処理部による学習の結果、改善された例と悪くなった一例を示す図である。
【符号の説明】
１０文字認識装置
１１画像入力部
１２前処理部
１３特徴抽出部
１４認識処理部
１５認識辞書
１６認識辞書作成部
１７学習処理部

Claims

認識辞書に記憶した特徴量に基づいて入力パターンが属するカテゴリーを判定し、この判定結果に基づいてパターン認識をおこなうパターン認識装置において、
着目カテゴリーと類似する類似カテゴリーの共分散行列の加重平均及び着目カテゴリーの共分散行列を混合した部分空間の軸方向に着目カテゴリーの学習データを射影して求めた分散を用いて形成した二次識別関数に基づいて前記認識辞書を作成する認識辞書作成手段と、
前記類似カテゴリーを考慮したベイズ決定則から導かれる二次識別関数における最小分類誤り基準により前記認識辞書の学習をおこなう学習処理手段と
を備えたことを特徴とするパターン認識装置。
前記学習処理手段は、前記認識辞書作成手段により求めた類似カテゴリーを考慮した分散をもとに最小分類誤り基準を適用して得られる平均損失が最小となるように勾配法により学習をおこなうことを特徴とする請求項１に記載のパターン認識装置。
認識辞書に記憶した特徴量に基づいて入力パターンが属するカテゴリーを判定し、この判定結果に基づいてパターン認識をおこなうパターン認識装置のパターン認識方法において、
前記パターン認識装置により着目カテゴリーと類似する類似カテゴリーの共分散行列の加重平均及び着目カテゴリーの共分散行列を混合した部分空間の軸方向に着目カテゴリーの学習データを射影して求めた分散を用いて形成した二次識別関数に基づいて前記認識辞書を作成する認識辞書作成工程と、
前記パターン認識装置により前記類似カテゴリーを考慮したベイズ決定則から導かれる二次識別関数における最小分類誤り基準により前記認識辞書の学習をおこなう学習処理工程と
を含んだことを特徴とするパターン認識方法。
前記学習処理工程は、前記認識辞書作成工程により求めた類似カテゴリーを考慮した分散をもとに最小分類誤り基準を適用して得られる平均損失が最小となるように勾配法により学習をおこなうことを特徴とする請求項３に記載のパターン認識方法。
前記請求項３〜４に記載された方法をコンピュータに実行させるプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。