JP2007257250A

JP2007257250A - 文字認識方法及びその装置及びそのプログラムを格納した記憶媒体

Info

Publication number: JP2007257250A
Application number: JP2006080180A
Authority: JP
Inventors: Yoshimasa Kimura; 義政木村
Original assignee: Kochi University of Technology
Current assignee: Kochi University of Technology
Priority date: 2006-03-23
Filing date: 2006-03-23
Publication date: 2007-10-04

Abstract

【課題】大分類結果の信頼性が高い場合は後続の識別を行わず前記結果を認識結果とすることにより文字認識系全体の計算量を削減する文字認識方法及びその装置及びそのプログラムを格納した記憶媒体を提供する。
【解決手段】
大分類で第１位候補の取り得る分類尺度の範囲を複数区間に分割して区間毎にパラメータを格納したテーブルを予め作成しておき、大分類で第１位候補の分類尺度が属する前記区間に格納されているパラメータと前記第１位候補および第２候補の分類尺度とから前記第１位候補が正解カテゴリであるかの信頼性判定を行い、信頼性が高い場合は識別を行わないことにより文字認識系全体の計算量の削減を図る。
【選択図】図1

Description

本発明は、文字認識方法とその装置および文字認識プログラムを格納した記憶媒体に関する。

従来の文字認識の方法としては、前処理−特徴抽出−識別からなる認識系がよく採られている（例えば非特許文献１参照）。入力された文字パターンは前処理部において、パターン中に存在する雑音の除去、文字パターンの位置や大きさの正規化が施される。特徴抽出部では文字パターンの本質を表わす特徴が抽出される。この特徴は、文字パターンの種類によって予め定められている。識別部では、認識対象とするカテゴリの典型的なパターンである標準パターンを用意しておき、入力文字パターンと該標準パターンとの近さの尺度を用い、最も近い尺度に対応するカテゴリを認識結果として出力する方法が知られている。

認識対象とする字種が数字、記号等のように数十のオーダである場合は入力文字パターンと全ての標準パターンとの間で照合の演算を施しても計算時間は比較的短い時間に留まるが、漢字の如く数千のオーダになると計算時間は単純に見積もっても数字、記号等の場合の１００倍以上になる。

そこで、計算時間を短縮すべく、まず、大分類を行って候補を比較的少数個に絞り、次に、絞られた候補に対して識別を行うという処理方法が採られている。大分類においては絞り込んだ候補の中に正解カテゴリが高確率で入っていることと、候補数を極力少なくすること、大分類自体の計算量を低減することが要求される。

大分類の方法としては、候補数が不定となる場合と固定となる場合に大別される。不定となる場合は、大分類用の特徴を用いて、該特徴に設定された所定の条件を満たすカテゴリを候補として選出する手法において見られる。その典型例として、複雑指数（非特許文献１参照）がある。複雑指数は特徴次元が1〜２次元と低く、高速な処理が可能という長所がある。しかし、複雑な字形の文字に対しては候補数が多くなるという性質があり、絞り込む候補数の点で問題がある。

前記問題点を解決する方法の一つとして候補数を固定にする方法がある。その典型例としては、大分類用の特徴を用いて全てのカテゴリについて入力文字パターンと該カテゴリの標準パターンとの間の距離を計算し、距離の昇順に予め定めた固定個数の候補を選出する方法（非特許文献２参照）がある。この方法は高次元の特徴の距離を用いているため、少数個の特徴の値が変動してもその他である多数個の特徴の値が安定であれば特徴全体の距離値は正常の変動範囲内に留まるので、分類精度が高いという長所がある。しかし、距離計算はベクトル演算であるため計算量が多く処理時間を要するという問題点がある。

大分類における距離計算の時間を削減する方法として、階層的大分類（非特許文献３参照）がある。この方法は、分類回路を複数個直列接続して階層構造を採るようにし、まず、最前段の階層では少数個の特徴を用いて粗く候補を絞り、次の階層では特徴数を増加して最前段よりは精細な分類を行い、以降、段数を経る度に特徴数を増加させながら候補を絞り込んで行き、最後段の階層において所望の候補数を得るものである。この方法により大分類の処理時間は短縮されたが、文字認識系全体の処理時間を短縮する課題は残されたままとなっている。

「パターン認識」電子情報通信学会、１９８８．「三つの概形特徴を用いた手書き漢字の分類」、電子情報通信学会論文誌、（Ｄ），ｖｏｌ．Ｊ６３−Ｄ，ｎｏ．１２，ｐｐ．１０９６−１１０２，１９８０年１２月．「拡張外郭方向寄与度特徴と輪郭特徴とを用いた手書き漢字／非漢字のハイブリッド認識」、電子情報通信学会論文誌，Ｄ−▲２▼，ｖｏｌ．Ｊ−８２−Ｄ−▲２▼，ｎｏ．１２，ｐｐ．２２７１−２２７９，１９９９年１２月．

本発明は上記に鑑みてなされたものであり、大分類の信頼性が高いときには識別を行わず大分類結果を認識結果として出力し、それ以外のときは通常通り識別を行った結果を認識結果とすることにより文字認識系全体の計算量を削減する文字認識方法とその装置及びそのプログラムを格納した記憶媒体を提供するところにある。

本発明は上記目的を達成するため、入力文字パターンの特徴と標準辞書との特徴との間で計算して得られる近さの尺度を用いて前記入力文字パターンの属するカテゴリを前記尺度の昇順に候補列として出力する文字認識方法において、
大分類で第１位候補の取り得る分類尺度の範囲を複数区間に分割して区間毎に第１のパラメータおよび第２のパラメータを格納したテーブルを予め作成しておき、
前記入力文字パターンの特徴の全部または一部と前記標準辞書との特徴の全部または一部との間で分類尺度を計算することにより認識対象とする候補数を絞り込む大分類を行い、
前記入力文字パターンを大分類して第１位となった候補の分類尺度が属する前記区間に格納されている第１のパラメータおよび第２のパラメータを前記テーブルから読み出し、
前記第１位候補の分類尺度と第２位候補の分類尺度と前記読み出された第１のパラメータおよび第２のパラメータとから前記第１位候補が正解カテゴリであるかの信頼性判定を行い、
信頼性が高いと判定された場合は前記第１位候補を認識結果として出力し、信頼性が高いと判定されなかった場合は大分類で得られた候補を認識対象として後続の識別部に送出して識別部で得られた結果を認識結果として出力し、
大分類で第１位候補の分類尺度を縦軸として該候補の分類尺度がとる範囲を分割してできる区間と、第１位候補の分類尺度と第２位候補の分類尺度との差を横軸として該差がとる範囲を分割してできる区間とからなるマトリクスを作成し、該マトリクスの縦軸における区間の上限値、横軸における区間の下限値をそれぞれ第１のパラメータ、第２のパラメータとしたとき、該マトリクスの要素が大分類結果を認識結果として受理した文字パターンの正読パターン数および誤読パターン数を表すよう形成しておき、
該正読パターン数および誤読パターン数を用いて、大分類における誤読率が予め定められた閾値以内となることと、前記正読パターン数から前記誤読パターン数を引いた数が最大となることのうち少なくとも一方が成立するよう前記第１のパラメータおよび前記第２のパラメータの修正を行うこと、
を最も主要な特徴とする。

また、前記第１のパラメータおよび第２のパラメータを格納したテーブルは、
（１）上記の方式
（２）大分類で第１位候補が指定するアドレスに前記第１のパラメータおよび第２のパラメータを格納した方式
の少なくとも一つの場合を含むことを特徴とする。

本発明は次のような効果を奏する。請求項１、請求項４に記載されている発明は、入力パターンと標準パターンとの間の近さの尺度を用いて識別を行う方法であって、大分類で得られた第１位の分類尺度が属する区間に格納されている前記第１のパラメータと第２のパラメータをテーブルから読み出し、前記第１位候補の分類尺度と第２位候補の分類尺度に適用して前記第１位候補が正解カテゴリであるかの信頼性判定を行い、信頼性が高いと判定された場合は識別処理を行わず前記第１位候補を認識結果として出力するようにしているので、文字認識系全体の計算時間を短縮できる長所がある。

また、大分類で第１位候補の分類尺度を縦軸として該候補の分類尺度がとる範囲を分割してできる区間と、第１位候補の分類尺度と第２位候補の分類尺度との差を横軸として該差がとる範囲を分割してできる区間とからなるマトリクスを作成し、該マトリクスの縦軸における区間の上限値、横軸における区間の下限値をそれぞれ第１のパラメータ、第２のパラメータとしたとき、該マトリクスの要素が大分類結果を認識結果として受理した文字パターンの正読パターン数および誤読パターン数を表すよう形成しておき、該正読パターン数および誤読パターン数を用いて、大分類における誤読率が予め定められた閾値以内となることと、前記正読パターン数から前記誤読パターン数を引いた数が最大となることのうち少なくとも一方が成立するよう前記第１のパラメータおよび前記第２のパラメータの修正を行う学習機能を有しているので、文字認識装置、あるいは、文字認識プログラムがユーザサイドに渡ってからも誤読率を常に一定値以下に保つこと、あるいは、認識の効果を最大化できる長所がある。

請求項２、請求項４に記載されている発明は、請求項１、請求項３に記載されている発明において、大分類で得られた第１位の分類尺度が属する区間を複数でなく１区間としたものであり、複数区間を用いる場合に比べ候補数の削減効果は小さいもののテーブルに使用するメモリ容量が小さくなるという長所がある。

以下、本発明の実施の形態について図面を参照して説明する。

図1は本発明の一実施例を示すパターン認識装置のブロック構成図であり、実線は各部間のデータの流れを示し、破線は制御部１１の制御信号の流れを示す。

同図のパターン認識装置は、文字パターン入力部１、前処理部２、特徴抽出部３、大分類部４、大分類辞書５、判定部６、パラメータ学習部７、識別部８、識別辞書９、認識結果メモリ部１０、制御部１１から成る。

文字パターン入力部１はスキャナ、テレビカメラ等の入力装置により文字パターンを取り込み、前処理部２は正規化・雑音除去等を行い、特徴抽出部３は認識に使用するための特徴を入力文字パターンから抽出し、大分類部４は特徴抽出部２より得られた前記入力文字パターンの特徴と大分類辞書５に蓄積されている標準パターンの特徴との近さの尺度をカテゴリ毎に計算し、該尺度を昇順に並べて候補とともに判定部６に出力する。判定部６は大分類部４の信頼性を予め定めた条件式で判定し、条件を満足した場合は大分類結果が認識結果メモリ部１０に送出され格納される。条件を満足しなかった場合は、大分類で得られた候補は識別部８に送出される。識別部８は送出された候補に対し、前記入力文字パターンの特徴と識別辞書９に蓄積されている標準パターンの特徴との近さの尺度をカテゴリ毎に計算し、昇順に並べた該尺度と該尺度に対応する候補を識別結果とし認識結果メモリ部１０に出力する。パラメータ学習部７は判定部６により認識結果メモリ部１０に直接送出された前記入力文字パターンの大分類結果を受け取り、誤読率を常に一定値以下に保持するよう、あるいは、認識の効果を最大化するようパラメータ学習部７の内部のパラメータを修正する。

次に、本発明の判定部６の動作を図２を用いて説明する。図２は本発明の一実施例を示す判定部６の機能ブロック図であって、判定処理回路６１、判定用テーブル６２から成る。

判定処理回路６１は判定用テーブル６２から判定処理に用いる閾値を読み出し、条件式に適用して大分類の信頼性を判定する。次に処理の詳細を示す。

判定用テーブル６２の形式を図３に示す。図３ではカテゴリＣ_ｊ（ｊ＝１，２，．．．, Ｎ）が第1位候補として出現したとき、該候補の分類尺度がとる第ｎ区間の下限、上限がそれぞれｉ_ｊ１ ⁽ⁿ⁾，ｉ_ｊ２ ⁽ⁿ⁾で、また、該区間における第１のパラメータおよび第２のパラメータが判定用閾値としてそれぞれθ_ｊ１ ⁽ⁿ⁾，θ_ｊ２ ⁽ⁿ⁾で登録されている。大分類部４から候補が送出されると、判定処理回路６１は第1位候補Ｃ_ｆとＣ_ｆのとる分類尺度ｄ_ｆを得て、判定用テーブル６３の中でＣ_ｆが指定するアドレスを参照し、ｉ_ｆ1 ^(ｍ)≦ｄ_ｆ＜ｉ_ｆ2 ^(ｍ)を満足する区間ｍを検出し、該区間における判定用閾値θ_ｆ1 ^(ｍ)，θ_ｆ２ ^(ｍ)を読み出す。

判定処理回路６１は第1位候補Ｃ_ｆのとる分類尺度ｄ_ｆと第２位候補Ｃ_ｓのとる分類尺度ｄ_ｓ（ここでｄ_ｆ≦ｄ_ｓ）と判定用閾値θ_ｆ1 ^(ｍ)，θ_ｆ２ ^(ｍ)が次の式（１）、式（２）をともに満足するとき大分類結果は信頼性が高いと判断する。
ｄ_ｆ≦θ_ｆ1 ^(ｍ) （１）
ｄ_ｓ−ｄ_ｆ≧θ_ｆ２ ^(ｍ) （２）
式（１）は第１位候補Ｃ_ｆの該分類尺度ｄ_ｆが判定用閾値θ_ｆ1 ^(ｍ)以下の値であることを表し、式（２）は第1位候補Ｃ_ｆのとる分類尺度ｄ_ｆと第２位候補Ｃ_ｓのとる分類尺度ｄ_ｓとの差Δｄが判定用閾値θ_ｆ２ ^(ｍ)以上の値であることを表している。判定用閾値θ_ｆ1 ^(ｍ)，θ_ｆ２ ^(ｍ)は式（１）、式（２）の条件を満足したときの誤読率が予め定めた値以下となるよう大量の学習パターンを用いた分析により設定されている。
判定処理回路６１で信頼性が高いと判定された場合は、大分類で得られた候補列および該候補列の分類尺度が認識結果メモリ部１０に送出される。式（１）、式（２）の少なくともひとつの条件を満足しなかった場合は、判定処理回路６１は信頼性が高いと判定せず大分類で得られた候補列および該候補列の分類尺度は識別部８に転送され、識別部８で得られた候補列と識別尺度が認識結果として認識結果メモリ部１０に出力される。

次に、本発明のパラメータ学習部７の動作を図４を用いて説明する。図４は本発明の一実施例を示すパラメータ学習部７の機能ブロック図であって、誤読率計算回路７１、判定結果メモリ部７２、判定パラメータ計算回路７３、正読パターン管理テーブル７４、誤読パターン管理テーブル７５、パラメータ修正回路７６から成る。パラメータ学習部７の役割は、文字認識装置、あるいは、文字認識プログラムがユーザサイドに渡り、稼動状態になったとき、大分類部４における誤読率を常に一定値以下に保持できるよう、あるいは、認識の効果を最大化できるよう判定用閾値θ_ｆ1 ^(ｍ)，θ_ｆ２ ^(ｍ)を自動で調整するところにある。

判定部６において大分類の信頼性が高いと判定され認識結果メモリ部１０へ送出された文字パターンは、認識結果メモリ部１０で正読／誤読の判定がなされ、その結果は判定結果メモリ部７２へ送出される。判定結果メモリ部７２は大分類部４でこれまでに認識したパターンの正読パターン数ｃ_ｕ、誤読パターン数ｅ_ｕを有しており、認識結果メモリ部１０から認識結果が到来すると正読パターン数ｃ_ｕ、誤読パターン数ｅ_ｕを更新する。

認識結果メモリ部10から送出されてきた認識結果は正読パターン管理テーブル７４、誤読パターン管理テーブル７５の内容も更新する。

正読パターン管理テーブル７４の形式を図５に示す。正読パターン管理テーブル７４は次の手順で作成する。まず、大量の学習パターンを用いて、カテゴリＣ_ｊ（ｊ＝１，２，．．．, Ｎ）が第１位候補として出現したとき該候補の分類尺度がとる範囲を求め、該範囲をＭ分割してできる区間を区間ｍ（ｍ＝１，２，…，Ｍ）として縦軸にとり、第１位候補Ｃ_ｆのとる分類尺度ｄ_ｆと第２位候補Ｃ_ｓのとる分類尺度ｄ_ｓとの差Δｄがとる範囲をＫ分割してできる区間を区間ｋ（ｋ＝１，２，…，Ｋ）として横軸にとることによりマトリクス状のテーブルを作成する。次に、Ｃ_ｆが第１位候補に出現し、式（１）および式（２）を満足し、かつ、Ｃ_ｆが正読となったパターンをｄ_ｆとΔｄの値を基に該当する区間に割り当て、各区間に存在するパターンを集計した数をｃ_ｍｋとして登録する。これは、第１位候補Ｃ_ｆのとる分類尺度ｄ_ｆのとる値が第ｍ区間、Δｄのとる値が第ｋ区間となる正読パターンが学習パターンにおいてｃ_ｍｋ個得られたことを表している。その後、縦軸の区間１〜区間ｍ、横軸の区間ｋ〜区間Ｋの領域Ω内に存在するｃ_ｍｋの総和を取った値を改めてｃ_ｍｋとして書き換える。これにより、ｃ_ｍｋは第ｍ区間の上限値を判定用閾値θ_ｆ1 ^(ｍ)、第ｋ区間の下限値を判定用閾値θ_ｆ２ ^(ｍ)としたときの正読パターン数を表すようになる。

誤読パターン管理テーブル７５の形式を図６に示す。誤読パターン管理テーブル７５は次の手順で作成する。まず、大量の学習パターンを用いて、カテゴリＣ_ｊ（ｊ＝１，２，．．．, Ｎ）が第1位候補として出現したとき該候補の分類尺度がとる範囲を求め、該範囲をＭ分割してできる区間を区間ｍ（ｍ＝１，２，…，Ｍ）として縦軸にとり、第１位候補Ｃ_ｆのとる分類尺度ｄ_ｆと第２位候補Ｃ_ｓのとる分類尺度ｄ_ｓとの差Δｄがとる範囲をＫ分割してできる区間を区間ｋ（ｋ＝１，２，…，Ｋ）として横軸にとることによりマトリクス状のテーブルを作成する。次に、Ｃ_ｆが第1位候補に出現し、式（１）および式（２）を満足し、かつ、Ｃ_ｆが誤読となったパターンをｄ_ｆとΔｄの値を基に該当する区間に割り当て、各区間に存在するパターンを集計した数をｅ_ｍｋとして登録する。これは、第１位候補Ｃ_ｆのとる分類尺度ｄ_ｆのとる値が第ｍ区間、Δｄのとる値が第ｋ区間となる誤読パターンが学習パターンにおいてｅ_ｍｋ個得られたことを表している。その後、縦軸の区間１〜区間ｍ、横軸の区間ｋ〜区間Ｋの領域Ω内に存在するｅ_ｍｋの総和を取った値を改めてｅ_ｍｋとして書き換える。これにより、ｅ_ｍｋは第ｍ区間の上限値を判定用閾値θ_ｆ1 ^(ｍ)、第ｋ区間の下限値を判定用閾値θ_ｆ２ ^(ｍ)としたときの誤読パターン数を表すようになる。

判定部６において大分類の信頼性が高いと判定され認識結果メモリ部１０へ送出されて正読／誤読の判定がなされた文字パターンは、判定の結果がパラメータ学習部７へ送出され正読の場合は正読パターン管理テーブル７４、誤読の場合は誤読パターン管理テーブル７５の該当する区間のデータが更新される。

更新終了後、パラメータ学習部７が誤読率を予め定められた一定の値ε_０以下に保つ作用を持つときの動作について説明する。誤読率計算回路７１は更新された正読パターン数ｃ_ｕ、誤読パターン数ｅ_ｕを判定結果メモリ部７２から読み出し、誤読率
ε＝ｅ_ｕ／（ｃ_ｕ＋ｅ_ｕ）×１００（３）
を計算する。

判定パラメータ計算回路７３は誤読率εが予め定められた閾値ε_０を超えた場合は、判定用閾値θ_ｆ1 ^(ｍ)，θ_ｆ２ ^(ｍ)を変えながら正読パターン管理テーブル７４、誤読パターン管理テーブル７５に格納されているｃ_ｍｋ、ｅ_ｍｋをｃ_ｕ、ｅ_ｕとして式（３）に代入してεを求め、閾値ε_０を超えない条件下で最大となるｅ_ｍ’ｋ’を検出する。

パラメータ修正回路７６は、前記ｅ_ｍ’ｋ’のとる区間ｍ’の上限値と，区間ｋ’の下限値を誤読パターン管理テーブル７５から読み出し、判定用閾値θ_ｆ1 ^(ｍ)，θ_ｆ２ ^(ｍ)として判定用テーブル６２の該当する箇所に格納することによりθ_ｆ1 ^(ｍ)，θ_ｆ２ ^(ｍ)の値を更新する。これにより、文字認識装置、あるいは、文字認識プログラムがユーザサイドに渡った後でも、大分類部４における誤読を予め定められた一定の値ε_０以下に保つことが可能となる。

更新終了後、パラメータ学習部７がパラメータ変更により認識の効果を最大化する作用を持つときの動作について説明する。判定パラメータ計算回路７３は正読パターン管理テーブル７４、誤読パターン管理テーブル７５に格納されているｃ_ｍｋ、ｅ_ｍｋの差分をとった値
ｇ_ｍｋ＝ｃ_ｍｋ−ｅ_ｍｋ（４）
を計算し、ｇ_ｍｋが最大となるｃ_{ｍ’’ｋ’’}、ｅ_{ｍ’’ｋ’’}を検出する。

パラメータ修正回路７６は、前記ｅ_{ｍ’’ｋ’’}のとる区間ｍ’’の上限値と区間ｋ’’の下限値を誤読パターン管理テーブル７５から読み出し、判定用閾値θ_ｆ1 ^(ｍ)，θ_ｆ２ ^(ｍ)として判定用テーブル６２の該当する箇所に格納することによりθ_ｆ1 ^(ｍ)，θ_ｆ２ ^(ｍ)の値を更新する。これにより、文字認識装置、あるいは、文字認識プログラムがユーザサイドに渡った後でも、大分類部４における誤読に対する正読の効果を最大に保つことが可能となる。

更新終了後、パラメータ学習部７が誤読率を予め定められた一定の値ε_０以下に保ちつつ認識の効果を最大化する作用を持つときの動作について説明する。誤読率計算回路７１は更新された正読パターン数ｃ_ｕ、誤読パターン数ｅ_ｕを判定結果メモリ部７２から読み出し、誤読率を式（３）で計算する。

判定パラメータ計算回路７３は正読パターン管理テーブル７４、誤読パターン管理テーブル７５に格納されているｃ_ｍｋ、ｅ_ｍｋの差分をとった値を式（４）で計算し、誤読率εが予め定められた閾値ε_０を超えないｃ_ｍｋ、ｅ_ｍｋの中でｇ_ｍｋが最大となるｃ_{ｍ’’’ｋ’’’}、ｅ_{ｍ’’’ｋ’’’}を検出する。

パラメータ修正回路７６は、前記ｅ_{ｍ’’’ｋ’’’}のとる区間ｍ’’’の上限値と区間ｋ’’’の下限値を誤読パターン管理テーブル７５から読み出し、判定用閾値θ_ｆ1 ^(ｍ)，θ_ｆ２ ^(ｍ)として判定用テーブル６２の該当する箇所に格納することによりθ_ｆ1 ^(ｍ)，θ_ｆ２ ^(ｍ)の値を更新する。これにより、文字認識装置、あるいは、文字認識プログラムがユーザサイドに渡った後でも、大分類部４において誤読率を予め定められた一定の値ε_０以下に保ちつつ認識の効果を最大化することが可能となる。

以上述べた図１の各処理の制御は制御部１１からの信号によって行われる。

本発明に係る文字認識方法の一実施例である図１の動作を図７のフローチャートを用いて説明する。大分類部４は特徴抽出部２より得られた前記入力文字パターンの特徴と大分類辞書５に蓄積されている標準パターンの特徴から分類尺度をカテゴリ毎に計算し、該尺度を昇順に並べて候補とともに判定部６に出力する（ステップ２１）。判定部６では、判定処理回路６１は第1位候補Ｃ_ｆのとる分類尺度ｄ_ｆと第２位候補Ｃ_ｓのとる分類尺度ｄ_ｓ（ここでｄ_ｆ≦ｄ_ｓ）を得て（ステップ２２）、判定用テーブル６２の中でＣ_ｆが指定するアドレスを参照し、ｉ_ｆ1 ^(ｍ)≦ｄ_ｆ＜ｉ_ｆ2 ^(ｍ)を満足する区間ｍを検出し、該区間における判定用閾値θ_ｆ1 ^(ｍ)，θ_ｆ２ ^(ｍ) を読み出す（ステップ２３）。判定処理回路６１はｄ_ｆ,ｄ_ｓ,θ_ｆ1 ^(ｍ)，θ_ｆ２ ^(ｍ)が式（１）、式（２）をともに満足するかを判断する（ステップ２４）。満足する場合は大分類結果は信頼性が高いと判断して大分類で得た候補列および該候補列の分類尺度を認識結果とし（ステップ２６）、認識結果メモリ部１０に格納する（ステップ２７）。式（１）、式（２）の少なくともひとつの条件を満足しなかった場合は、判定処理回路６１は信頼性が高いと判定せず大分類で得られた候補列および該候補列の分類尺度を識別部８に転送し（ステップ２５）、識別部８で得た識別結果を認識結果メモリ部１０に格納する（ステップ２７）。

本発明に係る文字認識方法の一実施例である図４においてパラメータ学習部７が誤読率を予め定められた一定の値ε_０以下に保つ作用を持つときの動作を図８のフローチャートを用いて説明する。第1位候補Ｃ_ｆのとる分類尺度ｄ_ｆと第２位候補Ｃ_ｓのとる分類尺度ｄ_ｓ（ここでｄ_ｆ≦ｄ_ｓ）と判定用閾値θ_ｆ1 ^(ｍ)，θ_ｆ２ ^(ｍ)が式（１）、式（２）をともに満足したとき大分類結果は認識結果として認識結果メモリ部１０に送出され（ステップ３１）、正読か誤読かの判定が行われる（ステップ３２）。
誤読であった場合は、判定結果メモリ部７２に格納されているこれまでの認識で得られた誤読パターン数ｅ_ｕを1だけ増加し（ステップ３３）、ｄ_ｆとΔｄの値から誤読パターン管理テーブル７５で該当する区間（ｍ,ｋ）を検出し縦軸の区間１〜区間ｍ、横軸の区間ｋ〜区間Ｋの領域Ω内に存在する全ての要素の値ｅ_ｍｋを１だけ増加する（ステップ３５）。
正読であった場合は、判定結果メモリ部７２に格納されているこれまでの認識で得られた正読パターン数ｃ_ｕを1だけ増加し（ステップ３４）、ｄ_ｆとΔｄの値から正読パターン管理テーブル７４で該当する区間（ｍ,ｋ）を検出し縦軸の区間１〜区間ｍ、横軸の区間ｋ〜区間Ｋの領域Ω内に存在する全ての要素の値ｃ_ｍｋを１だけ増加する（ステップ３６）。
誤読率計算回路７１は更新された正読パターン数ｃ_ｕ、誤読パターン数ｅ_ｕを判定結果メモリ部７２から読み出し、式（３）で誤読率を計算する（ステップ３７）。誤読率εが予め定められた閾値ε_０を超えているかを判定する（ステップ３８）。超えていない場合は、パラメータ学習の必要はないので終了する（ステップ３９）。超えている場合は、判定パラメータ計算回路７３は判定用閾値θ_ｆ1 ^(ｍ)，θ_ｆ２ ^(ｍ)を変えながら正読パターン管理テーブル７４、誤読パターン管理テーブル７５に格納されているｃ_ｍｋ、ｅ_ｍｋをｃ_ｕ、ｅ_ｕとして式（３）に代入してεを求め、閾値ε_０を超えない条件下で最大となるｅ_ｍ’ｋ’を検出する（ステップ４０）。パラメータ修正回路７６は、前記ｅ_ｍ’ｋ’のとる区間ｍ’の上限値と区間ｋ’の下限値を誤読パターン管理テーブル７５から読み出し、判定用閾値θ_ｆ1 ^(ｍ)，θ_ｆ２ ^(ｍ)として判定用テーブル６２の該当する箇所に格納することによりθ_ｆ1 ^(ｍ)，θ_ｆ２ ^(ｍ)の値を更新する（ステップ４１）。

上述したように、本実施形態では大分類部４で得られた結果の信頼性が高い場合は該結果を認識結果として認識結果メモリ部１０に出力するので、文字認識系全体の処理時間を短縮することができる。

本実施形態は判定用テーブル６２が第1位候補のとる分類尺度において複数区間に分割されている例について説明したが、複数区間でなく１区間であってもよい。１区間の場合を図９に示す。図９ではカテゴリＣ_ｊ（ｊ＝１，２，．．．, Ｎ）が第１位候補として出現したとき、Ｃ_ｊが指定するアドレスにおいて２個の判定用閾値がそれぞれθ_ｊ１，θ_ｊ２で登録されている。

また、本発明の図１に示す各構成要素をプログラムとして構築し、ディスク装置や、フレキシブルディスク、ＣＤ−ＲＯＭ等の可搬記憶媒体に格納しておき、パターン認識を行うときに前記プログラムを前記可搬記憶媒体が接続可能なコンピュータあるいはパターン認識装置にインストールすることにより、容易に本発明を実現することが可能である。

以上、本発明を実施形態に基づき具体的に説明したが、本発明は前記実施形態に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能であることは言うまでもない。

本発明の文字認識装置の一実施例のブロック図である。図１に示す文字認識装置に使用されている判定部６のブロック図である。図２の判定用テーブル６２の一実施例を示す図である。図１に示す文字認識装置に使用されているパラメータ学習部７のブロック図である。図７の正読パターン管理テーブル７４の一実施例を示す図である。図７の誤読パターン管理テーブル７５の一実施例を示す図である。本発明の文字認識方法の一実施例のフローチャートである。本発明におけるパラメータ学習部７の一実施例を示すフローチャートである。図２の判定用テーブル６２の一実施例を示す図である。

符号の説明

１文字パターン入力部
２前処理部
３特徴抽出部
４大分類部
５大分類辞書
６判定部
７パラメータ学習部
８識別部
９識別辞書
１０認識結果メモリ部
１１制御部
６１判定処理回路
６２判定用テーブル
７１誤読率計算回路
７２判定結果メモリ部
７３判定パラメータ計算回路
７４正読パターン管理テーブル
７５誤読パターン管理テーブル
７６パラメータ修正回路

Claims

入力文字パターンの特徴と標準辞書との特徴との間で計算して得られる近さの尺度を用いて前記入力文字パターンの属するカテゴリを前記尺度の昇順に候補列として出力する文字認識方法において、
大分類で第１位候補の取り得る分類尺度の範囲を複数区間に分割して区間毎に第１のパラメータおよび第２のパラメータを格納したテーブルを予め作成しておき、
前記入力文字パターンの特徴の全部または一部と前記標準辞書との特徴の全部または一部との間で分類尺度を計算することにより認識対象とする候補数を絞り込む大分類を行い、
前記入力文字パターンを大分類して第１位となった候補の分類尺度が属する前記区間に格納されている第１のパラメータおよび第２のパラメータを前記テーブルから読み出し、
前記第１位候補の分類尺度と第２位候補の分類尺度と前記読み出された第１のパラメータおよび第２のパラメータとから前記第１位候補が正解カテゴリであるかの信頼性判定を行い、
信頼性が高いと判定された場合は前記第１位候補を認識結果として出力し、信頼性が高いと判定されなかった場合は大分類で得られた候補を認識対象として後続の識別部に送出して識別部で得られた結果を認識結果として出力し、
大分類で第１位候補の分類尺度を縦軸として該候補の分類尺度がとる範囲を分割してできる区間と、第１位候補の分類尺度と第２位候補の分類尺度との差を横軸として該差がとる範囲を分割してできる区間とからなるマトリクスを作成し、該マトリクスの縦軸における区間の上限値、横軸における区間の下限値をそれぞれ第１のパラメータ、第２のパラメータとしたとき、該マトリクスの要素が大分類結果を認識結果として受理した文字パターンの正読パターン数および誤読パターン数を表すよう形成しておき、
該正読パターン数および誤読パターン数を用いて、大分類における誤読率が予め定められた閾値以内となることと、前記正読パターン数から前記誤読パターン数を引いた数が最大となることのうち少なくとも一方が成立するよう前記第１のパラメータおよび前記第２のパラメータの修正を行うこと、
を特徴とする文字認識方法。
前記第１のパラメータおよび第２のパラメータを格納したテーブルは大分類で第１位候補が指定するアドレスに前記第１のパラメータおよび第２のパラメータを格納したことを特徴とする請求項１記載の文字認識方法。
前記信頼性判定の条件は、第１位候補の分類尺度が前記第１のパラメータの値以下であり、かつ、第１位候補の分類尺度と第２位候補の分類尺度との差が前記第２のパラメータの値以上であることを特徴とする請求項１記載の文字認識方法。
入力文字パターンの特徴と標準辞書との特徴との間で計算して得られる近さの尺度を用いて前記入力文字パターンの属するカテゴリを前記尺度の昇順に候補列として出力する文字認識装置において、
大分類で第１位候補の取り得る分類尺度の範囲を複数区間に分割して区間毎に第１のパラメータおよび第２のパラメータを格納したテーブルを予め作成しておき、
前記入力文字パターンの特徴の全部または一部と前記標準辞書との特徴の全部または一部との間で分類尺度を計算することにより認識対象とする候補数を絞り込む大分類を行い、
前記入力文字パターンを大分類して第1位となった候補の分類尺度が属する前記区間に格納されている第１のパラメータおよび第２のパラメータを前記テーブルから読み出し、
前記第１位候補の分類尺度と第２位候補の分類尺度と前記読み出された第１のパラメータおよび第２のパラメータとから前記第１位候補が正解カテゴリであるかの信頼性判定を行い、
信頼性が高いと判定された場合は前記第１位候補を認識結果として出力し、信頼性が高いと判定されなかった場合は大分類で得られた候補を認識対象として後続の識別部に送出して識別部で得られた結果を認識結果として出力する判定手段と、
大分類で第１位候補の分類尺度を縦軸として該候補の分類尺度がとる範囲を分割してできる区間と、第1位候補の分類尺度と第２位候補の分類尺度との差を横軸として該差がとる範囲を分割してできる区間とからなるマトリクスを作成し、該マトリクスの縦軸における区間の上限値、横軸における区間の下限値をそれぞれ第１のパラメータ、第２のパラメータとしたとき、該マトリクスの要素が大分類結果を認識結果として受理した文字パターンの正読パターン数および誤読パターン数を表すよう形成しておき、
該正読パターン数および誤読パターン数を用いて、大分類における誤読率が予め定められた閾値以内となることと、前記正読パターン数から前記誤読パターン数を引いた数が最大となることのうち少なくとも一方が成立するよう前記第１のパラメータおよび前記第２のパラメータの修正を行うパラメータ学習手段と、
を具備することを特徴とする文字認識方法。
前記第１のパラメータおよび第２のパラメータを格納したテーブルは大分類で第１位候補が指定するアドレスに前記第１のパラメータおよび第２のパラメータを格納したことを特徴とする請求項４記載の文字認識装置。
前記信頼性判定の条件は、第１位候補の分類尺度が前記第１のパラメータの値以下であり、かつ、第１位候補の分類尺度と第２位候補の分類尺度との差が前記第２のパラメータの値以上であることを特徴とする請求項４記載の文字認識装置。
請求項１に記載の文字認識方法における処理の段階をコンピュータに実行させるためのプログラムを該コンピュータが読み取り可能な媒体に格納したことを特徴とする記憶媒体。