JP2007257250A - 文字認識方法及びその装置及びそのプログラムを格納した記憶媒体 - Google Patents
文字認識方法及びその装置及びそのプログラムを格納した記憶媒体 Download PDFInfo
- Publication number
- JP2007257250A JP2007257250A JP2006080180A JP2006080180A JP2007257250A JP 2007257250 A JP2007257250 A JP 2007257250A JP 2006080180 A JP2006080180 A JP 2006080180A JP 2006080180 A JP2006080180 A JP 2006080180A JP 2007257250 A JP2007257250 A JP 2007257250A
- Authority
- JP
- Japan
- Prior art keywords
- candidate
- parameter
- classification
- scale
- patterns
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Character Discrimination (AREA)
Abstract
【課題】大分類結果の信頼性が高い場合は後続の識別を行わず前記結果を認識結果とすることにより文字認識系全体の計算量を削減する文字認識方法及びその装置及びそのプログラムを格納した記憶媒体を提供する。
【解決手段】
大分類で第1位候補の取り得る分類尺度の範囲を複数区間に分割して区間毎にパラメータを格納したテーブルを予め作成しておき、大分類で第1位候補の分類尺度が属する前記区間に格納されているパラメータと前記第1位候補および第2候補の分類尺度とから前記第1位候補が正解カテゴリであるかの信頼性判定を行い、信頼性が高い場合は識別を行わないことにより文字認識系全体の計算量の削減を図る。
【選択図】 図1
【解決手段】
大分類で第1位候補の取り得る分類尺度の範囲を複数区間に分割して区間毎にパラメータを格納したテーブルを予め作成しておき、大分類で第1位候補の分類尺度が属する前記区間に格納されているパラメータと前記第1位候補および第2候補の分類尺度とから前記第1位候補が正解カテゴリであるかの信頼性判定を行い、信頼性が高い場合は識別を行わないことにより文字認識系全体の計算量の削減を図る。
【選択図】 図1
Description
本発明は、文字認識方法とその装置および文字認識プログラムを格納した記憶媒体に関する。
従来の文字認識の方法としては、前処理−特徴抽出−識別からなる認識系がよく採られている(例えば非特許文献1参照)。入力された文字パターンは前処理部において、パターン中に存在する雑音の除去、文字パターンの位置や大きさの正規化が施される。特徴抽出部では文字パターンの本質を表わす特徴が抽出される。この特徴は、文字パターンの種類によって予め定められている。識別部では、認識対象とするカテゴリの典型的なパターンである標準パターンを用意しておき、入力文字パターンと該標準パターンとの近さの尺度を用い、最も近い尺度に対応するカテゴリを認識結果として出力する方法が知られている。
認識対象とする字種が数字、記号等のように数十のオーダである場合は入力文字パターンと全ての標準パターンとの間で照合の演算を施しても計算時間は比較的短い時間に留まるが、漢字の如く数千のオーダになると計算時間は単純に見積もっても数字、記号等の場合の100倍以上になる。
そこで、計算時間を短縮すべく、まず、大分類を行って候補を比較的少数個に絞り、次に、絞られた候補に対して識別を行うという処理方法が採られている。大分類においては絞り込んだ候補の中に正解カテゴリが高確率で入っていることと、候補数を極力少なくすること、大分類自体の計算量を低減することが要求される。
大分類の方法としては、候補数が不定となる場合と固定となる場合に大別される。不定となる場合は、大分類用の特徴を用いて、該特徴に設定された所定の条件を満たすカテゴリを候補として選出する手法において見られる。その典型例として、複雑指数(非特許文献1参照)がある。複雑指数は特徴次元が1〜2次元と低く、高速な処理が可能という長所がある。しかし、複雑な字形の文字に対しては候補数が多くなるという性質があり、絞り込む候補数の点で問題がある。
前記問題点を解決する方法の一つとして候補数を固定にする方法がある。その典型例としては、大分類用の特徴を用いて全てのカテゴリについて入力文字パターンと該カテゴリの標準パターンとの間の距離を計算し、距離の昇順に予め定めた固定個数の候補を選出する方法(非特許文献2参照)がある。この方法は高次元の特徴の距離を用いているため、少数個の特徴の値が変動してもその他である多数個の特徴の値が安定であれば特徴全体の距離値は正常の変動範囲内に留まるので、分類精度が高いという長所がある。しかし、距離計算はベクトル演算であるため計算量が多く処理時間を要するという問題点がある。
大分類における距離計算の時間を削減する方法として、階層的大分類(非特許文献3参照)がある。この方法は、分類回路を複数個直列接続して階層構造を採るようにし、まず、最前段の階層では少数個の特徴を用いて粗く候補を絞り、次の階層では特徴数を増加して最前段よりは精細な分類を行い、以降、段数を経る度に特徴数を増加させながら候補を絞り込んで行き、最後段の階層において所望の候補数を得るものである。この方法により大分類の処理時間は短縮されたが、文字認識系全体の処理時間を短縮する課題は残されたままとなっている。
「パターン認識」電子情報通信学会、1988.
「三つの概形特徴を用いた手書き漢字の分類」、電子情報通信学会論文誌、(D),vol.J63−D,no.12,pp.1096−1102,1980年12月.
「拡張外郭方向寄与度特徴と輪郭特徴とを用いた手書き漢字/非漢字のハイブリッド認識」、電子情報通信学会論文誌,D−▲2▼,vol.J−82−D−▲2▼,no.12,pp.2271−2279,1999年12月.
本発明は上記に鑑みてなされたものであり、大分類の信頼性が高いときには識別を行わず大分類結果を認識結果として出力し、それ以外のときは通常通り識別を行った結果を認識結果とすることにより文字認識系全体の計算量を削減する文字認識方法とその装置及びそのプログラムを格納した記憶媒体を提供するところにある。
本発明は上記目的を達成するため、入力文字パターンの特徴と標準辞書との特徴との間で計算して得られる近さの尺度を用いて前記入力文字パターンの属するカテゴリを前記尺度の昇順に候補列として出力する文字認識方法において、
大分類で第1位候補の取り得る分類尺度の範囲を複数区間に分割して区間毎に第1のパラメータおよび第2のパラメータを格納したテーブルを予め作成しておき、
前記入力文字パターンの特徴の全部または一部と前記標準辞書との特徴の全部または一部との間で分類尺度を計算することにより認識対象とする候補数を絞り込む大分類を行い、
前記入力文字パターンを大分類して第1位となった候補の分類尺度が属する前記区間に格納されている第1のパラメータおよび第2のパラメータを前記テーブルから読み出し、
前記第1位候補の分類尺度と第2位候補の分類尺度と前記読み出された第1のパラメータおよび第2のパラメータとから前記第1位候補が正解カテゴリであるかの信頼性判定を行い、
信頼性が高いと判定された場合は前記第1位候補を認識結果として出力し、信頼性が高いと判定されなかった場合は大分類で得られた候補を認識対象として後続の識別部に送出して識別部で得られた結果を認識結果として出力し、
大分類で第1位候補の分類尺度を縦軸として該候補の分類尺度がとる範囲を分割してできる区間と、第1位候補の分類尺度と第2位候補の分類尺度との差を横軸として該差がとる範囲を分割してできる区間とからなるマトリクスを作成し、該マトリクスの縦軸における区間の上限値、横軸における区間の下限値をそれぞれ第1のパラメータ、第2のパラメータとしたとき、該マトリクスの要素が大分類結果を認識結果として受理した文字パターンの正読パターン数および誤読パターン数を表すよう形成しておき、
該正読パターン数および誤読パターン数を用いて、大分類における誤読率が予め定められた閾値以内となることと、前記正読パターン数から前記誤読パターン数を引いた数が最大となることのうち少なくとも一方が成立するよう前記第1のパラメータおよび前記第2のパラメータの修正を行うこと、
を最も主要な特徴とする。
大分類で第1位候補の取り得る分類尺度の範囲を複数区間に分割して区間毎に第1のパラメータおよび第2のパラメータを格納したテーブルを予め作成しておき、
前記入力文字パターンの特徴の全部または一部と前記標準辞書との特徴の全部または一部との間で分類尺度を計算することにより認識対象とする候補数を絞り込む大分類を行い、
前記入力文字パターンを大分類して第1位となった候補の分類尺度が属する前記区間に格納されている第1のパラメータおよび第2のパラメータを前記テーブルから読み出し、
前記第1位候補の分類尺度と第2位候補の分類尺度と前記読み出された第1のパラメータおよび第2のパラメータとから前記第1位候補が正解カテゴリであるかの信頼性判定を行い、
信頼性が高いと判定された場合は前記第1位候補を認識結果として出力し、信頼性が高いと判定されなかった場合は大分類で得られた候補を認識対象として後続の識別部に送出して識別部で得られた結果を認識結果として出力し、
大分類で第1位候補の分類尺度を縦軸として該候補の分類尺度がとる範囲を分割してできる区間と、第1位候補の分類尺度と第2位候補の分類尺度との差を横軸として該差がとる範囲を分割してできる区間とからなるマトリクスを作成し、該マトリクスの縦軸における区間の上限値、横軸における区間の下限値をそれぞれ第1のパラメータ、第2のパラメータとしたとき、該マトリクスの要素が大分類結果を認識結果として受理した文字パターンの正読パターン数および誤読パターン数を表すよう形成しておき、
該正読パターン数および誤読パターン数を用いて、大分類における誤読率が予め定められた閾値以内となることと、前記正読パターン数から前記誤読パターン数を引いた数が最大となることのうち少なくとも一方が成立するよう前記第1のパラメータおよび前記第2のパラメータの修正を行うこと、
を最も主要な特徴とする。
また、前記第1のパラメータおよび第2のパラメータを格納したテーブルは、
(1)上記の方式
(2)大分類で第1位候補が指定するアドレスに前記第1のパラメータおよび第2のパラメータを格納した方式
の少なくとも一つの場合を含むことを特徴とする。
(1)上記の方式
(2)大分類で第1位候補が指定するアドレスに前記第1のパラメータおよび第2のパラメータを格納した方式
の少なくとも一つの場合を含むことを特徴とする。
本発明は次のような効果を奏する。請求項1、請求項4に記載されている発明は、入力パターンと標準パターンとの間の近さの尺度を用いて識別を行う方法であって、大分類で得られた第1位の分類尺度が属する区間に格納されている前記第1のパラメータと第2のパラメータをテーブルから読み出し、前記第1位候補の分類尺度と第2位候補の分類尺度に適用して前記第1位候補が正解カテゴリであるかの信頼性判定を行い、信頼性が高いと判定された場合は識別処理を行わず前記第1位候補を認識結果として出力するようにしているので、文字認識系全体の計算時間を短縮できる長所がある。
また、大分類で第1位候補の分類尺度を縦軸として該候補の分類尺度がとる範囲を分割してできる区間と、第1位候補の分類尺度と第2位候補の分類尺度との差を横軸として該差がとる範囲を分割してできる区間とからなるマトリクスを作成し、該マトリクスの縦軸における区間の上限値、横軸における区間の下限値をそれぞれ第1のパラメータ、第2のパラメータとしたとき、該マトリクスの要素が大分類結果を認識結果として受理した文字パターンの正読パターン数および誤読パターン数を表すよう形成しておき、該正読パターン数および誤読パターン数を用いて、大分類における誤読率が予め定められた閾値以内となることと、前記正読パターン数から前記誤読パターン数を引いた数が最大となることのうち少なくとも一方が成立するよう前記第1のパラメータおよび前記第2のパラメータの修正を行う学習機能を有しているので、文字認識装置、あるいは、文字認識プログラムがユーザサイドに渡ってからも誤読率を常に一定値以下に保つこと、あるいは、認識の効果を最大化できる長所がある。
請求項2、請求項4に記載されている発明は、請求項1、請求項3に記載されている発明において、大分類で得られた第1位の分類尺度が属する区間を複数でなく1区間としたものであり、複数区間を用いる場合に比べ候補数の削減効果は小さいもののテーブルに使用するメモリ容量が小さくなるという長所がある。
以下、本発明の実施の形態について図面を参照して説明する。
図1は本発明の一実施例を示すパターン認識装置のブロック構成図であり、実線は各部間のデータの流れを示し、破線は制御部11の制御信号の流れを示す。
同図のパターン認識装置は、文字パターン入力部1、前処理部2、特徴抽出部3、大分類部4、大分類辞書5、判定部6、パラメータ学習部7、識別部8、識別辞書9、認識結果メモリ部10、制御部11から成る。
文字パターン入力部1はスキャナ、テレビカメラ等の入力装置により文字パターンを取り込み、前処理部2は正規化・雑音除去等を行い、特徴抽出部3は認識に使用するための特徴を入力文字パターンから抽出し、大分類部4は特徴抽出部2より得られた前記入力文字パターンの特徴と大分類辞書5に蓄積されている標準パターンの特徴との近さの尺度をカテゴリ毎に計算し、該尺度を昇順に並べて候補とともに判定部6に出力する。判定部6は大分類部4の信頼性を予め定めた条件式で判定し、条件を満足した場合は大分類結果が認識結果メモリ部10に送出され格納される。条件を満足しなかった場合は、大分類で得られた候補は識別部8に送出される。識別部8は送出された候補に対し、前記入力文字パターンの特徴と識別辞書9に蓄積されている標準パターンの特徴との近さの尺度をカテゴリ毎に計算し、昇順に並べた該尺度と該尺度に対応する候補を識別結果とし認識結果メモリ部10に出力する。パラメータ学習部7は判定部6により認識結果メモリ部10に直接送出された前記入力文字パターンの大分類結果を受け取り、誤読率を常に一定値以下に保持するよう、あるいは、認識の効果を最大化するようパラメータ学習部7の内部のパラメータを修正する。
次に、本発明の判定部6の動作を図2を用いて説明する。図2は本発明の一実施例を示す判定部6の機能ブロック図であって、判定処理回路61、判定用テーブル62から成る。
判定処理回路61は判定用テーブル62から判定処理に用いる閾値を読み出し、条件式に適用して大分類の信頼性を判定する。次に処理の詳細を示す。
判定用テーブル62の形式を図3に示す。図3ではカテゴリCj(j=1,2,..., N)が第1位候補として出現したとき、該候補の分類尺度がとる第n区間の下限、上限がそれぞれij1 (n),ij2 (n)で、また、該区間における第1のパラメータおよび第2のパラメータが判定用閾値としてそれぞれθj1 (n),θj2 (n)で登録されている。大分類部4から候補が送出されると、判定処理回路61は第1位候補CfとCfのとる分類尺度dfを得て、判定用テーブル63の中でCfが指定するアドレスを参照し、if1 (m)≦df<if2 (m)を満足する区間mを検出し、該区間における判定用閾値θf1 (m),θf2 (m)を読み出す。
判定処理回路61は第1位候補Cfのとる分類尺度dfと第2位候補Csのとる分類尺度ds(ここでdf≦ds)と判定用閾値θf1 (m),θf2 (m)が次の式(1)、式(2)をともに満足するとき大分類結果は信頼性が高いと判断する。
df≦θf1 (m) (1)
ds−df≧θf2 (m) (2)
式(1)は第1位候補Cfの該分類尺度dfが判定用閾値θf1 (m)以下の値であることを表し、式(2)は第1位候補Cfのとる分類尺度dfと第2位候補Csのとる分類尺度dsとの差Δdが判定用閾値θf2 (m)以上の値であることを表している。判定用閾値θf1 (m),θf2 (m)は式(1)、式(2)の条件を満足したときの誤読率が予め定めた値以下となるよう大量の学習パターンを用いた分析により設定されている。
判定処理回路61で信頼性が高いと判定された場合は、大分類で得られた候補列および該候補列の分類尺度が認識結果メモリ部10に送出される。式(1)、式(2)の少なくともひとつの条件を満足しなかった場合は、判定処理回路61は信頼性が高いと判定せず大分類で得られた候補列および該候補列の分類尺度は識別部8に転送され、識別部8で得られた候補列と識別尺度が認識結果として認識結果メモリ部10に出力される。
df≦θf1 (m) (1)
ds−df≧θf2 (m) (2)
式(1)は第1位候補Cfの該分類尺度dfが判定用閾値θf1 (m)以下の値であることを表し、式(2)は第1位候補Cfのとる分類尺度dfと第2位候補Csのとる分類尺度dsとの差Δdが判定用閾値θf2 (m)以上の値であることを表している。判定用閾値θf1 (m),θf2 (m)は式(1)、式(2)の条件を満足したときの誤読率が予め定めた値以下となるよう大量の学習パターンを用いた分析により設定されている。
判定処理回路61で信頼性が高いと判定された場合は、大分類で得られた候補列および該候補列の分類尺度が認識結果メモリ部10に送出される。式(1)、式(2)の少なくともひとつの条件を満足しなかった場合は、判定処理回路61は信頼性が高いと判定せず大分類で得られた候補列および該候補列の分類尺度は識別部8に転送され、識別部8で得られた候補列と識別尺度が認識結果として認識結果メモリ部10に出力される。
次に、本発明のパラメータ学習部7の動作を図4を用いて説明する。図4は本発明の一実施例を示すパラメータ学習部7の機能ブロック図であって、誤読率計算回路71、判定結果メモリ部72、判定パラメータ計算回路73、正読パターン管理テーブル74、誤読パターン管理テーブル75、パラメータ修正回路76から成る。パラメータ学習部7の役割は、文字認識装置、あるいは、文字認識プログラムがユーザサイドに渡り、稼動状態になったとき、大分類部4における誤読率を常に一定値以下に保持できるよう、あるいは、認識の効果を最大化できるよう判定用閾値θf1 (m),θf2 (m)を自動で調整するところにある。
判定部6において大分類の信頼性が高いと判定され認識結果メモリ部10へ送出された文字パターンは、認識結果メモリ部10で正読/誤読の判定がなされ、その結果は判定結果メモリ部72へ送出される。判定結果メモリ部72は大分類部4でこれまでに認識したパターンの正読パターン数cu、誤読パターン数euを有しており、認識結果メモリ部10から認識結果が到来すると正読パターン数cu、誤読パターン数euを更新する。
認識結果メモリ部10から送出されてきた認識結果は正読パターン管理テーブル74、誤読パターン管理テーブル75の内容も更新する。
正読パターン管理テーブル74の形式を図5に示す。正読パターン管理テーブル74は次の手順で作成する。まず、大量の学習パターンを用いて、カテゴリCj(j=1,2,..., N)が第1位候補として出現したとき該候補の分類尺度がとる範囲を求め、該範囲をM分割してできる区間を区間m(m=1,2,…,M)として縦軸にとり、第1位候補Cfのとる分類尺度dfと第2位候補Csのとる分類尺度dsとの差Δdがとる範囲をK分割してできる区間を区間k(k=1,2,…,K)として横軸にとることによりマトリクス状のテーブルを作成する。次に、Cfが第1位候補に出現し、式(1)および式(2)を満足し、かつ、Cfが正読となったパターンをdfとΔdの値を基に該当する区間に割り当て、各区間に存在するパターンを集計した数をcmkとして登録する。これは、第1位候補Cfのとる分類尺度dfのとる値が第m区間、Δdのとる値が第k区間となる正読パターンが学習パターンにおいてcmk個得られたことを表している。その後、縦軸の区間1〜区間m、横軸の区間k〜区間Kの領域Ω内に存在するcmkの総和を取った値を改めてcmkとして書き換える。これにより、cmkは第m区間の上限値を判定用閾値θf1 (m)、第k区間の下限値を判定用閾値θf2 (m)としたときの正読パターン数を表すようになる。
誤読パターン管理テーブル75の形式を図6に示す。誤読パターン管理テーブル75は次の手順で作成する。まず、大量の学習パターンを用いて、カテゴリCj(j=1,2,..., N)が第1位候補として出現したとき該候補の分類尺度がとる範囲を求め、該範囲をM分割してできる区間を区間m(m=1,2,…,M)として縦軸にとり、第1位候補Cfのとる分類尺度dfと第2位候補Csのとる分類尺度dsとの差Δdがとる範囲をK分割してできる区間を区間k(k=1,2,…,K)として横軸にとることによりマトリクス状のテーブルを作成する。次に、Cfが第1位候補に出現し、式(1)および式(2)を満足し、かつ、Cfが誤読となったパターンをdfとΔdの値を基に該当する区間に割り当て、各区間に存在するパターンを集計した数をemkとして登録する。これは、第1位候補Cfのとる分類尺度dfのとる値が第m区間、Δdのとる値が第k区間となる誤読パターンが学習パターンにおいてemk個得られたことを表している。その後、縦軸の区間1〜区間m、横軸の区間k〜区間Kの領域Ω内に存在するemkの総和を取った値を改めてemkとして書き換える。これにより、emkは第m区間の上限値を判定用閾値θf1 (m)、第k区間の下限値を判定用閾値θf2 (m)としたときの誤読パターン数を表すようになる。
判定部6において大分類の信頼性が高いと判定され認識結果メモリ部10へ送出されて正読/誤読の判定がなされた文字パターンは、判定の結果がパラメータ学習部7へ送出され正読の場合は正読パターン管理テーブル74、誤読の場合は誤読パターン管理テーブル75の該当する区間のデータが更新される。
更新終了後、パラメータ学習部7が誤読率を予め定められた一定の値ε0以下に保つ作用を持つときの動作について説明する。誤読率計算回路71は更新された正読パターン数cu、誤読パターン数euを判定結果メモリ部72から読み出し、誤読率
ε=eu/(cu+eu)×100 (3)
を計算する。
ε=eu/(cu+eu)×100 (3)
を計算する。
判定パラメータ計算回路73は誤読率εが予め定められた閾値ε0を超えた場合は、判定用閾値θf1 (m),θf2 (m)を変えながら正読パターン管理テーブル74、誤読パターン管理テーブル75に格納されているcmk、emkをcu、euとして式(3)に代入してεを求め、閾値ε0を超えない条件下で最大となるem’k’を検出する。
パラメータ修正回路76は、前記em’k’のとる区間m’の上限値と,区間k’の下限値を誤読パターン管理テーブル75から読み出し、判定用閾値θf1 (m),θf2 (m)として判定用テーブル62の該当する箇所に格納することによりθf1 (m),θf2 (m)の値を更新する。これにより、文字認識装置、あるいは、文字認識プログラムがユーザサイドに渡った後でも、大分類部4における誤読を予め定められた一定の値ε0以下に保つことが可能となる。
更新終了後、パラメータ学習部7がパラメータ変更により認識の効果を最大化する作用を持つときの動作について説明する。判定パラメータ計算回路73は正読パターン管理テーブル74、誤読パターン管理テーブル75に格納されているcmk、emkの差分をとった値
gmk=cmk−emk (4)
を計算し、gmkが最大となるcm’’k’’、em’’k’’を検出する。
gmk=cmk−emk (4)
を計算し、gmkが最大となるcm’’k’’、em’’k’’を検出する。
パラメータ修正回路76は、前記em’’k’’のとる区間m’’の上限値と区間k’’の下限値を誤読パターン管理テーブル75から読み出し、判定用閾値θf1 (m),θf2 (m)として判定用テーブル62の該当する箇所に格納することによりθf1 (m),θf2 (m)の値を更新する。これにより、文字認識装置、あるいは、文字認識プログラムがユーザサイドに渡った後でも、大分類部4における誤読に対する正読の効果を最大に保つことが可能となる。
更新終了後、パラメータ学習部7が誤読率を予め定められた一定の値ε0以下に保ちつつ認識の効果を最大化する作用を持つときの動作について説明する。誤読率計算回路71は更新された正読パターン数cu、誤読パターン数euを判定結果メモリ部72から読み出し、誤読率を式(3)で計算する。
判定パラメータ計算回路73は正読パターン管理テーブル74、誤読パターン管理テーブル75に格納されているcmk、emkの差分をとった値を式(4)で計算し、誤読率εが予め定められた閾値ε0を超えないcmk、emkの中でgmkが最大となるcm’’’k’’’、em’’’k’’’を検出する。
パラメータ修正回路76は、前記em’’’k’’’のとる区間m’’’の上限値と区間k’’’の下限値を誤読パターン管理テーブル75から読み出し、判定用閾値θf1 (m),θf2 (m)として判定用テーブル62の該当する箇所に格納することによりθf1 (m),θf2 (m)の値を更新する。これにより、文字認識装置、あるいは、文字認識プログラムがユーザサイドに渡った後でも、大分類部4において誤読率を予め定められた一定の値ε0以下に保ちつつ認識の効果を最大化することが可能となる。
以上述べた図1の各処理の制御は制御部11からの信号によって行われる。
本発明に係る文字認識方法の一実施例である図1の動作を図7のフローチャートを用いて説明する。大分類部4は特徴抽出部2より得られた前記入力文字パターンの特徴と大分類辞書5に蓄積されている標準パターンの特徴から分類尺度をカテゴリ毎に計算し、該尺度を昇順に並べて候補とともに判定部6に出力する(ステップ21)。判定部6では、判定処理回路61は第1位候補Cfのとる分類尺度dfと第2位候補Csのとる分類尺度ds(ここでdf≦ds)を得て(ステップ22)、判定用テーブル62の中でCfが指定するアドレスを参照し、if1 (m)≦df<if2 (m)を満足する区間mを検出し、該区間における判定用閾値θf1 (m),θf2 (m) を読み出す(ステップ23)。判定処理回路61はdf,ds,θf1 (m),θf2 (m)が式(1)、式(2)をともに満足するかを判断する(ステップ24)。満足する場合は大分類結果は信頼性が高いと判断して大分類で得た候補列および該候補列の分類尺度を認識結果とし(ステップ26)、認識結果メモリ部10に格納する(ステップ27)。式(1)、式(2)の少なくともひとつの条件を満足しなかった場合は、判定処理回路61は信頼性が高いと判定せず大分類で得られた候補列および該候補列の分類尺度を識別部8に転送し(ステップ25)、識別部8で得た識別結果を認識結果メモリ部10に格納する(ステップ27)。
本発明に係る文字認識方法の一実施例である図4においてパラメータ学習部7が誤読率を予め定められた一定の値ε0以下に保つ作用を持つときの動作を図8のフローチャートを用いて説明する。第1位候補Cfのとる分類尺度dfと第2位候補Csのとる分類尺度ds(ここでdf≦ds)と判定用閾値θf1 (m),θf2 (m)が式(1)、式(2)をともに満足したとき大分類結果は認識結果として認識結果メモリ部10に送出され(ステップ31)、正読か誤読かの判定が行われる(ステップ32)。
誤読であった場合は、判定結果メモリ部72に格納されているこれまでの認識で得られた誤読パターン数euを1だけ増加し(ステップ33)、dfとΔdの値から誤読パターン管理テーブル75で該当する区間(m,k)を検出し縦軸の区間1〜区間m、横軸の区間k〜区間Kの領域Ω内に存在する全ての要素の値emkを1だけ増加する(ステップ35)。
正読であった場合は、判定結果メモリ部72に格納されているこれまでの認識で得られた正読パターン数cuを1だけ増加し(ステップ34)、dfとΔdの値から正読パターン管理テーブル74で該当する区間(m,k)を検出し縦軸の区間1〜区間m、横軸の区間k〜区間Kの領域Ω内に存在する全ての要素の値cmkを1だけ増加する(ステップ36)。
誤読率計算回路71は更新された正読パターン数cu、誤読パターン数euを判定結果メモリ部72から読み出し、式(3)で誤読率を計算する(ステップ37)。誤読率εが予め定められた閾値ε0を超えているかを判定する(ステップ38)。超えていない場合は、パラメータ学習の必要はないので終了する(ステップ39)。超えている場合は、判定パラメータ計算回路73は判定用閾値θf1 (m),θf2 (m)を変えながら正読パターン管理テーブル74、誤読パターン管理テーブル75に格納されているcmk、emkをcu、euとして式(3)に代入してεを求め、閾値ε0を超えない条件下で最大となるem’k’を検出する(ステップ40)。パラメータ修正回路76は、前記em’k’のとる区間m’の上限値と区間k’の下限値を誤読パターン管理テーブル75から読み出し、判定用閾値θf1 (m),θf2 (m)として判定用テーブル62の該当する箇所に格納することによりθf1 (m),θf2 (m)の値を更新する(ステップ41)。
誤読であった場合は、判定結果メモリ部72に格納されているこれまでの認識で得られた誤読パターン数euを1だけ増加し(ステップ33)、dfとΔdの値から誤読パターン管理テーブル75で該当する区間(m,k)を検出し縦軸の区間1〜区間m、横軸の区間k〜区間Kの領域Ω内に存在する全ての要素の値emkを1だけ増加する(ステップ35)。
正読であった場合は、判定結果メモリ部72に格納されているこれまでの認識で得られた正読パターン数cuを1だけ増加し(ステップ34)、dfとΔdの値から正読パターン管理テーブル74で該当する区間(m,k)を検出し縦軸の区間1〜区間m、横軸の区間k〜区間Kの領域Ω内に存在する全ての要素の値cmkを1だけ増加する(ステップ36)。
誤読率計算回路71は更新された正読パターン数cu、誤読パターン数euを判定結果メモリ部72から読み出し、式(3)で誤読率を計算する(ステップ37)。誤読率εが予め定められた閾値ε0を超えているかを判定する(ステップ38)。超えていない場合は、パラメータ学習の必要はないので終了する(ステップ39)。超えている場合は、判定パラメータ計算回路73は判定用閾値θf1 (m),θf2 (m)を変えながら正読パターン管理テーブル74、誤読パターン管理テーブル75に格納されているcmk、emkをcu、euとして式(3)に代入してεを求め、閾値ε0を超えない条件下で最大となるem’k’を検出する(ステップ40)。パラメータ修正回路76は、前記em’k’のとる区間m’の上限値と区間k’の下限値を誤読パターン管理テーブル75から読み出し、判定用閾値θf1 (m),θf2 (m)として判定用テーブル62の該当する箇所に格納することによりθf1 (m),θf2 (m)の値を更新する(ステップ41)。
上述したように、本実施形態では大分類部4で得られた結果の信頼性が高い場合は該結果を認識結果として認識結果メモリ部10に出力するので、文字認識系全体の処理時間を短縮することができる。
本実施形態は判定用テーブル62が第1位候補のとる分類尺度において複数区間に分割されている例について説明したが、複数区間でなく1区間であってもよい。1区間の場合を図9に示す。図9ではカテゴリCj(j=1,2,..., N)が第1位候補として出現したとき、Cjが指定するアドレスにおいて2個の判定用閾値がそれぞれθj1,θj2で登録されている。
また、本発明の図1に示す各構成要素をプログラムとして構築し、ディスク装置や、フレキシブルディスク、CD−ROM等の可搬記憶媒体に格納しておき、パターン認識を行うときに前記プログラムを前記可搬記憶媒体が接続可能なコンピュータあるいはパターン認識装置にインストールすることにより、容易に本発明を実現することが可能である。
以上、本発明を実施形態に基づき具体的に説明したが、本発明は前記実施形態に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能であることは言うまでもない。
1 文字パターン入力部
2 前処理部
3 特徴抽出部
4 大分類部
5 大分類辞書
6 判定部
7 パラメータ学習部
8 識別部
9 識別辞書
10 認識結果メモリ部
11 制御部
61 判定処理回路
62 判定用テーブル
71 誤読率計算回路
72 判定結果メモリ部
73 判定パラメータ計算回路
74 正読パターン管理テーブル
75 誤読パターン管理テーブル
76 パラメータ修正回路
2 前処理部
3 特徴抽出部
4 大分類部
5 大分類辞書
6 判定部
7 パラメータ学習部
8 識別部
9 識別辞書
10 認識結果メモリ部
11 制御部
61 判定処理回路
62 判定用テーブル
71 誤読率計算回路
72 判定結果メモリ部
73 判定パラメータ計算回路
74 正読パターン管理テーブル
75 誤読パターン管理テーブル
76 パラメータ修正回路
Claims (7)
- 入力文字パターンの特徴と標準辞書との特徴との間で計算して得られる近さの尺度を用いて前記入力文字パターンの属するカテゴリを前記尺度の昇順に候補列として出力する文字認識方法において、
大分類で第1位候補の取り得る分類尺度の範囲を複数区間に分割して区間毎に第1のパラメータおよび第2のパラメータを格納したテーブルを予め作成しておき、
前記入力文字パターンの特徴の全部または一部と前記標準辞書との特徴の全部または一部との間で分類尺度を計算することにより認識対象とする候補数を絞り込む大分類を行い、
前記入力文字パターンを大分類して第1位となった候補の分類尺度が属する前記区間に格納されている第1のパラメータおよび第2のパラメータを前記テーブルから読み出し、
前記第1位候補の分類尺度と第2位候補の分類尺度と前記読み出された第1のパラメータおよび第2のパラメータとから前記第1位候補が正解カテゴリであるかの信頼性判定を行い、
信頼性が高いと判定された場合は前記第1位候補を認識結果として出力し、信頼性が高いと判定されなかった場合は大分類で得られた候補を認識対象として後続の識別部に送出して識別部で得られた結果を認識結果として出力し、
大分類で第1位候補の分類尺度を縦軸として該候補の分類尺度がとる範囲を分割してできる区間と、第1位候補の分類尺度と第2位候補の分類尺度との差を横軸として該差がとる範囲を分割してできる区間とからなるマトリクスを作成し、該マトリクスの縦軸における区間の上限値、横軸における区間の下限値をそれぞれ第1のパラメータ、第2のパラメータとしたとき、該マトリクスの要素が大分類結果を認識結果として受理した文字パターンの正読パターン数および誤読パターン数を表すよう形成しておき、
該正読パターン数および誤読パターン数を用いて、大分類における誤読率が予め定められた閾値以内となることと、前記正読パターン数から前記誤読パターン数を引いた数が最大となることのうち少なくとも一方が成立するよう前記第1のパラメータおよび前記第2のパラメータの修正を行うこと、
を特徴とする文字認識方法。 - 前記第1のパラメータおよび第2のパラメータを格納したテーブルは大分類で第1位候補が指定するアドレスに前記第1のパラメータおよび第2のパラメータを格納したことを特徴とする請求項1記載の文字認識方法。
- 前記信頼性判定の条件は、第1位候補の分類尺度が前記第1のパラメータの値以下であり、かつ、第1位候補の分類尺度と第2位候補の分類尺度との差が前記第2のパラメータの値以上であることを特徴とする請求項1記載の文字認識方法。
- 入力文字パターンの特徴と標準辞書との特徴との間で計算して得られる近さの尺度を用いて前記入力文字パターンの属するカテゴリを前記尺度の昇順に候補列として出力する文字認識装置において、
大分類で第1位候補の取り得る分類尺度の範囲を複数区間に分割して区間毎に第1のパラメータおよび第2のパラメータを格納したテーブルを予め作成しておき、
前記入力文字パターンの特徴の全部または一部と前記標準辞書との特徴の全部または一部との間で分類尺度を計算することにより認識対象とする候補数を絞り込む大分類を行い、
前記入力文字パターンを大分類して第1位となった候補の分類尺度が属する前記区間に格納されている第1のパラメータおよび第2のパラメータを前記テーブルから読み出し、
前記第1位候補の分類尺度と第2位候補の分類尺度と前記読み出された第1のパラメータおよび第2のパラメータとから前記第1位候補が正解カテゴリであるかの信頼性判定を行い、
信頼性が高いと判定された場合は前記第1位候補を認識結果として出力し、信頼性が高いと判定されなかった場合は大分類で得られた候補を認識対象として後続の識別部に送出して識別部で得られた結果を認識結果として出力する判定手段と、
大分類で第1位候補の分類尺度を縦軸として該候補の分類尺度がとる範囲を分割してできる区間と、第1位候補の分類尺度と第2位候補の分類尺度との差を横軸として該差がとる範囲を分割してできる区間とからなるマトリクスを作成し、該マトリクスの縦軸における区間の上限値、横軸における区間の下限値をそれぞれ第1のパラメータ、第2のパラメータとしたとき、該マトリクスの要素が大分類結果を認識結果として受理した文字パターンの正読パターン数および誤読パターン数を表すよう形成しておき、
該正読パターン数および誤読パターン数を用いて、大分類における誤読率が予め定められた閾値以内となることと、前記正読パターン数から前記誤読パターン数を引いた数が最大となることのうち少なくとも一方が成立するよう前記第1のパラメータおよび前記第2のパラメータの修正を行うパラメータ学習手段と、
を具備することを特徴とする文字認識方法。 - 前記第1のパラメータおよび第2のパラメータを格納したテーブルは大分類で第1位候補が指定するアドレスに前記第1のパラメータおよび第2のパラメータを格納したことを特徴とする請求項4記載の文字認識装置。
- 前記信頼性判定の条件は、第1位候補の分類尺度が前記第1のパラメータの値以下であり、かつ、第1位候補の分類尺度と第2位候補の分類尺度との差が前記第2のパラメータの値以上であることを特徴とする請求項4記載の文字認識装置。
- 請求項1に記載の文字認識方法における処理の段階をコンピュータに実行させるためのプログラムを該コンピュータが読み取り可能な媒体に格納したことを特徴とする記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006080180A JP2007257250A (ja) | 2006-03-23 | 2006-03-23 | 文字認識方法及びその装置及びそのプログラムを格納した記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006080180A JP2007257250A (ja) | 2006-03-23 | 2006-03-23 | 文字認識方法及びその装置及びそのプログラムを格納した記憶媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007257250A true JP2007257250A (ja) | 2007-10-04 |
Family
ID=38631444
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006080180A Pending JP2007257250A (ja) | 2006-03-23 | 2006-03-23 | 文字認識方法及びその装置及びそのプログラムを格納した記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007257250A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2045701A2 (en) | 2007-10-01 | 2009-04-08 | Brother Kogyo Kabushiki Kaisha | Image display apparatus |
-
2006
- 2006-03-23 JP JP2006080180A patent/JP2007257250A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2045701A2 (en) | 2007-10-01 | 2009-04-08 | Brother Kogyo Kabushiki Kaisha | Image display apparatus |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110826525B (zh) | 一种人脸识别的方法及系统 | |
CN108595410B (zh) | 手写作文的自动批改方法及装置 | |
CN108108732B (zh) | 字符辨识系统及其字符辨识方法 | |
CN108537176B (zh) | 目标弹幕的识别方法、装置、终端及存储介质 | |
US6738519B1 (en) | Character recognition apparatus | |
US10242296B2 (en) | Method and device for realizing chinese character input based on uncertainty information | |
KR100716594B1 (ko) | 문자 식별 | |
JP2007042097A (ja) | キー文字抽出プログラム、キー文字抽出装置、キー文字抽出方法、一括地名認識プログラム、一括地名認識装置および一括地名認識方法 | |
CN108491845B (zh) | 字符分割位置的确定、字符分割方法、装置及设备 | |
US20090052786A1 (en) | Computer vision-based methods for enhanced jbig2 and generic bitonal compression | |
CN113657098B (zh) | 文本纠错方法、装置、设备及存储介质 | |
CN114140802B (zh) | 一种文本识别方法、装置、电子设备和存储介质 | |
JP2019204214A (ja) | 学習装置、学習方法、プログラム及び推定装置 | |
US8401298B2 (en) | Storage medium storing character recognition program, character recognition method, and character recognition apparatus | |
EP2138959A1 (en) | Word recognizing method and word recognizing program | |
JP2009129253A (ja) | パターン認識装置、パターン認識プログラム及びパターン認識方法 | |
JP5365065B2 (ja) | 辞書作成装置 | |
KR102082899B1 (ko) | 건조사양서 분석을 통한 상이율 자동산정 장치 및 그를 이용한 설계공수 자동산정 방법 | |
JP2007257250A (ja) | 文字認識方法及びその装置及びそのプログラムを格納した記憶媒体 | |
JP5888222B2 (ja) | 情報処理装置及び情報処理プログラム | |
JPH05314320A (ja) | 認識距離の差と候補順を利用した認識結果の評価方式 | |
JP6511942B2 (ja) | 情報処理装置および情報処理プログラム | |
JP7338265B2 (ja) | 情報処理装置及びプログラム | |
JPH11184976A (ja) | 辞書学習方式および文字認識装置 | |
JP2007257249A (ja) | 文字認識方法及びその装置及びそのプログラムを格納した記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20090528 |