JP3419418B2 - 文字読取方法および装置 - Google Patents

文字読取方法および装置

Info

Publication number
JP3419418B2
JP3419418B2 JP29222393A JP29222393A JP3419418B2 JP 3419418 B2 JP3419418 B2 JP 3419418B2 JP 29222393 A JP29222393 A JP 29222393A JP 29222393 A JP29222393 A JP 29222393A JP 3419418 B2 JP3419418 B2 JP 3419418B2
Authority
JP
Japan
Prior art keywords
character
unreadable
pattern
category
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP29222393A
Other languages
English (en)
Other versions
JPH07146912A (ja
Inventor
末治 宮原
美奈子 澤木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP29222393A priority Critical patent/JP3419418B2/ja
Publication of JPH07146912A publication Critical patent/JPH07146912A/ja
Application granted granted Critical
Publication of JP3419418B2 publication Critical patent/JP3419418B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、書面上の文字を光学的
に読取ってコード情報に変換する光学的文字読取方法お
よび装置に関する。
【0002】
【従来の技術】従来、この種の文字読取装置において、
誤り文字を検出するためにはオペレータが文字読取結果
を文字イメージと対応づけながら1文字づつ目視によっ
て確認していき、誤り文字を検出した時点で、1文字づ
つ修正を行なっていた。また、読取不能文字が発生した
場合には、言語処理を施して正解パターンに訂正する
か、あるいはそのままオペレータに提示してオペレータ
に確認・修正してもらうかのいずれかの方法が採られて
いた。
【0003】
【発明が解決しようとする課題】上述した従来の文字読
取装置においては、読み取り誤り文字の検出とその修正
とをオペレータが1文字づつ行なっていたため、オペレ
ータは多くの時間を費やすとともに、大きな疲労感を受
けていた。
【0004】また、上述した従来の文字読取装置におい
ては、読取不能文字の訂正を言語処理技術やオペレータ
に頼っていたため、言語処理に頼る方法は、読取対象の
文章の内容が変わった場合には訂正できない場合が生じ
ること、また、オペレータに頼る方法は、多大な時間と
労力を要し、データ入力の経費の上昇を招くと言う問題
が生じていた。
【0005】本発明の目的は、オペレータが読み取り誤
り文字の検出と修正とを容易に、かつ効率よくできる文
字読取方法および装置を提供することにある。
【0006】本発明の他の目的は、文字認識で発生する
読取不能文字を正解パターンに自動的に訂正する文字読
取方法および装置を提供することにある。
【0007】
【課題を解決するための手段】本発明の文字読取方法
は、読み取られた文字パターンの中から一定値以上の確
度で変換できなかった文字パターンを読取不能文字とす
る読取不能文字判定ステップと、前記読取不能文字の中
の誤り文字をオペレータが修正した後に、確認修正され
た読取不能文字群の文字パターンの特徴をキーにして、
認識結果中の文字パターンの特徴と照合し、誤り文字を
検出する誤り文字検出ステップと、前記検出された誤り
文字候補のパターンをカテゴリごとにまとめて文字パタ
ーン群とし、検出のために用いた読取不能文字とともに
オペレータに提示する文字パターン表示制御ステップと
を有する。
【0008】本発明の文字読取装置は、表示部と、読み
取られた文字パターンの中から一定値以上の確度で変換
できなかった文字パターンを読取不能文字とする読取不
能文字判定手段と、オペレータが確認修正した読取不能
文字の特徴と読取結果の文字パターンの特徴とを照合し
て、読取不能文字の特徴から距離値が一定範囲内にある
文字パターンを誤り文字の候補として検出する誤り文字
検出手段と、前記検出された誤り文字候補のパターン
カテゴリごとにまとめて文字パターン群とし、検出のた
めに用いた読取不能文字とともに前記表示部に表示する
文字パターン表示制御手段とを有する。
【0009】
【0010】
【0011】
【作用】図6は発明の原理の説明図である。分布A,
分布BはそれぞれカテゴリA,カテゴリBの文字パター
ンが入力文字パターンとして多数読み取られたときの認
識結果の距離値の分布を示したもので、カテゴリAの認
識辞書の中心GA (平均特徴ベクトル)と、カテゴリB
の認識辞書の中心GB との関係が図示したようになって
いる場合、正解文字は領域Cで示された部分、読取不能
文字は領域Rで示された部分、誤り文字は領域Eで示さ
れた部分である。
【0012】このような状態で、読取不能文字(領域R
に出現したカテゴリAの文字)を検出してディスプレイ
画面上に表示し、オペレータが修正した後に、その検出
した文字や修正した文字を手がかりに誤り文字(領域E
に出現するカテゴリAの文字)を自動的に検出すること
ができるので、ディスプレイ画面上に検出した結果をカ
テゴリ毎にまとめて表示すれば、オペレータは読取結果
の全文字を確認するよりも少ない確認量で誤り文字の検
査と修正ができる。
【0013】
【0014】
【0015】
【実施例】次に、本発明の実施例について図面を参照し
て説明する。
【0016】図1は本発明の第1の実施例の文字読取装
置のブロック図、図2はその動作を示すフローチャー
ト、図3は表示部15に表示された注目カテゴリの文字
と誤り文字検出によって検出された誤り文字候補のイメ
ージ群を示す図、図4は図3に示された表示中のイメー
ジ群に属さないと指示された文字イメージが斜線表示さ
れている状態を示す図である。
【0017】文字認識部2は、入力部1から入力された
文字画像を1文字づつの文字パターンに切り出すととも
に、その文字を認識して得られた結果(ここでは候補文
字と、認識結果の確信度を示す距離値)、文字イメージ
と文字の特徴とを後処理部3Aの中の認識結果等格納部
10に送出する。
【0018】後処理部3Aは、読取不能文字判定部11
において認識結果等格納部10の中の文字パターンデー
タが確信を持てる結果であるか否かの判定を行ない、読
取不能文字に対して確認修正部4の文字パターン表示制
御部14内を通して確認修正部4の表示部15に文字イ
メージと認識結果とを表示し、誤っている文字について
はオペレータが修正できるようにする。なお、読取不能
文字の判定には、たとえば、候補文字の第1位の距離値
と第2位の距離値の差が小さい文字パターンを読取不能
文字とする方法を用いればよい。次に、誤り文字検出部
12では、オペレータが確認修正した読取不能文字の文
字パターンの特徴をキーにして、認識結果等格納部10
の中の文字パターンの特徴と照合し、距離値の近い文字
パターンを誤り文字の候補として抽出する。
【0019】確認修正部4は、誤り文字検出部12から
送られてきた情報に基づいて、誤り文字候補の文字パタ
ーンを文字パターン表示制御部14に送る。文字パター
ン表示制御部14では送られてきた文字パターンをカテ
ゴリごとに、かつ距離値の近いものから順にまとめて、
表示部15に図3のような表示レイアウトで表示する。
図3は、注目カテゴリの文字31と、そのカテゴリと同
じカテゴリと見なされた誤り文字候補の文字イメージ3
2,33,・・・・,39,・・・・とを同一画面上に表示した
ものであり、オペレータは修正情報入力部16より図4
に示すように注目カテゴリの文字31と同一カテゴリで
ない文字イメージ39(図中斜線で示す)を指示する。
これにより残った文字イメージ32,33,・・・・に対応
する文字イメージが注目カテゴリの文字31と同じカテ
ゴリであることが分かる。
【0020】次に、図1の実施例の動作について図2の
フローチャートおよび図3の表示部15の表示を示す図
を参照して説明する。
【0021】読取不能文字判定部11は、認識結果等格
納部10中の、文字認識部2によって文字認識された認
識結果の中から読取不能の文字を検出し(ステップ2
2)、表示部15の画面上に文字イメージと候補文字と
を表示してオペレータに確認修正を求める。オペレータ
は、読取不能文字の中で第1候補が誤っている文字は正
しい文字に修正する(ステップ23)。読取不能文字が
なくなった段階で、誤り文字検出と修正の処理に移る。
誤り文字検出部12では、特定のカテゴリに確定された
読取不能文字の特徴と確認結果の文字の特徴とを照合し
て、既存の認識辞書より近い距離に位置するものを誤り
文字の候補として検出し(ステップ24)、同一カテゴ
リに属するものを距離値の近い順にまとめて(ステップ
25)、図3に示すような表示で表示部15に表示す
る。オペレータは注目カテゴリの文字と誤り文字の候補
の文字イメージ32,33,・・・・,39とを目視で比較
し、異なるカテゴリの文字イメージが混入している場合
には、この文字イメージを表示部15の画面上に指示し
て除去を文字パターン表示制御部14に指示する(ステ
ップ26)。この誤り文字の検出と修正とを繰り返して
行ない(ステップ27)、誤り文字の修正が一度も出現
しなくなった時点で処理を終了する。すなわち、図3に
おいて、注目カテゴリの文字31の「犬」が基準にな
り、この基準と同一カテゴリに属するものと判断された
文字パターンの文字イメージ32,33,・・・,3
9,・・・の「犬」,「犬」,・・・,「大」,・・・
が誤り文字候補の文字イメージとして表示される。
【0022】この表示に対してオペレータは図4に示す
ようにカテゴリ「犬」に属さない文字イメージ39
「大」を指示すれば、残りの文字パターン32,33,
・・・・はカテゴリ「犬」として修正されたことになる。
【0023】図5は本発明の第2の実施例の文字読取装
置のブロック図である。本実施例は後処理部3Bに読取
不能カテゴリ登録部13を設けたものである。入力部1
から読み取られる書画像内の文字フォントの種類によっ
ては、文字認識結果のカテゴリの分布が図7に示すよう
な状態になる文字パターンが存在する。このような場合
を仮定して、本実施例では誤りが発生しそうなカテゴリ
を読取不能カテゴリ登録部13に予め登録しておき、オ
ペレータが確認した後に、読取結果として出力部5から
送出するようにする。たとえばカタカナのタ「タ」と漢
字のユウ「夕23」や、数字のゼロ「0」と英字のオー
「O」などがその例として上げられる。このような場合
は読取不能カテゴリ登録部13にそれらのカテゴリを登
録しておき、登録カテゴリと同じ認識結果が出力された
とき、それらをオペレータに直接提示したり、それらを
蓄積して一定の個数が集まってから、お互いの文字パタ
ーンを比較・評価して、文字パターン間で距離の遠いも
のが最初に比較できるように代表文字イメージとし、そ
の代表イメージに近い文字パターンから遠いものへの順
に並べて文字イメージ群を一度に表示し、オペレータの
確認と修正を求める。オペレータは文字パターン群の中
からカテゴリの異なりを検出し、その異なりの境界とそ
のカテゴリ名を指定することによって読取不能カテゴリ
の文字を正解文字に確定することができる。なお、以後
に続く誤り文字の検出・修正は、第1の実施例と同じ方
法で行なうことができる。
【0024】
【0025】
【0026】
【0027】
【0028】
【0029】
【0030】
【0031】
【0032】
【発明の効果】以上説明したように、本発明は以下に示
すような効果がある。 (1)請求項1との発明は、読取不能文字を確認修正
した後、確認修正された読取不能文字群の文字パターン
の特徴をキーにして、認識結果中の文字パターンの特徴
と照合して誤り文字を検出しているので、オペレータは
少ない誤り文字候補の文字パターンを検査することによ
って誤り文字を検出、修正でき、また、検出された誤り
文字については、注目カテゴリの文字と誤り文字候補の
パターンをカテゴリごとにまとめた文字パターン群とを
同時に表示するようにしているので、誤り文字を連続し
て検査し、修正できる。(2) 請求項の発明は、類似文字パターンについ
ては読取不能カテゴリとして予め登録することによっ
て、その誤り易い文字を検出できる。
【図面の簡単な説明】
【図1】本発明の一実施例の文字読取装置のブロック図
である。
【図2】図1の実施例の動作を示すフローチャートであ
る。
【図3】図1の実施例において表示部5に表示されたイ
メージ群およびその候補文字を示す図である。
【図4】図3で示された表示中のイメージ群に属さない
と指示された文字イメージが斜線表示されている状態を
示す図である。
【図5】本発明の第2の実施例の文字読取装置のブロッ
ク図である。
【図6】発明の原理の説明図である。
【図7】本発明の中で誤り文字の発生を示す説明図であ
る。
【符号の説明】
1 入力部 2 文字認識部 3A,3B 後処理部 4 認識修正部 5 出力部 10 認識結果等格納部 11 読取不能文字判定部 12 誤り文字検出部 13 読取不能カテゴリ登録部 14 文字パターン表示制御部 15 表示部 16 修正情報入力部 21〜27 ステップ 31 注目カテゴリの文字 32〜39 文字イメージ A カテゴリAの文字パターンの距離値の分布領域 B カテゴリBの文字パターンの距離値の分布領域 GA カテゴリAの認識辞書の位置(平均特徴ベクト
ル) GB カテゴリBの認識辞書の位置(平均特徴ベクト
ル) C カテゴリAの正解の文字パターンの領域 R カテゴリAの読取不能の文字パターンの領域 E カテゴリAの誤り文字パターンの領域
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G06K 9/00 - 9/82

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 書面上の文字を光学的に読取ってコード
    情報に変換する文字読取方法において、 読み取られた文字パターンの中から一定値以上の確度で
    変換できなかった文字パターンを読取不能文字とする読
    取不能文字判定ステップと、 前記読取不能文字の中の誤り文字をオペレータが修正し
    た後に、確認修正された読取不能文字群の文字パターン
    の特徴をキーにして、認識結果中の文字パターンの特徴
    と照合し、誤り文字を検出する誤り文字検出ステップ
    と、 前記検出された誤り文字候補のパターンをカテゴリごと
    にまとめて文字パターン群とし、検出のために用いた読
    取不能文字とともにオペレータに提示する文字パターン
    表示制御ステップとを有することを特徴とする文字読取
    方法。
  2. 【請求項2】 前記読取不能文字判定ステップ検出
    できない文字になるカテゴリを読取不能カテゴリとして
    予め登録しておき、前記読取不能文字判定ステップで前
    記読取不能カテゴリに該当する文字パターンが出力され
    た場合に、該文字パターンを前記読取不能カテゴリに登
    録するステップと、該文字パターンと前記読取不能カテ
    ゴリに登録されていた文字パターンとの距離に応じてオ
    ペレータに提示する文字パターンを決定するステップを
    さらに有する請求項1記載の文字読取方法。
  3. 【請求項3】 書面上の文字を光学的に読取ってコード
    情報に変換する文字読取装置において、 表示部と、 読み取られた文字パターンの中から一定値以上の確度で
    変換できなかった文字パターンを読取不能文字とする読
    取不能文字判定手段と、 オペレータが確認修正した読取不能文字の特徴と読取結
    果の文字パターンの特徴とを照合して、読取不能文字の
    特徴からの距離値が一定の範囲内にある文字パターンを
    誤り文字の候補として検出する誤り文字検出手段と、 前記検出された誤り文字候補のパターンをカテゴリごと
    にまとめて文字パターン群とし、検出のために用いた読
    取不能文字とともに表示する文字パターン表示制御手段
    とを有することを特徴とする文字読取装置。
  4. 【請求項4】 誤り文字になる傾向の強いカテゴリ、あ
    るいはカテゴリ対が読取不能カテゴリとして予め登録さ
    れている読取不能カテゴリ登録部をさらに有し、 前記読取不能文字判定手段は、前記読取不能カテゴリ登
    録部に登録されているカテゴリに該当する文字パター
    ン、あるいは該当する文字パターンの中の代表文字パタ
    ーンを検出して文字パターン表示制御手段に出力する、
    請求項に記載の文字読取装置。
JP29222393A 1993-11-22 1993-11-22 文字読取方法および装置 Expired - Fee Related JP3419418B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP29222393A JP3419418B2 (ja) 1993-11-22 1993-11-22 文字読取方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP29222393A JP3419418B2 (ja) 1993-11-22 1993-11-22 文字読取方法および装置

Publications (2)

Publication Number Publication Date
JPH07146912A JPH07146912A (ja) 1995-06-06
JP3419418B2 true JP3419418B2 (ja) 2003-06-23

Family

ID=17779099

Family Applications (1)

Application Number Title Priority Date Filing Date
JP29222393A Expired - Fee Related JP3419418B2 (ja) 1993-11-22 1993-11-22 文字読取方法および装置

Country Status (1)

Country Link
JP (1) JP3419418B2 (ja)

Also Published As

Publication number Publication date
JPH07146912A (ja) 1995-06-06

Similar Documents

Publication Publication Date Title
KR100411697B1 (ko) 문자판독방법및주소판독방법
US5923792A (en) Screen display methods for computer-aided data entry
JP4078009B2 (ja) 帳票における文字記録領域の検出装置、帳票における文字記録領域の検出方法、記憶媒体及び帳票フォーマット作成装置
JPS6077279A (ja) 文字イメ−ジ切出し方法
EP0810542A2 (en) Bitmap comparison apparatus and method
US20230084845A1 (en) Entry detection and recognition for custom forms
JP3313272B2 (ja) 住所読み取り方法および識別関数重みベクトル生成方法
CN111914706A (zh) 一种文字检测输出结果质量检测和控制的方法与装置
JP3419418B2 (ja) 文字読取方法および装置
CA2036274A1 (en) Document processor including method and apparatus for identifying and correcting errors
JP4160206B2 (ja) 文字認識装置を利用したデータベース登録方法
JP3469375B2 (ja) 認識結果の確信度決定方法及び文字認識装置
EP0446633A2 (en) Document processor including method and apparatus for identifying and correcting errors
JP2001022883A (ja) 文字認識方式及び該文字認識方式の機能を実現させるための記録媒体
JP2002366893A (ja) 帳票認識方法
JP3484446B2 (ja) 光学文字認識装置
EP0601730A1 (en) Image processing method for correcting character slant
JP3074691B2 (ja) 文字認識装置
Amano et al. A document image analysis and recognition system for Japanese family registration
JPH10154191A (ja) 帳票識別方法及び装置並びに帳票識別プログラムを記録した媒体
WO2001026024A1 (fr) Dispositif et procede d'identification de document
JP2002207960A (ja) 認識文字修正方法及び認識文字修正プログラム
JP2734387B2 (ja) 文字認識装置
JP3648270B2 (ja) 帳票類読取装置及び会計帳票読取装置
JP2576080B2 (ja) 文字切出し方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees