JPH08101880A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH08101880A
JPH08101880A JP6236151A JP23615194A JPH08101880A JP H08101880 A JPH08101880 A JP H08101880A JP 6236151 A JP6236151 A JP 6236151A JP 23615194 A JP23615194 A JP 23615194A JP H08101880 A JPH08101880 A JP H08101880A
Authority
JP
Japan
Prior art keywords
area
certainty
certainty factor
degree
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6236151A
Other languages
English (en)
Inventor
Keiji Kojima
啓嗣 小島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP6236151A priority Critical patent/JPH08101880A/ja
Publication of JPH08101880A publication Critical patent/JPH08101880A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 大量の原稿の認識結果の修正作業を効率化す
るための文字認識装置を提供することを目的とする。 【構成】 本文字認識装置は、確信度を決定する手段
と、指定された領域に所属する認識結果の確信度から該
指定領域全体を代表する確信度を算出する領域確信度算
出手段と、領域確信度算出手段から得た領域に対する代
表確信度を出力する領域確信度出力手段とを備えること
により、大局的に情報を掴むことができ、大量の原稿に
対してより迅速にまた的確にユーザの修正作業の効率を
あげることができる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文字認識装置に関し、
より詳細には、文字認識装置(OCR)の認識結果の表
示部に関し、画像処理一般等に応用されるものである。
【0002】
【従来の技術】従来の光学文字読取装置は、読み取り結
果を表示する際に、棄却された文字を特別なマークで示
す以外には一様に表示していたので、加算チェック等に
よって誤読が判明している場合にも、その文字が見つけ
にくいという欠点があった。この欠点を解決するため
に、例えば、特公昭61−6430号公報に「光学文字
読取装置」が提案されている。この公報のものは、文字
の読み取り結果の類似度に応じて、色を変えて表示する
ものである。
【0003】また近年、認識対象の書体や文字種が増え
てきたこと、認識対象の原稿が多種多様化してきたこと
から、従来のパターンマッチングだけでは認識率向上に
限界があるため、様々な研究開発が行われている。しか
し、いかなる技術をもっても認識率が100%になるこ
とはまったく不可能であり、誤った結果がユーザに付き
まとうことも明らかである。そこで、これからは誤った
結果をどう効率よく修正するかが大切になってくる。そ
うであれば、いかに誤認識した箇所をユーザに知らせ、
ユーザの修正作業の負担を軽減するかというユーザイン
ターフェースが重要になってくる。その解決策として、
文字認識の最終結果がどの程度確からしいかを算出し
て、その怪しさに応じて表示を変えたり、その前後に特
別な文字を挿入して怪しさを目だたせたり、修正しやす
くする技術(例えば、特開平5−128301号公報)
がある。
【0004】ここで、確信度は、ある結果がどの程度確
からしいかを表すものであり、0から100の整数値で
表現され、数値が高いほど確からしいことを意味する。
各文字に対する認識結果の確信度は、例えば特開平4−
211883号公報に記載された方法により算出するこ
とができる。
【0005】
【発明が解決しようとする課題】大量の原稿を連続的に
認識処理(バッチ処理)し、まとめて認識結果を修正す
ることを考えると、文字単位の確信度だけでは大局的な
情報が掴めず不十分である。例えば、スキャナの読み取
り濃度が原稿とあっていなかったために、認識結果が非
常に悪かった場合、再度認識処理をやり直す必要がある
が、その再処理する必要のある原稿を大量の結果の中か
ら探し出すのが大変である。本発明は、上述のごとき実
状に鑑みてなされたものであり、大量の原稿の認識結果
の修正作業を効率化するための文字認識装置を提供する
ことを目的としてなされたものである。
【0006】
【課題を解決するための手段】請求項1の発明は、確信
度を決定する手段を備えた文書画像を認識する文字認識
装置において、指定された領域に所属する認識結果の確
信度から該指定領域全体を代表する確信度を算出する領
域確信度算出手段とを備えることを特徴とする。
【0007】請求項2の発明は、確信度を決定する手段
を備え、文書画像を認識する文字認識装置において、指
定された領域に所属する認識結果の確信度から該指定領
域全体を代表する確信度を算出する領域確信度算出手段
と、前記領域確信度算出手段から得た領域に対する代表
確信度を出力する領域確信度出力手段とを備えることを
特徴とする。
【0008】請求項3の発明は、請求項2の文字認識装
置において、領域確信度出力手段は、領域の確信度を表
にまとめて出力するようにしたことを特徴とする。
【0009】請求項4の発明は、請求項2の文字認識装
置において、領域確信度出力手段は、領域の確信度に応
じて出力を変えるようにしたことを特徴とする。
【0010】請求項5の発明は、請求項2の文字認識装
置において、領域確信度出力手段は、領域の確信度に応
じてメッセージを出力するようにしたことを特徴とす
る。
【0011】請求項6の発明は、請求項2の文字認識装
置において、領域確信度出力手段は、領域の確信度を領
域に付属して出力するようにしたことを特徴とする。
【0012】請求項1の発明において、指定された領域
を段落(ブロック)または文書全体とするように構成で
きる。
【0013】請求項3乃至請求項6の領域確信度出力手
段は、表示装置(ディスプレイ)または印字装置として
構成することができる。
【0014】
【作用】以上の構成のより本発明は、個々の文字に対し
て認識処理し、それら個々の文字に対する確信度を得た
後、認識処理のひとまとめとして判断するための単位領
域を指定し、この指定された領域に所属する個々の認識
結果の確信度からその領域を代表する確信度を求める。
このようにして得た領域毎の確信度を表にまとめたり、
確信度に応じて、色を変えたり、メッセージを出力した
り、領域に付属した近傍に表示したりしてユーザに知ら
せるようにする。また、このような認識の結果はディス
プレイに表示するだけでなく、印字装置にも印刷する。
この結果、大局的に情報を掴むことができ、大量の原稿
に対してより迅速にまた的確にユーザの修正作業の効率
をあげることができる。
【0015】
【実施例】本発明の一実施例を図1乃至図7に基づいて
詳細に説明する。図1は本発明による文字認識装置の一
実施例を説明するための構成図である。図1において、
スキャナ1により入力された文字は、画像メモリ5に記
憶される。中央演算処理装置3では辞書6を用い、OC
R確信度プログラム格納ROM4及びワークエリアRA
M7を介して文字認識を行い、認識の結果をディスプレ
イ8に表示、或いは印字装置9により印刷する。
【0016】OCR確信度プログラム格納ROM4の領
域確信度算出手段では、個々の文字に対する確信度を得
た後、認識処理のひとまとめとして判断するための単位
領域に指定された領域に所属する個々の認識結果の確信
度からその領域を代表する確信度を、例えば平均(指定
された領域に所属する認識結果の確信度を加算し、文字
数で割る。)として算出する。ここで指定する領域とし
ては、段落(ブロック単位)や文書全体等が考えられ
る。その結果、図2は、指定領域を段落とした場合の出
力例であり、図3は指定領域を文書全体とした場合の出
力例である。
【0017】次ぎに、領域確信度算出手段から得た領域
毎の代表確信度を領域確信度出力手段から出力する形式
について、以下に説明する。 (1)出力例1 指定された領域の確信度を図4のように表にまとめて出
力する。大量の原稿を認識処理した場合、認識結果を修
正する前に図4のような表があれば原稿2と原稿5の個
々の文字に対する認識結果が悪いことが予想されるの
で、スキャナや認識パラメータを再設定し、再度認識処
理する必要があることがわかる。また、確信度の値でソ
ートし、確信度の良いものまたは悪いものから順番に対
処することも容易となる。
【0018】(2)出力例2 指定された領域の算出された確信度に応じて、画面の表
示を変える。例えば、指定された領域全体の色を変え
て、他の領域とは表示を変えるようにする(図5参
照)。このような色替えは、確信度を段階に分けてその
段階へ色を対応させて行っても良い。例えば、確信度が
低い領域は赤色、代表の確信度は低くても確信度の最低
値は誤認識と思えるような値を持つ領域はグレー、確信
度が高い領域については無色等のように設定することに
よって、ユーザーは次ぎにどの領域について再度認識処
理すればよいかを容易に知ることができる。また、多色
を使えないまたは多色を使わない場合には、パターンを
変えて出力するようにしても良い。
【0019】(3)出力例3 指定された領域の算出された確信度に応じて、メッセー
ジを出力して、ユーザに知らせるようにする。例えば、
確信度が0から30ならば、「この確信度は非常に低い
ので再度認識処理してください。」というように表示す
る(図6参照)。このようにメッセージを出力すること
によって、より細かな指示が可能となる。
【0020】(4)出力例4 指定された領域の算出された確信度を、領域に付属した
近傍の画面に表示する(図7参照)。例えば、領域の上
辺のような領域の近傍に確信度の数値そのものを表示す
る。
【0021】(5)出力例5 上述した出力例1から出力例4で画面へ表示された領域
の確信度を印字装置へ出力するようにして、ユーザはこ
の出力によって修正作業を行う。
【0022】
【発明の効果】以上の説明から明らかなように、本発明
によると、以下のような効果がある。 (1)指定された領域の確信度を算出し、表や色やパタ
ーンのような他とは違った状態にまとめることにより、
大局的に情報を掴むことができる。 (2)画面に表示することにより、より迅速にまた的確
にユーザの修正作業の効率をあげることができる。 (3)印字装置に出力するようにしたことにより、大量
の原稿に対してより的確にユーザの修正作業の効率をあ
げることができる。
【図面の簡単な説明】
【図1】 本発明による文字認識装置の一実施例を説明
するための構成図である。
【図2】 指定した領域(段落)とその領域に対する確
信度との対応を示すための図である。
【図3】 指定した領域(文書全体)とその領域に対す
る確信度との対応を示すための図である。
【図4】 確信度を表であらわした出力例を示すための
図である。
【図5】 確信度を領域全体の色を変えてあらわした出
力例を示すための図である。
【図6】 確信度に応じてメッセージ出力した出力例を
示すための図である。
【図7】 確信度を領域に付属して出力した出力例を示
すための図である。
【符号の説明】
1 …… スキャナ、 2 …… 文字認識装置、 3 …… 中央演算処理装置、 4 …… OCR確信度プログラム格納ROM、 5 …… 画像メモリ、 6 …… 辞書、 7 …… ワークエリアRAM、 8 …… ディスプレイ、 9 …… 印字装置。

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 確信度を決定する手段を備え、文書画像
    を認識する文字認識装置において、指定された領域に所
    属する認識結果の確信度から該指定領域全体を代表する
    確信度を算出する領域確信度算出手段を備えることを特
    徴とする文字認識装置。
  2. 【請求項2】 確信度を決定する手段を備え、文書画像
    を認識する文字認識装置において、指定された領域に所
    属する認識結果の確信度から該指定領域全体を代表する
    確信度を算出する領域確信度算出手段と、前記領域確信
    度算出手段から得た領域に対する代表確信度を出力する
    領域確信度出力手段とを備えることを特徴とする文字認
    識装置。
  3. 【請求項3】 前記領域確信度出力手段は、領域の確信
    度を表にまとめて出力するようにしたことを特徴とする
    請求項2記載の文字認識装置。
  4. 【請求項4】 前記領域確信度出力手段は、領域の確信
    度に応じて出力を変えるようにしたことを特徴とする請
    求項2記載の文字認識装置。
  5. 【請求項5】 前記領域確信度出力手段は、領域の確信
    度に応じてメッセージを出力するようにしたことを特徴
    とする請求項2記載の文字認識装置。
  6. 【請求項6】 前記領域確信度出力手段は、領域の確信
    度を領域に付属して出力するようにしたことを特徴とす
    る請求項2記載の文字認識装置。
JP6236151A 1994-09-30 1994-09-30 文字認識装置 Pending JPH08101880A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6236151A JPH08101880A (ja) 1994-09-30 1994-09-30 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6236151A JPH08101880A (ja) 1994-09-30 1994-09-30 文字認識装置

Publications (1)

Publication Number Publication Date
JPH08101880A true JPH08101880A (ja) 1996-04-16

Family

ID=16996522

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6236151A Pending JPH08101880A (ja) 1994-09-30 1994-09-30 文字認識装置

Country Status (1)

Country Link
JP (1) JPH08101880A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11120294A (ja) * 1997-10-17 1999-04-30 Matsushita Electric Ind Co Ltd 文字認識装置および媒体
US7506250B2 (en) 2002-09-03 2009-03-17 Ricoh Company, Ltd. Techniques for determining electronic document information for paper documents
JP6462930B1 (ja) * 2018-03-28 2019-01-30 AI inside株式会社 文字認識装置、方法およびプログラム
US10817756B2 (en) 2018-06-13 2020-10-27 Fuji Xerox Co., Ltd. Information processing apparatus and non-transitory computer readable medium

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11120294A (ja) * 1997-10-17 1999-04-30 Matsushita Electric Ind Co Ltd 文字認識装置および媒体
US7506250B2 (en) 2002-09-03 2009-03-17 Ricoh Company, Ltd. Techniques for determining electronic document information for paper documents
JP6462930B1 (ja) * 2018-03-28 2019-01-30 AI inside株式会社 文字認識装置、方法およびプログラム
JP2019175037A (ja) * 2018-03-28 2019-10-10 AI inside株式会社 文字認識装置、方法およびプログラム
US10817756B2 (en) 2018-06-13 2020-10-27 Fuji Xerox Co., Ltd. Information processing apparatus and non-transitory computer readable medium

Similar Documents

Publication Publication Date Title
US5664027A (en) Methods and apparatus for inferring orientation of lines of text
US5799115A (en) Image filing apparatus and method
JP3155616B2 (ja) 文字認識方法及び装置
JPH08101880A (ja) 文字認識装置
JP3440501B2 (ja) 運転免許証認識装置
JPH07168910A (ja) 文書レイアウト解析装置及び文書フォ−マット識別装置
JP3372005B2 (ja) 文字認識装置
JPH10207978A (ja) 文字等パターン照合方法及び装置
JP4633271B2 (ja) 辞書学習方法及び辞書学習プログラム
JPH05108882A (ja) 文字認識装置
JP3595081B2 (ja) 文字認識方法
JP3277977B2 (ja) 文字認識方法
JP2977244B2 (ja) 文字認識方法及び文字認識装置
JP2963474B2 (ja) 類似文字識別方法
JP2003348340A (ja) 画像処理装置、画像処理方法、及び画像処理プログラム
JPS63131287A (ja) 文字認識方式
JP2001043314A (ja) 文字切り出し方法
JPH1021332A (ja) 非線形正規化方法
JP2000057257A (ja) 文字認識装置および文字認識方法および文字認識方法をプログラムの形で記録した記録媒体
JPH07254048A (ja) 文字認識方法
JPS61221978A (ja) 多色図面読取装置
JPH10116321A (ja) 文字認識方法および文字認識装置
JPH04241690A (ja) 誤読文字の修正方法
JPH04315278A (ja) 文字認識装置
JP2002329168A (ja) 文字記入枠検出方法、文字記入枠検出装置及びプログラム