JP2002170077A - 文字認識装置及び文字認識方法 - Google Patents

文字認識装置及び文字認識方法

Info

Publication number
JP2002170077A
JP2002170077A JP2000364616A JP2000364616A JP2002170077A JP 2002170077 A JP2002170077 A JP 2002170077A JP 2000364616 A JP2000364616 A JP 2000364616A JP 2000364616 A JP2000364616 A JP 2000364616A JP 2002170077 A JP2002170077 A JP 2002170077A
Authority
JP
Japan
Prior art keywords
character
characters
recognition
result
correction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000364616A
Other languages
English (en)
Inventor
Tomohisa Suzuki
智久 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2000364616A priority Critical patent/JP2002170077A/ja
Publication of JP2002170077A publication Critical patent/JP2002170077A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】従来の文字認識装置においては、上下書きのみ
による文字の訂正が行われている帳票を処理すると、書
き直しによって取り消された文字まで読取られてしまう
ため、認識結果に不要な文字が混入して誤認識が発生す
るという問題があった。 【構成】本発明においては、帳票に記入された文字を文
字抽出手段10で抽出し、この抽出された文字に対し
て、文字の上または下の位置に書き直した文字が記入さ
れている場合には、この書き直されている文字を訂正検
出手段12で検出する。この検出結果に基づき、認識対
象とすべき訂正された文字と認識対象から除外すべき訂
正される前の文字を選択して文字認識手段16にて文字
認識処理を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、帳票に記入された
文字を認識するための文字認識装置及び文字認識方法に
係わり、特に帳票に記入された文字に対して、文字の上
または下の位置に訂正文字が記入されている場合でも、
この訂正文字を認識することを可能とするめ文字認識装
置及び文字認識方法に関する。
【0002】
【従来の技術】従来、文字の記入欄を有する帳票から文
字を抽出した上で、記入欄に記入された文字を認識する
文字認識装置が知られている。このような装置では、帳
票の記入欄に訂正のための加入が行われていない場合
は、ドロップアウトカラーなどによる罫線の除去を行
い、連結成分の検出などにより文字を抽出して個別文字
認識を行うことによって、記入内容の読取りを行うこと
ができる。
【0003】また、帳票に記入された文字に二重線等の
訂正線や塗りつぶし等がなされて訂正が行われている場
合は、訂正線や塗りつぶしが検出され、それによって取
り消されている文字が特定されることで認識対象から除
外され、その代わりに取り消された文字の近くに記入さ
れている文字を追記された文字として認識することが行
われている。
【0004】文字認識装置による認識結果には、通常は
認識が保留されたリジェクト文字や、誤って認識された
文字、文字と区別が付かないノイズ等が含まれるため、
例えば、ノイズとの区別が付かない文字が削除されてし
まうことによる文字の消失が起きることがある。多くの
場合には、リジェクト文字や誤りの残留は許容されない
ため、上記のような文字認識装置の認識結果に対して
は、確認・修正作業を行う必要があり、認識結果をオペ
レータが修正する為のユーザーインターフェースが必要
である。
【0005】そのようなユーザーインターフェースの一
つの方法としては、認識結果と共に対応する文字の画
像、あるいはその周辺部分の入力画像を表示するものが
ある。文字の画像ではなく、その周辺の入力画像を表示
する場合は、その部分の前景色・背景色を変えて表示し
たり、枠で囲むなどして文字の位置が分かるように表示
を行うようになっている場合もある。
【0006】オペレータはそれらを目視で確認し、誤り
があると判断した場合には、文字認識結果に対して、文
字の変更、挿入、削除等の修正処理を施すこととなる。
【0007】
【発明が解決しようとする課題】上述のような文字認識
装置として、例えば特開平9−81666号にて提案さ
れているものがある。しかしながら、この文字認識装置
においては、訂正線や塗りつぶしを含まない上下書き
(訂正文字の上または下の位置に訂正文字が書き込まれ
ている)による訂正が行われている帳票に対して文字認
識処理を行うと、書き直しによって取り消された文字ま
で読取られてしまうため、認識結果に不要な文字が混入
して誤認識が発生してしまうという問題があった。
【0008】本発明は上記問題点を解決するために、帳
票上に訂正線や塗りつぶしにより文字の記入が取り消さ
れている場合だけではなく、帳票上の上または下の位置
に書込みが行われることにより文字の書き直しが行われ
ている場合であっても、帳票に記入された文字の訂正を
検出し、この検出結果に基づいて、帳票の訂正記入内容
を自動的に文字認識することができる文字認識装置また
は文字認識方法を提供することを目的としている。
【0009】
【課題を解決するための手段】上記目的を達成するため
に、本発明の文字認識装置においては、入力画像から帳
票に記入された文字を抽出する文字抽出手段と、この文
字抽出手段にて抽出された文字に対して、この文字を訂
正するために当該文字の上または下の位置に書き直した
文字が記入されている場合には、この書き直されている
文字を検出する訂正検出手段と、この検出手段による検
出結果に基づいて、帳票に記入された文字の上または下
の位置に書き直した文字が記入されている箇所におい
て、認識対象とすべき訂正された文字と認識対象から除
外すべき訂正される前の文字を選択して、認識対象とす
べき文字に対して文字認識処理を行う文字認識手段とを
具備することを特徴とするものである。
【0010】この構成により、帳票上に記入されている
文字の上または下の位置に文字の書き直しが行われてい
る箇所でも、帳票に記入されている文字が訂正されてい
ることを検出し、帳票の訂正記入内容を自動的に文字認
識することができる。
【0011】また、本発明の文字認識装置においては、
入力画像から帳票に記入された文字を抽出する文字抽出
手段と、この文字抽出手段にて抽出された文字に対し
て、この文字を訂正するために帳票上に訂正線の加入ま
たは塗りつぶしにより記入された文字の取消しが行われ
ている場合には、訂正線の加入または塗りつぶしが行わ
れている文字を検出して、帳票に記入されている文字が
訂正されていることを検出する第1の検出手段と、文字
抽出手段にて抽出された文字に対して、この文字を訂正
するために当該文字の上または下の位置に書き直した文
字が記入されている場合には、この書き直されている文
字を検出して、帳票に記入されている文字が訂正されて
いることを検出する第2の検出手段と、第1及び第2の
検出手段による検出結果に基づいて、帳票に記入された
文字に訂正線、塗りつぶしが行われている文字、並びに
上または下に書き直した文字が記入されて文字の箇所に
おいて、認識対象とすべき訂正された文字と認識対象か
ら除外すべき訂正される前の文字とを選択して、認識対
象とすべき文字に対して文字認識処理を行う文字認識手
段とを具備したことを特徴とするものである。
【0012】上記構成を有することにより、帳票上に記
入されている文字に対して、訂正線や塗りつぶしにより
記入が取り消されている場合だけではなく、文字の上ま
たは下の位置に書き直しが行われている場合であって
も、帳票に記入されている文字が訂正されていることを
検出し、帳票の訂正記入内容を自動的に文字認識するこ
とができる。
【0013】
【発明の実施の形態】以下、図面を参照してこの発明の
実施の形態を説明する。
【0014】図1は本発明の文字認識装置の構成を示す
ブロック図である。この文字認識装置は、入力画像から
文字を抽出する文字抽出手段10と、この文字抽出手段
10にて抽出した文字と入力画像とを用いて、帳票に記
入されている文字が訂正されているか否かを検出する訂
正検出手段12と、この訂正検出手段12による文字訂
正の検出結果に従って、文字抽出手段10で抽出された
文字の内から認識すべき文字を選択する記入選択手段1
4と、この記入選択手段14で選択された文字を認識す
る文字認識手段16とを具備した構成となっている。さ
らに、この文字認識装置では、オペレーターの目視によ
る確認の為に入力画像と文字の抽出結果、並びに認識結
果を表示する処理結果出力手段18と、オペレータの操
作に従って、認識結果を修正する処理結果修正手段20
とを具備した構成となっている。
【0015】本発明は、コンピュータに文字認識用のソ
フトウェアを組み込むことによって構成できるため、こ
こではそのような構成を仮定して説明を行う。但し、本
発明の文字認識装置を専用ハードウェアの集合体や分散
処理用のコンピューターのネットワークシステムとして
も構成することも出来、上述の構成要件全てを具備する
のであれば、ここで説明する構成に限るものではない。
【0016】図2は、図1に示した文字認識装置におけ
るデータの処理の流れを示すブロック図であるが、以
下、この図を用いて、本発明の文字認識装置の処理を具
体的に説明する。
【0017】入力画像は読み取り対象の帳票を電子化し
た後に罫線やプレプリント文字の除去などの前処理を施
して得られた画像である。罫線やプレプリント文字の除
去はドロップアウトカラーを用いて行うことが出来る。
また、ドロップアウトカラーが利用できない場合でも、
特願平07−352144号に記載されている方法など
公知の方法で罫線を除去することが可能である。
【0018】文字抽出手段10では、入力画像から帳票
に記入されている文字が抽出される。この文字抽出手段
10での文字抽出処理では、先ず入力画像の二値化が行
われ、続いてラベリングによる連結領域抽出が行われ、
訂正線や塗りつぶしの加入が行われていない文字に関し
ては、これらの処理のみで文字の抽出が行える。
【0019】また、訂正線や塗りつぶしの加入が行われ
ている場合には、連結領域抽出のみでは文字抽出が行え
ないが、以下に記述する処理を行うことで訂正線や塗り
つぶしが加入されている文字に対応した処理が可能とな
る。
【0020】先ず、図3のように帳票上に記入されてい
る文字が塗りつぶされている場合は、塗りつぶし加入を
除去して元の文字を復元するのは、殆どの場合不可能で
あるが、塗りつぶされた文字は、後述する記入選択手段
14によって文字認識の対象から除外されるため、塗り
つぶされたままの図形を文字抽出結果として扱う。
【0021】また、訂正線の加入によって取り消されて
いる文字も、記入選択手段14によって文字認識の対象
から除外されるため、文字画像を完全に抽出する必要は
無く、図4のように一文字だけ取り消されている場合
は、塗りつぶしの場合と同様に連結成分をそのまま文字
抽出結果として扱うことが出来る。
【0022】さらに、図5のように複数の文字に訂正線
がかかっている場合も、取り消された文字は認識対象か
ら除外されるので、連結成分をそのまま文字抽出結果と
して扱って良い。但し、記入選択手段14並びに処理結
果出力手段18の実施形態によっては、抽出された文字
の個数や画像を必要とする場合があるので、そのような
場合には連結成分を縦罫線の位置で分割することにより
個別の文字を抽出する。
【0023】このような文字抽出手段10による処理に
よって、連結成分の画像と外接矩形が得られるので、こ
れらの情報を後の処理のために記憶しておく。
【0024】訂正検出手段12では、抽出された文字の
画像・位置情報と入力画像を用いて文字の訂正が検出さ
れる。文字の訂正の検出は、訂正線や塗りつぶしによる
文字の取消しと、上下書きによる書き直しを検出するこ
とによって行われる。訂正線または塗りつぶしが見つか
った場合は、それらの位置を文字が訂正されている位置
の情報として記憶する。また、上下の位置に二つの文字
が重ねて記入されている場合には、その二文字のいずれ
かが書き直しにより取り消されていると考えられるの
で、それら二文字を特定するのに十分な情報、例えば二
つの文字のインデックスや文字構造体へのポインタ(文
字を抽出するための文字が特定できる情報)を文字が訂
正されている位置の情報として記憶する。
【0025】訂正線の検出は以下のような方法で行うこ
とが出来る。訂正線の加入は多くの場合、記入された文
字に水平な線を重ね書きすることによって行われるた
め、先ず水平方向の線をHough変換などで抽出す
る。
【0026】但し、こうして抽出された線には文字の水
平方向のストロークも含まれているので、抽出された線
の内から訂正線らしいものを以下のような方法で選び出
す必要がある。水平な線が複数互いに近接しており、か
つ帳票上の複数のマスにかかっているか文字の平均幅と
比べて十分に長い場合には、訂正線と見なすことができ
る。また、近接した線郡が上の条件に該当する程長くな
い場合でも、図4のように一文字だけ取り消されている
可能性があるので、以下のような場合には訂正線扱いと
して処理しても良い。 (1)線の色が、水平な線と接触していない他の文字の
色と異なる場合 (2)線が、連結成分の面積と輪郭線長の比の二倍とし
て推定した文字の平均ストローク幅と比べて極端に太い
か細い場合 (3)連結成分に対して個別文字認識を試みてリジェク
トされた場合 帳票上に塗りつぶしが行われている文字には、塗りつぶ
しがない文字と比較して連結成分の面積とその外接矩形
の面積比、または前述の平均ストローク幅の推定値が大
きくなるので、これらの特徴量を用いて、クラス分類を
行うことによって、連結領域における塗りつぶしの有無
の判定(塗りつぶしの検出)を行うことが出来る。
【0027】上下書きによる文字の訂正の検出は以下の
ような方法で行うことが出来る。先ず、図6のように、
複数の文字を書き足すことによって訂正が行われている
場合には、元から記入されている文字が構成する行の他
に、書き足された文字が構成する行が存在する。そこ
で、入力画像または文字抽出結果、あるいはこれらの両
方を用いて行を検出し、それらが複数あるか否を調べる
ことによって、訂正の有無を判断することが出来る。ま
た、訂正線や塗りつぶしがそれらの文字に加入されてい
ない場合でも、複数の行の文字が上下に重なっている場
合には、それらの文字はどちらかの文字が取り消された
文字でどちらかの文字が書き足された文字であると判断
できるため、それらの文字を特定できる情報、例えばそ
れらの文字のインデックスなどをセットとして、訂正箇
所の情報として記憶する。
【0028】また、図7のように一対の上下書きのみに
よって行われている訂正については、複数の行を検出す
ることが出来ないが、このような場合でも上下方向の文
字の重なりを検出できる。
【0029】但し、図8のように記入された文字の上に
ノイズが入っている場合も、上下方向に二つの連結成分
が抽出されるため、上下方向に二つの文字(候補) が重
なっているだけで訂正が検出されたと断定する方法は、
取り消されていない文字を誤って無視してしまう危険が
ある。従って、このような場合には、それらの文字を特
定できる情報の他に、上下書きが孤立していることを示
すフラグを記憶して後述する記入選択手段14におい
て、検出された上下書きがノイズによる物であるか否か
を確認する必要がある。
【0030】しかしながら、以下のように一方の連結成
分が明らかにノイズであると判断できる場合は、訂正の
ための上下書きではないと判断することも出来る。 (1)上下に重なっている連結成分の一方が極端に小さ
い場合 (2)他の連結成分と比べて濃度が極端に低い場合 (3)個別文字認識などにより、非文字であると断定で
きる場合 記入選択手段14では、抽出された文字の画像・位置と
訂正の検出結果を用いて認識すべき文字が選択される。
認識すべき文字の選択は、訂正によって取り消された文
字を認識対象から除外することによって行われる。
【0031】先ず、訂正線または塗りつぶしによって取
り消されていると判断された文字は、認識対象から除外
される。文字が訂正線や塗りつぶしで取り消されている
ケースとしては、図3のように取り消された文字の近く
に文字が書き足されており、記入者が文字の置き換えを
意図している場合と、図9のように書き足されておら
ず、記入者が単なる文字の削除を意図している場合があ
るが、いずれの場合でも訂正線や塗りつぶしで取り消さ
れている方の文字を文字認識の対象から除外し、残りの
文字を認識することによって、帳票の記入者が意図した
通りの文字列を読み取ることを可能とする。
【0032】但し、帳票上に記入した文字が訂正線や塗
りつぶしによって取り消されている場合は、その周辺に
文字が書き足されている可能性が高いので、近傍領域で
のノイズ除去を制限することによって、訂正のために書
き足された文字の消失を防ぐことが出来る場合がある。
【0033】例えば、検出した行位置から外れている文
字をノイズとして除去するフィルタを実装している場
合、訂正線や塗りつぶしによって取り消されている文字
の上下でそのようなフィルタを無効にするように制御す
ると文字消失の防止に有効であると考えられる。
【0034】一方、訂正または塗りつぶしが行われてい
ない上下書きのみによる訂正箇所については、帳票上に
記入されている上下の文字のどちらの文字が取り消され
ていて、どちらの文字が書き足されているかを判定し、
取り消されていると判定された方の文字を認識対象から
除外する処理を行うことが必要となる。以下に、図10
に示すフローチャートを参考にこの処理の流れを具体的
に説明する。
【0035】図7のように一文字だけ書き足すことによ
って、一文字だけ訂正されている場合は、最初に書き込
まれた文字から構成される行に含まれる文字で、書き足
された文字の上か下にあるものを認識対象から除外する
べきである。このような場合は、複数の文字からなる行
を検出すると、最初に書き込まれた文字から構成される
行のみが検出されるので、この行に含まれており、上下
書きされている文字を認識対象から除外する(STEP
10,11,12)。
【0036】また、図6のように、複数の文字を書き足
すことによって訂正が行われている場合は、上下の行の
内どちらかが最初に記入され、もう一方の行が書き足さ
れていると考えられるが、この場合、先に記入された方
の行が取り消されていると見なし、その行に含まれる文
字を認識対象から除外する処理を行う。
【0037】多くの場合、記入者は訂正前の行を記入す
る際に、文字の縦方向の位置をそろえるので、上下書き
が行われている場合には、上下書きが行われている箇所
以外の文字から、上下書きされていない文字を含む行を
先に記入した行とみなして、その行に含まれる文字が取
り消された文字で、行から外れている方の文字を後から
書き足されている訂正文字であるとして文字認識処理を
行う(STEP10,11,13,14,15,1
7)。
【0038】但し、図11のように上下の行の文字数が
等しく、上下書きに含まれない文字が無い場合や、図1
2のように、上下書きされていない文字が異なる行に属
している場合は、上記の方法では先に記入された行を特
定できない。しかしながら、通常先に記入された行が欄
の中央寄りであり、後に記入された行が訂正の為に書き
足されていると考えられるので、このような場合には、
中央寄りに記入されている方の行に含まれる文字を認識
対象から除外することによって記入者の意図通りの文字
を認識することが出来る(STEP10,11,13,
14,16,17)。
【0039】また、他に記入欄がある場合は、それらの
記入欄で訂正が行われていない文字の縦方向の位置をし
らべ、その平均に近い方を取り消された文字と判断して
も良い。
【0040】文字認識手段16では、記入選択手段14
で選択された文字に対して個別文字認識が行われ、文字
認識結果が生成される。
【0041】処理結果出力手段18では、オペレーター
の目視による確認のため、文字認識結果と入力画像、文
字抽出結果等の処理結果が出力される。処理結果の出力
は、CRT等の表示装置に対して行ってもよいし、ワー
ドプロセッサやWEBブラウザなどで閲覧可能な電子記
録としてディスク装置などの記憶装置に対して行っても
よく、さらにプリンタ等によって印刷してもよい。
【0042】図13に処理結果出力手段18によるCR
Tへの表示の一例を示す。この例では、認識結果の確認
のために入力画像と認識結果が表示されている他、文字
抽出が正しく行われているか否かを確認するために、抽
出された文字の画像が左から順に表示されている。ま
た、抽出された文字とその認識結果の対応が一目で分か
るように、抽出された文字は認識結果の真上に表示され
ている。この例では、抽出された文字の画像を個別に表
示しているが、図14のように、入力画像中で検出され
た文字の周辺を反転表示したり、前景色や背景色を変更
してもよい。
【0043】以下では、図13に示した表示方法におい
て、帳票上に記入された文字に訂正文字が含まれている
場合の表示方法について説明する。
【0044】訂正線や塗りつぶし、または上下書きによ
る訂正が行われている場合には、図15のように、認識
対象として選択された文字の画像とその認識結果が出力
される。また、誤った訂正検出などにより、必要とする
文字が消失していないかどうかを確認するために、図1
6のように認識対象から除外した文字を並べて表示して
もよい。
【0045】また、訂正箇所の付近では、訂正箇所の検
出の失敗や図17のような取り消された文字と書き足さ
れた文字の接触によって、誤りが発生しやすいので他の
部分と比べて、より慎重に確認すべきである。そのた
め、図18のように訂正箇所を拡大表示して、訂正が検
出されたことをオペレータに通知する方法を取ることも
できる。この場合には、オペレータに注意を促すことに
より、誤認識の確認洩れの防止ができ、更に、オペレー
タによる注視のための労力の軽減に有効となり得る。
【0046】更に、図19のように訂正箇所周辺の背景
色を変更したり、訂正箇所に含まれる文字の前景色を変
更することによっても、訂正箇所が検出されたことをオ
ペレータに通知し、注意を促すことが可能である。
【0047】処理結果修正手段20では、オペレーター
の操作に従って、文字認識結果の修正が行われ、修正さ
れた認識結果が生成される。
【0048】オペレータの目視により、処理結果出力手
段18で出力された処理結果出力手段18で出力された
処理結果に誤りやリジェクト文字が見つかった場合はオ
ペレータの操作により、文字認識結果が修正される。
【0049】処理結果の誤りには、大別すると以下のよ
うな種類がある。 (1)抽出された文字の個別文字認識での誤りやリジェ
クト (2)ノイズの混入による文字の湧き出し (3)誤ったノイズ除去や、訂正検出による文字の消失 (4)記入選択手段14での認識対象の文字の選択誤り 個別文字認識での誤りやリジェクトが見つかった場合
は、オペレータが目視による認識結果を入力する必要が
ある。この作業はキーボードやマウスによって認識結果
中の問題の文字を指定し、目視による認識結果を入力す
ることによって行われる。
【0050】また、文字の湧き出しが見つかった場合に
は、オペレータの操作に従って、認識結果から文字が削
除される。さらに、文字の消失が見つかった場合には、
オペレータが認識結果中で消失が起きた位置を指定し、
消失した文字を入力することによって消失した文字の復
元を行うことができる。
【0051】更に、記入選択手段14による認識対象の
文字の選択誤りが見つかった場合には、該当する訂正箇
所において、オペレータの操作に従って認識対象とする
文字と、認識対象から除外する文字の選択をやり直す必
要がある。この処理は、マウス等によって入力画像中で
認識対象とする文字を指定することによって行うことも
出来るし、キー操作に従って抽出された文字の画像とそ
れに対応する認識結果を入れ換えることで処理が可能で
ある。また、図16のように抽出された文字を表示して
いる場合は、認識対象として選択したい文字をマウスや
キーボードの操作に従って選択することによって処理を
行うことも可能である。
【0052】また、図6のように訂正が複数の文字から
なる行によって行われている場合のため、行単位で認識
対象の文字を選択出来るコマンドを準備することによっ
て、修正作業を効率化できる。
【0053】上述の説明では、記入欄がマスに区切られ
ている場合の図を用いて説明を行ったが、マスに区切ら
れていない記入欄についても本発明は適用可能である。
【0054】尚、本発明は上述した実施の形態に限定さ
れるものではなく、その要旨を逸脱しない範囲で種々変
形実施することが可能である。
【0055】
【発明の効果】以上詳述した通り、本発明においては、
上下書きのみによる書き直しが行われている帳票に対し
ても、帳票上に記入されている訂正文字を検出すること
が可能になる。そのため、訂正線や塗りつぶし等による
訂正が行われている場合と同様に、上下書きによる記入
文字の訂正が行われている場合でも、帳票に記入されて
いる文字が訂正されていることを検出し、帳票の訂正記
入内容を自動的に文字認識することができる。更に、帳
票上に上下書き等を行うことで書き直しによって取り消
されている文字に対しても、誤って認識結果に含めてし
まうことによる誤認識を防ぐこともできる。
【図面の簡単な説明】
【図1】本発明の実施の形態に係わる文字認識装置の構
成を示すブロック図である。
【図2】同装置におけるデータの処理の流れを示す図で
ある。
【図3】同装置で処理する帳票の文字が塗りつぶしによ
り訂正されている場合の一例を示す図である。
【図4】同装置で処理する帳票の一文字が訂正線により
訂正されている場合の一例を示す図である。
【図5】同装置で処理される帳票の複数文字が訂正線に
より訂正されている場合の一例を示す図である。
【図6】同装置で処理される帳票の複数文字が上下書き
により訂正されている場合の一例を示す図である。
【図7】同装置で処理される帳票の一文字が上下書きに
より訂正されている場合の一例を示す図である。
【図8】同装置で処理される帳票上のノイズが検出され
てしまう場合の一例を示す図である。
【図9】同装置で処理される帳票の文字の取消しが行わ
れている場合の一例を示す図である。
【図10】同装置における上下書きによる文字を訂正し
た場合の認識対象の文字の選択の処理の流れを示すフロ
ーチャートである。
【図11】同装置で処理される帳票での上下書きによる
訂正処理の一例を示す図である。
【図12】同装置で処理される帳票の上下書きによる訂
正処理の一例を示す図である。
【図13】同装置の処理結果出力手段による表示の一例
を示す図である。
【図14】同装置の処理結果出力手段による表示の一例
を示す図である。
【図15】同装置において訂正が行われている場合の処
理結果出力手段で表示の一例を示す図である。
【図16】同装置における訂正が行われている場合の処
理結果出力手段での表示の一例を示す図である。
【図17】同装置において処理される帳票上での訂正箇
所において上下の文字が接触している場合の一例を示す
図である。
【図18】同装置の処理結果出力手段における訂正箇所
を表示する場合の一例を示す図である。
【図19】同装置の処理結果出力手段における訂正箇所
を表示する場合の一例を示す図である。
【符号の説明】
10…文字抽出手段 12…訂正検出手段 14…記入選択手段 16…文字認識手段 18…処理結果出力手段 20…処理結果修正手段

Claims (19)

    【特許請求の範囲】
  1. 【請求項1】入力画像から帳票に記入された文字を抽出
    する文字抽出手段と、 この文字抽出手段にて抽出された文字に対して、この文
    字を訂正するために当該文字の上または下の位置に書き
    直した文字が記入されている場合には、この書き直され
    ている文字を検出する訂正検出手段と、 この訂正検出手段による検出結果に基づいて、帳票に記
    入された文字の上または下の位置に書き直した文字が記
    入された箇所において、認識対象とすべき訂正した文字
    と認識対象から除外すべき訂正される前の文字を選択し
    て、認識対象とすべき文字に対して文字認識処理を行う
    文字認識手段とを具備したことを特徴とした文字認識装
    置。
  2. 【請求項2】前記文字抽出手段、前記訂正検出手段並び
    に前記文字認識手段による処理に基づき、前記文字抽出
    手段による文字抽出結果及び前記文字認識手段による文
    字認識結果を出力する処理結果出力手段とを更に具備し
    たことを特徴とする請求項1記載の文字認識装置。
  3. 【請求項3】前記処理結果出力手段による出力結果に基
    づき、前記文字認識手段による文字認識結果に誤りがあ
    る場合には、誤りのある文字を指定し、修正すべき文字
    認識内容の入力を受付ける修正手段を更に具備したこと
    を特徴とする請求項2記載の文字認識装置。
  4. 【請求項4】前記訂正検出手段は、前記文字抽出手段で
    の文字の抽出結果に基づいて、帳票上の文字が記入され
    ている行が複数あるか否かを判別する判別手段を具備し
    ていることを特徴とする請求項1記載の文字認識装置。
  5. 【請求項5】入力画像から帳票に記入された文字を抽出
    する文字抽出手段と、 この文字抽出手段にて抽出された文字に対して、この文
    字を訂正するために前記帳票上に訂正線または塗りつぶ
    しにより記入された文字の取消しが行われている場合に
    は、訂正線の加入または塗りつぶしが行われている文字
    を検出して、帳票に記入されている文字が訂正されてい
    ることを検出する第1の訂正検出手段と、 前記文字抽出手段にて抽出された文字に対して、この文
    字を訂正するために当該文字の上または下の位置に書き
    直した文字が記入されている場合には、この書き直され
    ている文字を検出して、帳票に記入されている文字が訂
    正されていることを検出する第2の訂正検出手段と、 前記第1及び第2の訂正検出手段による検出結果に基づ
    いて、帳票に記入された文字に訂正線、塗りつぶしが行
    われている文字、並びに上または下に書き直した文字が
    記入されて文字の箇所において、認識対象とすべき訂正
    した文字と認識対象から除外すべき訂正される前の文字
    とを選択して、認識対象とすべき文字に対して文字認識
    処理を行う文字認識手段とを具備したことを特徴とした
    文字認識装置。
  6. 【請求項6】前記文字抽出手段、前記第1及び第2の訂
    正検出手段並びに前記文字認識手段による処理に基づ
    き、前記文字抽出手段による文字抽出結果及び前記文字
    認識手段による文字認識結果を出力する処理結果出力手
    段とを更に具備したことを特徴とする請求項5記載の文
    字認識装置。
  7. 【請求項7】前記処理結果出力手段による出力結果に基
    づき、前記文字認識手段による文字認識結果に誤りがあ
    る場合には、誤りのある文字を指定し、修正すべき文字
    認識内容の入力を受付ける修正手段を更に具備したこと
    を特徴とする請求項6記載の文字認識装置。
  8. 【請求項8】入力画像から帳票に記入された文字を抽出
    し、 この抽出された文字に対して、この文字を訂正するため
    に文字の上または下の位置に書き直した文字が記入され
    ている場合には、この書き直されている文字を検出し、 この検出結果に基づいて、帳票に記入された文字の上ま
    たは下の位置に書き直した文字が記入されている箇所に
    おいて、認識対象とすべき訂正した文字と認識対象から
    除外すべき訂正される前の文字を選択して、認識対象と
    すべき文字に対して文字認識処理を行うことを特徴とす
    る文字認識方法。
  9. 【請求項9】前記文字認識処理の後、前記文字抽出結果
    及び前記文字認識結果を合せて出力することを特徴とす
    る請求項8記載の文字認識方法。
  10. 【請求項10】前記文字抽出結果及び前記文字認識結果
    を合せて出力する際に、文字認識処理を行う際に認識対
    象から除外した文字を合せて出力することを特徴とする
    請求項9記載の文字認識方法。
  11. 【請求項11】前記文字抽出結果及び前記文字認識結果
    を合せて出力する際に、更に入力画像を出力し、前記帳
    票に記入された文字の上または下の位置に書き直した文
    字が記入されている箇所とその周辺の画像を拡大するこ
    とにより訂正されている箇所の検出結果を出力すること
    を特徴とする請求項9記載の文字認識方法。
  12. 【請求項12】前記文字抽出結果及び前記文字認識結果
    を合せて出力する際に、前記文字抽出が正しく行われて
    いるか否かを確認するため、文字抽出結果として出力さ
    れる文字と、文字認識結果として出力される文字とはそ
    の対応関係を容易に判別できるように上下に揃えて出力
    することを特徴とする請求項9記載の文字認識方法。
  13. 【請求項13】前記文字抽出結果及び前記文字認識結果
    を合せて出力する際に、更に入力画像を合せて出力し、
    前記前記帳票に記入された文字の上または下の位置に書
    き直した文字が記入されている箇所の前景色の変更また
    は当該書き直した文字が記入されている箇所周辺の背景
    色の変更を行うことにより、訂正箇所の検出結果を出力
    することを特徴とする請求項9記載の文字認識方法。
  14. 【請求項14】前記出力結果に基づき、文字認識結果に
    誤りがある場合には、誤りのある文字を指定し、入力さ
    れた文字認識内容に基づき文字認識結果を修正すること
    を特徴とする請求項9記載の文字認識方法。
  15. 【請求項15】前記文字の抽出結果に基づいて、帳票上
    の文字が記入されている行が複数あるか否かを判別する
    ことで、文字を訂正するために文字の上または下の位置
    に記入された書き直した文字を検出することを特徴とす
    る請求項8記載の文字認識方法。
  16. 【請求項16】前記書き直した文字を検出する際に、一
    文字だけ書き足すことによって一文字だけ訂正されてい
    る場合には、最初に書き込まれた文字から構成される行
    に含まれる文字で、書き足された文字の上か下にあるも
    のを認識対象から除外することを特徴とする請求項15
    記載の文字認識方法。
  17. 【請求項17】前記書き直した文字を検出する際に、複
    数の文字を書き足すことによって訂正が行われている場
    合には、先に記入された方の行に含まれる文字を認識対
    象から除外することを特徴とする請求項15記載の文字
    認識方法。
  18. 【請求項18】前記書き直した文字を検出する際に、上
    下の行の文字数が等しく上下書きに含まれない文字が無
    い場合、または上下書きされていない文字が異なる行に
    属している場合には、中央寄りに記入されている方の行
    に含まれる文字を認識対象から除外することを特徴とす
    る文字認識方法。
  19. 【請求項19】入力画像から帳票に記入された文字を抽
    出し、 この抽出された文字に対して、この文字を訂正するため
    に帳票上に訂正線または塗りつぶしにより記入された文
    字の取消しが行われている場合には、訂正線の加入また
    は塗りつぶしが行われている文字を検出して、帳票に記
    入されている文字が訂正されていることを検出し、 さらに、前記抽出された文字に対して、この文字を訂正
    するために当該文字の上または下の位置に書き直した文
    字が記入されている場合には、この書き直されている文
    字を検出して、帳票に記入されている文字が訂正されて
    いることを検出し、 これらの検出結果に基づいて、帳票に記入された文字に
    訂正線、塗りつぶしが行われている文字、並びに上また
    は下に書き直した文字が記入されて文字の箇所におい
    て、認識対象とすべき訂正した文字と認識対象から除外
    すべき訂正される前の文字とを選択して、認識対象とす
    べき文字に対して文字認識処理を行うことを特徴とする
    文字認識方法。
JP2000364616A 2000-11-30 2000-11-30 文字認識装置及び文字認識方法 Pending JP2002170077A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000364616A JP2002170077A (ja) 2000-11-30 2000-11-30 文字認識装置及び文字認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000364616A JP2002170077A (ja) 2000-11-30 2000-11-30 文字認識装置及び文字認識方法

Publications (1)

Publication Number Publication Date
JP2002170077A true JP2002170077A (ja) 2002-06-14

Family

ID=18835523

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000364616A Pending JP2002170077A (ja) 2000-11-30 2000-11-30 文字認識装置及び文字認識方法

Country Status (1)

Country Link
JP (1) JP2002170077A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007058485A (ja) * 2005-08-24 2007-03-08 Fuji Xerox Co Ltd 画像認識装置、画像認識方法および画像認識プログラム
EP1995944A1 (en) 2007-05-23 2008-11-26 Ricoh Company, Ltd. Information processing apparatus and information processing method
JP2009070088A (ja) * 2007-09-12 2009-04-02 Toshiba Corp 情報処理装置およびプログラム
JP2020067991A (ja) * 2018-10-26 2020-04-30 ネットスマイル株式会社 帳票画像処理システム、帳票画像処理方法、および帳票画像処理プログラム
JP7098808B1 (ja) 2021-09-17 2022-07-11 株式会社東芝 文字認識装置、文字認識方法、および文字認識プログラム

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007058485A (ja) * 2005-08-24 2007-03-08 Fuji Xerox Co Ltd 画像認識装置、画像認識方法および画像認識プログラム
JP4655824B2 (ja) * 2005-08-24 2011-03-23 富士ゼロックス株式会社 画像認識装置、画像認識方法および画像認識プログラム
EP1995944A1 (en) 2007-05-23 2008-11-26 Ricoh Company, Ltd. Information processing apparatus and information processing method
US8170338B2 (en) 2007-05-23 2012-05-01 Ricoh Company, Ltd. Information processing apparatus and method for correcting electronic information obtained from handwritten information
JP2009070088A (ja) * 2007-09-12 2009-04-02 Toshiba Corp 情報処理装置およびプログラム
JP4693825B2 (ja) * 2007-09-12 2011-06-01 株式会社東芝 情報処理装置およびプログラム
JP2020067991A (ja) * 2018-10-26 2020-04-30 ネットスマイル株式会社 帳票画像処理システム、帳票画像処理方法、および帳票画像処理プログラム
JP7133844B2 (ja) 2018-10-26 2022-09-09 ネットスマイル株式会社 帳票画像処理システム、帳票画像処理方法、および帳票画像処理プログラム
JP7098808B1 (ja) 2021-09-17 2022-07-11 株式会社東芝 文字認識装置、文字認識方法、および文字認識プログラム
JP2023044206A (ja) * 2021-09-17 2023-03-30 株式会社東芝 文字認識装置、文字認識方法、および文字認識プログラム

Similar Documents

Publication Publication Date Title
JP3113827B2 (ja) 矩形オブジェクトの認識方法及び認識装置
US6614929B1 (en) Apparatus and method of detecting character writing area in document, and document format generating apparatus
JPH04195692A (ja) 文書読取装置
US7783080B2 (en) Image processing apparatus, image processing method, and storage medium readable by computer
JP2997508B2 (ja) パターン認識装置
JP2002170077A (ja) 文字認識装置及び文字認識方法
JP3936436B2 (ja) 表認識方法
JP3186246B2 (ja) 文書読取装置
JP5483467B2 (ja) 帳票読取装置、角印検出方法、および、角印検出プログラム
JP3171626B2 (ja) 文字認識の処理領域・処理条件指定方法
JPH0981666A (ja) 文字認識装置及び認識結果表示方法
JPH08329187A (ja) 文書読取装置
JPH11265422A (ja) マーク認識方法及び装置並びに記録媒体
JP2581353B2 (ja) グラフ画像登録システム
US7110600B1 (en) Document identifying device and method
JP2002366893A (ja) 帳票認識方法
CN116975853B (zh) 一种在Web端防止文本内容被完整截取的方法
JP2002366900A (ja) 光学式文字読取装置
JPH117493A (ja) 文字認識処理装置
JP2683116B2 (ja) 罫線の除去方法
JP3190794B2 (ja) 文字切り出し装置
JP3186712B2 (ja) 文書読取装置
JP3412441B2 (ja) 画像処理装置
JP6743401B2 (ja) 帳票設計・読取設定支援装置、帳票設計・読取設定支援方法、及び、光学文字認識システム
JP4442977B2 (ja) 文字認識装置、文字イメージ補間方法及び文字イメージ補間プログラムを記録した記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050131

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20050322

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20050328

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080115

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080304