JPH05298488A - 光学的文字読取装置 - Google Patents

光学的文字読取装置

Info

Publication number
JPH05298488A
JPH05298488A JP4104214A JP10421492A JPH05298488A JP H05298488 A JPH05298488 A JP H05298488A JP 4104214 A JP4104214 A JP 4104214A JP 10421492 A JP10421492 A JP 10421492A JP H05298488 A JPH05298488 A JP H05298488A
Authority
JP
Japan
Prior art keywords
character
recognition
word
unit
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4104214A
Other languages
English (en)
Inventor
Masanori Terasaki
正則 寺崎
Masakatsu Izoe
正勝 井添
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP4104214A priority Critical patent/JPH05298488A/ja
Publication of JPH05298488A publication Critical patent/JPH05298488A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

(57)【要約】 (修正有) 【目的】 文字記入枠の無い帖票でも文字を迅速に読取
ることが可能な光学的文字読取装置を提供する。 【目的】 イメージ検出段S1で、スキャナが帖票を光
学的に走査して、シートバッファが帖票イメージを格納
する。文字切出し段S2は、格納された帖票イメージの
内、制御部から送出されたフォーマットコントロール情
報で指定された読取フィールドについて垂直射影を検出
し、それに基づいて帖票イメージから一文字毎に文字パ
ターンを切り出して、認識段に出力する。認識段S3
は、入力文字パターンについて、認識辞書を用いて文字
認識処理を行い、その結果を後処理段に出力する。後処
理段S4は、単語辞書部に格納されている単語及びエラ
ー文字列と認識部からの候補文字列とを比較、照合して
正解単語を決め、出力バッファに出力する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文字記入枠の無い読取
フィールドに文字が記入された帳票等を読取対象とする
光学的文字読取装置に関する。
【0002】
【従来の技術】従来の光学的文字読取装置が読取対象と
する帳票10の一例を図8に示す。
【0003】同図に示す帳票10は、読取フィールド1
1に文字記入位置を示す文字記入枠12が予め設けられ
たものである。そして記入者は、その文字記入枠12内
に1文字つづ記入していた。なお、読取フィールド11
は、通常、同図に示すように複数(姓,名)の読取フィ
ールド11が設けられている。
【0004】そして、従来の光学的文字読取装置によれ
ば、上記帳票10を光学的に走査して帳票イメージを検
出し、その検出した帳票イメージから文字記入枠12を
基準として1文字毎に文字パターンを切出して、その文
字パターンについて文字認識処理を行い、1文字毎に候
補文字列を出力し、後処理部でその出力された候補文字
列と単語辞書とを照合し、妥当な単語を出力していた。
【0005】
【発明が解決しようとする課題】近年、技術の進歩によ
り文字記入枠の無い読取フィールドに記入された文字列
を認識する試みが進められている。
【0006】しかしながら、従来の装置で文字記入枠の
無い読取フィールドに記入された文字列を読取ろうとし
た場合は、文字切出しの際の基準となる文字記入枠の代
わりに、文字数を予め設定しておく方法も考えられる
が、現状では、文字パターンの切出しで切出しの誤りを
完全に防ぐことはできず、同様に、文字認識処理で認識
の誤りを完全に防ぐことはできない。
【0007】従って、図9に示すように、例えば読取対
象の文字「清野」に対する認識結果は、「清」,「野」
からなる文字列(正解単語)以外に、「シ」,「青」,
「野」からなる文字列や、「シ」,「青」,「里」,
「予」からなる文字列が出力される場合があり、その後
の後処理で単に単語辞書と照合しただけでは妥当な単語
を得ることは難しいという問題があった。
【0008】また、後処理で複雑な知識処理を行うと、
処理に時間がかかり迅速な文字の読取りができなくなる
という問題も生ずる。
【0009】そこで、本発明は、上記事情に鑑みてなさ
れたものであり、文字記入枠の無い帳票でも文字を迅速
に読取ることが可能な光学的文字読取装置を提供するこ
とを目的とする。
【0010】
【課題を解決するための手段】上記目的を達成するため
に請求項1記載の発明は、文字が記入された帳票のイメ
ージを検出するスキャナと、その帳票イメージから文字
パターンを切出す文字切出し部と、その切出された文字
パターンと認識辞書と照合して認識結果を出力する認識
部とを有する光学的文字読取装置において、正解文字と
この正解文字について誤った認識結果が出力される可能
性のある誤り文字とを互いに関連付けて格納された修正
辞書部と、前記認識結果と前記修正辞書部に格納された
正解文字及び誤り文字とを比較して正解文字を出力する
後処理部とを有することを特徴とするものである。
【0011】請求項2記載の発明は、文字が記入された
帳票のイメージを検出するスキャナと、その帳票イメー
ジから文字パターンを切出す文字切出し部と、その切出
された文字パターンと認識辞書と照合して認識結果を出
力する認識部とを有する光学的文字読取装置において、
正解単語とこの正解単語について誤った認識結果が出力
される可能性のある誤り文字列とを互いに関連付けて予
め格納する単語辞書部と、前記認識結果と前記単語辞書
部に格納された正解単語及び誤り文字列とを比較して正
解単語を出力する後処理部とを有することを特徴とする
ものである。
【0012】
【作用】請求項1記載の発明によれば、文字切出し部が
帳票イメージから文字パターンを切出す際や、認識部が
その切出された文字パターンと認識辞書と照合して認識
結果を出力する際に、誤って文字パターンを切出しし、
また、誤った認識結果を出力しても、後処理部は認識結
果と修正辞書部に格納された正解文字及び誤り文字とを
比較して、正解文字を出力するので、文字記入枠の無い
帳票でも文字を迅速に読取ることが可能となる。
【0013】請求項2記載の発明によれば、文字切出し
部が帳票イメージから文字パターンを切出す際や、認識
部がその切出された文字パターンと認識辞書と照合して
認識結果を出力する際に、誤って文字パターンを切出し
し、また、誤った認識結果を出力しても、後処理部は認
識結果と修正辞書部に格納された正解単語及び誤り文字
列とを比較して、正解単語を出力するので、文字記入枠
の無い帳票でも単語を含む文字を迅速に読取ることが可
能となる。
【0014】
【実施例】以下、本発明の実施例を図面を参照して詳述
する。
【0015】図1は本発明の光学的文字読取装置の一実
施例を示す概略構成図である。
【0016】本装置は、帳票20のイメージを検出する
スキャナ1と、このスキャナ1が検出した帳票イメージ
を1帳票分格納するシートバッファ2と、このシートバ
ッファ2に格納された帳票イメージから1文字毎に文字
パターン31を切り出す文字切出し部3と、文字切出し
部3が切出した文字パターン31について認識辞書部4
に格納された辞書を用いて文字認識処理を行い認識結果
(候補文字列)を出力する認識部5と、認識部5の認識
結果と単語辞書部6に格納された辞書とを用いて後処理
を行い、正解単語(文字コード)を出力バッファ8に出
力する後処理部7と、本装置の各部にフォーマットコン
トロール情報(以下「FC情報」と略す)を出力して各
部を制御する図示しない制御部とを有して概略構成され
ている。
【0017】次に、上記各部の詳細を説明する。
【0018】本装置が読取対象とする帳票20は、図2
に示すように、文字記入枠の無い1又は2以上の読取フ
ィールド21に、文字数を予め設定せずに読取対象文字
22が横書きで手書きにより記入されたものとする。
【0019】前記スキャナ1は、帳票20上に光を照射
する光源と、帳票20からの反射光を受けて電気信号に
変換する光電変換素子とを備え、帳票20全体を光学的
に走査して帳票イメージを検出するものである。
【0020】前記文字切出し部3は、例えば図2に示す
帳票20を読取対象とした場合に、シートバッファ2に
格納された帳票イメージの内、FC情報で指定された読
取フィールド21について垂直射影30を検出し、その
検出結果を基に、帳票イメージから1文字毎に文字パタ
ーン31を切り出して、認識部5に入力するものであ
る。ここで行う文字切出しは、横方向に最小の文字に分
割するとする。従って、図3に示すような射影30を検
出した場合は、「シ」,「青」,「里」,「予」の文字
パタンーン31が得られる。
【0021】前記認識辞書部4には、文字切出し部3に
よって切出された入力文字パターンとのパターンマッチ
ング処理の対象となる候補文字パターン、例えばカナ文
字,漢字,数字等のパターンが格納されている。図2に
示す帳票20を処理対象とするならば、少なくとも
「シ」,「ツ」,「ン」,「責」,「青」,「音」,
「星」,「里」,「予」,「清」,「野」の文字パター
ンが格納されている。
【0022】前記認識部5は、文字切出し部3から入力
された入力文字パターン31と認識辞書部4に格納され
ている候補文字パターンとのパターンマッチング処理を
行い、候補文字列(文字コード)を後処理部7に出力す
るものである。すなわち、このパターンマッチング処理
は、文字切出し部3から入力された入力文字パターン3
1と認識辞書部4に格納されている候補文字パターンと
を照合して類似度値を演算して求め、その類似度値を点
数に換算し、点数の最も大きい第1候補文字から順に第
n候補文字まで複数の候補文字を決定するものである。
その出力例を図4に示す。同図では、第1候補文字(1
0点)として「シ」,「責」,「星」,「予」、第2候
補文字(9点)として「ツ」,「青」,「里」、第3候
補文字(8点)として「ン」,「音」が出力されてい
る。
【0023】前記単語辞書部6には、図5に示すよう
に、従来後処理で用いられていた単語(同図中○印で示
す)60と、単語60を構成する各文字を更に分解した
文字からなるエラー文字列(同図中・印で示す)61と
を互いに関連付けて格納されている。各エラー文字列6
1は、文字切出し部3による誤った文字切出し及び認識
部5による誤った文字認識により、誤った認識結果が出
る可能性のある文字列からなる。例えば、同図に示すよ
うに、単語「清野」60aに関しては、「シ」,
「青」,「野」の文字からなるエラー文字列61aと、
「清」,「里」,「予」の文字からなるエラー文字列6
1bと、「シ」,「青」,「里」「予」の文字からなる
エラー文字列61cとがそれぞれ単語「清野」60aと
アドレス情報等により互いに関連付けられて単語辞書部
6に格納されている。また、同様に単語「八坂」60b
に関しては、「ノ」,「1」,「坂」の文字からなるエ
ラー文字列61dと、「八」,「土」,「反」の文字か
らなるエラー文字列61eと、「ノ」,「1」,
「土」,「坂」の文字からなるエラー文字列61fとが
それぞれ単語「八坂」60bと互いに関連付けられて単
語辞書部6に格納されている。なお、同図中1,2,3
…は、それぞれ第1,第2,第3,…のアドレスを示す
とする。
【0024】また、エラー文字列61は、単語(例えば
「清野」)60を種々なパターンで手書きで記入した帳
票20を、実際に文字切出し部3により文字パターンを
切出しし、認識部5により認識した結果、「清」,
「野」とは異なる誤った文字が出力された場合はその文
字をエラー文字列として順次登録して作成される。通常
は、横書きの場合は、偏,旁に分解されるが、「町」の
場合のように、書き方によっては「田」と「丁」との間
が離れて、「田」と「丁」に誤って認識される場合もあ
る。従って、一概にどのように分解できるかは判断し難
い面があるため、上記のように、実際に読取らせてみて
誤った結果を登録する方が、確実な方法といえる。
【0025】前記後処理部7は、認識部5が出力した候
補文字列と各候補文字毎の点数とに基づき、単語辞書部
6に格納されている単語60及びエラー文字列61毎に
順次合計点数を求め、全て合計点数を算出し終えたら、
最大の点数を与えた単語60又はエラー文字列61を決
定する。その決定した文字列が単語60であるなら、そ
のまま正解単語として出力する。その決定した文字列が
エラー文字列61であるなら、そのエラー文字列61に
関連する単語60を正解単語として出力するものであ
る。
【0026】認識部5の認識結果が図4に示すような場
合を例にして正解単語の決定方法を図6をも参照して説
明する。
【0027】まず、第1乃至第nのアドレスに格納され
ている単語60又はエラー文字列61について合計点数
を求める。第1のアドレスに格納されている単語60a
の各文字「清」及び「野」はそれぞれ点数が「0」であ
るので、第1アドレスの合計点数は、「0」点となる。
第2のアドレスに格納されているエラー文字列61aの
各文字「シ」,「青」,「野」の点数は、それぞれ1
0,9,0点であるので、第2のアドレスの合計点数は
「19」点となる。第3のアドレスに格納されているエ
ラー文字列61bの各文字「清」,「里」,「予」の点
数は、それぞれ0,9,10点であるので、合計点数は
「19」点となる。第4のアドレスに格納されているエ
ラー文字列61cの各文字「シ」,「青」,「里」
「予」の点数は、それぞれ10,9,9,10点である
ので、合計点数は「38」点となる。そして、第5のア
ドレス以降についても上述したのと同様に合計点数を求
る。
【0028】全ての合計点数を求め終わった後は、最も
高い合計点数となった単語60又はエラー文字列61を
決定する。図5,図6に示す例では、第4のアドレスに
格納されているエラー文字列61cが最も高い合計点数
となったので、そのエラー文字列61cに関連する単語
「清野」60aを正解単語として出力する。
【0029】次に、上記実施例の動作を図7をも参照し
て説明する。
【0030】スキャナ1は、帳票20全体を光学的に走
査して帳票イメージを検出すると(S1)、その帳票イ
メージをシートバッファ2に出力する。シートバッファ
2は、スキャナ1からの帳票イメージを格納する。
【0031】文字切出し部3は、シートバッファ2に格
納された帳票イメージの内、制御部から送出されたFC
情報で指定された読取フィールド21について垂直射影
30を検出し、その射影30に基づいて帳票イメージか
ら1文字毎に文字パターン31を切り出して、認識部5
に出力する(S2)。
【0032】認識部5は、文字切出し部3から入力され
た入力文字パターン31について、認識辞書部4に格納
されている認識辞書を用いて文字認識処理を行い、その
認識結果(候補文字列)を後処理部7に出力する(S
3)。
【0033】後処理部7は、単語辞書部6に格納されて
いる単語60及びエラー文字列61と認識部5からの候
補文字列とを比較,照合して正解単語(文字コード)を
決定し、出力バッファ8に出力する(S4)。
【0034】このような上記実施例の光学的文字読取装
置によれば、文字記入枠の無い帳票でも迅速に文字を読
取ることが可能となる。
【0035】また、エラー文字列61を実際に読取らせ
て誤った認識結果が出たものを単語辞書部6に登録する
ようにしているので、単語辞書部6に格納されるエラー
文字列61は現実に即したものとなるので、文字読取率
の向上が確実に図れる。
【0036】なお、本発明は上記実施例に限定されるも
のではなく、その要旨を変更しない範囲内で種々に変形
実施が可能である。例えば、本装置が読取対象とする帳
票は、文字記入枠の無い読取フィールドに文字を縦書き
で記入したものでもよい。この場合は、文字切出し部は
水平射影を検出し、その水平射影に基づいて文字切出し
を行い、単語辞書部には各正解文字を縦方向に分解した
文字を格納すればよい。この場合の例として、正解文字
が「岩」の場合は、「山」,「石」からなるエラー文字
列が考えられる。
【0037】
【発明の効果】以上詳述した請求項1記載の発明によれ
ば、文字切出し部が帳票イメージから文字パターンを切
出す際や、認識部がその切出された文字パターンと認識
辞書と照合して認識結果を出力する際に、誤って文字パ
ターンを切出しし、また、誤った認識結果を出力して
も、後処理部は認識結果と修正辞書部に格納された正解
文字及び誤り文字とを比較して、正解文字を出力するの
で、文字記入枠の無い帳票でも文字を迅速に読取ること
が可能な光学的文字読取装置を提供することができる。
【0038】また、請求項2記載の発明によれば、文字
切出し部が帳票イメージから文字パターンを切出す際
や、認識部がその切出された文字パターンと認識辞書と
照合して認識結果を出力する際に、誤って文字パターン
を切出しし、また、誤った認識結果を出力しても、後処
理部は認識結果と修正辞書部に格納された正解単語及び
誤り文字列とを比較して、正解単語を出力するので、文
字記入枠の無い帳票でも単語を含む文字を迅速に読取る
ことが可能な光学的文字読取装置を提供することができ
る。
【図面の簡単な説明】
【図1】本発明の光学的文字読取装置の一実施例を示す
概略構成図である。
【図2】本実施例が読取対象とする帳票の一例を示す図
である。
【図3】本実施例の文字切出し部の動作を説明するため
の図である。
【図4】本実施例の認識部による認識結果の例を示す図
である。
【図5】本実施例の単語辞書部の格納状態を示す図であ
る。
【図6】本実施例の後処理部の動作を説明するための図
である。
【図7】本実施例の動作を説明するためのフローチャー
トである。
【図8】従来の光学的文字読取装置が読取対象とする帳
票の一例を示す図である。
【図9】従来の光学的文字読取装置の問題点を説明する
ための図である。
【符号の説明】
1 スキャナ 5 認識部 6 単語辞書部 7 後処理部 20 帳票 21 読取フィールド 31 文字パターン 60 単語 61 エラー文字列

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 文字が記入された帳票のイメージを検出
    するスキャナと、その帳票イメージから文字パターンを
    切出す文字切出し部と、その切出された文字パターンと
    認識辞書と照合して認識結果を出力する認識部とを有す
    る光学的文字読取装置において、正解文字とこの正解文
    字について誤った認識結果が出力される可能性のある誤
    り文字とを互いに関連付けて予め格納する修正辞書部
    と、前記認識結果と前記修正辞書部に格納された正解文
    字及び誤り文字とを比較して正解文字を出力する後処理
    部とを有することを特徴とする光学的文字読取装置。
  2. 【請求項2】 文字が記入された帳票のイメージを検出
    するスキャナと、その帳票イメージから文字パターンを
    切出す文字切出し部と、その切出された文字パターンと
    認識辞書と照合して認識結果を出力する認識部とを有す
    る光学的文字読取装置において、正解単語とこの正解単
    語について誤った認識結果が出力される可能性のある誤
    り文字列とを互いに関連付けて予め格納する単語辞書部
    と、前記認識結果と前記単語辞書部に格納された正解単
    語及び誤り文字列とを比較して正解単語を出力する後処
    理部とを有することを特徴とする光学的文字読取装置。
JP4104214A 1992-04-23 1992-04-23 光学的文字読取装置 Pending JPH05298488A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4104214A JPH05298488A (ja) 1992-04-23 1992-04-23 光学的文字読取装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4104214A JPH05298488A (ja) 1992-04-23 1992-04-23 光学的文字読取装置

Publications (1)

Publication Number Publication Date
JPH05298488A true JPH05298488A (ja) 1993-11-12

Family

ID=14374714

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4104214A Pending JPH05298488A (ja) 1992-04-23 1992-04-23 光学的文字読取装置

Country Status (1)

Country Link
JP (1) JPH05298488A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010237909A (ja) * 2009-03-31 2010-10-21 Fujitsu Frontech Ltd 知識補正プログラム、知識補正装置および知識補正方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010237909A (ja) * 2009-03-31 2010-10-21 Fujitsu Frontech Ltd 知識補正プログラム、知識補正装置および知識補正方法

Similar Documents

Publication Publication Date Title
JP2835178B2 (ja) 文書読取装置
JP2000293626A (ja) 文字認識方法及び装置ならびに記憶媒体
EP2138959B1 (en) Word recognizing method and word recognizing program
JPH05298488A (ja) 光学的文字読取装置
JPH0728935A (ja) 文書画像処理装置
JPH11213087A (ja) 文字認識装置
JP3457376B2 (ja) 光学式読み取り装置における文字修正方法
JP2002207960A (ja) 認識文字修正方法及び認識文字修正プログラム
JPH0991385A (ja) 文字認識辞書追加方法及びこれを用いた端末ocr装置
JP2001236467A (ja) パターン認識方法、装置、およびパターン認識プログラムを記録した記録媒体
JP4224914B2 (ja) 文字読取システム及び文字読取方法
JP2002074262A (ja) 認識文字修正方法
JPH06333083A (ja) 光学式文字読取装置
JP3310063B2 (ja) 文書処理装置
JPH05217017A (ja) 光学式文字読取装置
JPH11184962A (ja) 光学的文字読取装置、照合修正方法、及び記録媒体
JPH11143983A (ja) 文字認識装置、文字認識方法及び文字認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH04268986A (ja) 文字認識装置
JP3138665B2 (ja) 手書き文字認識方式および記録媒体
JPH01292586A (ja) 文字認識支援装置
JPH07120396B2 (ja) 文書読み取り装置
JPH07334624A (ja) 文字認識装置
JPH05120494A (ja) 文字認識方法及びその装置
JPH03123989A (ja) 文字認識装置
JPH09305712A (ja) 文字認識方法及び装置、及び文字認識用プログラムを記憶した記憶媒体