JPH10334189A - 光学的文字読取装置及びコンピュータを光学的文字読取装置として機能させるためのプログラムを記録した記録媒体 - Google Patents

光学的文字読取装置及びコンピュータを光学的文字読取装置として機能させるためのプログラムを記録した記録媒体

Info

Publication number
JPH10334189A
JPH10334189A JP9147467A JP14746797A JPH10334189A JP H10334189 A JPH10334189 A JP H10334189A JP 9147467 A JP9147467 A JP 9147467A JP 14746797 A JP14746797 A JP 14746797A JP H10334189 A JPH10334189 A JP H10334189A
Authority
JP
Japan
Prior art keywords
character
recognition
image data
data
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP9147467A
Other languages
English (en)
Inventor
Shigeo Kashiwagi
繁雄 柏木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Engineering Ltd
Original Assignee
NEC Engineering Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Engineering Ltd filed Critical NEC Engineering Ltd
Priority to JP9147467A priority Critical patent/JPH10334189A/ja
Publication of JPH10334189A publication Critical patent/JPH10334189A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 余分に記入された〆印等についての帳票内の
データ認識結果を自動的に削除し、認識結果に対する修
正作業を低減する。 【解決手段】 スキャナ4でイメージデータを入力し、
文字認識する。演算制御部11において、この文字認識
結果を用いて所定の演算を実行する。正しい演算結果が
得られた場合は、演算に使用した認識結果以外のデータ
は余分な記入データとして削除する。そして、この削除
後のデータを出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は光学的文字読取装置
及びコンピュータを光学的文字読取装置として機能させ
るためのプログラムを記録した記録媒体に関し、特に手
書き帳票についての光学的文字読取装置に関する。
【0002】
【従来の技術】従来の光学的文字読取装置が特開平5―
342401号公報に記載されている。同公報に記載さ
れている光学式文字読取装置は、ホストコンピュータと
通信する制御部と、イメージスキャナ部と、イメージが
格納されるイメージメモリと、イメージメモリに格納さ
れたイメージについての文字認識を行う文字認識部と、
その認識結果を格納するメモリと、帳票間の演算結果メ
モリと、1帳票内の演算を行い格納した認識結果格納メ
モリと、帳票間演算結果メモリを用いて帳票間の演算を
行い演算結果を帳票間演算結果メモリに格納する演算部
とを含んで構成されている。
【0003】かかる構成において、イメージスキャナに
よって読取られた帳票のイメージは、イメージメモリに
格納され、文字認識部はイメージメモリの帳票イメージ
について文字認識を行い、認識結果を認識結果格納メモ
リに格納する。帳票には、製品の数量を記入するフィー
ルド、数量の合計を記入するフィールドがあるものと仮
定する。演算部は、1帳票内における数量合計を演算
し、この演算結果を数量合計記入フィールドの値として
認識結果格納メモリに格納する。また、演算部は複数枚
の帳票に跨る製品数量の累積値、複数毎の帳票に跨る数
量合計累積値を演算し、この結果を演算結果メモリに格
納する。
【0004】
【発明が解決しようとする課題】上述した従来の光学的
文字読取装置は、光学的に走査して得られたイメージデ
ータから、予め設定された文字記入枠を基にした大きさ
でイメージデータから、認識対象領域を抽出して、文字
認識を実行する。認識結果の妥当性を確認する方法に
は、認識結果を表示して元の帳票の記入データと目視確
認する方法がある。また、記入フィールドに何らの関係
式が成立するような場合は、「例えばフィールドAとフ
ィールドBの合計がフィールドCに等しい」認識結果を
演算制御する手段によって、認識結果の妥当性を評価す
ることもできる。但し、この時には記入された文字が予
め設定された記入枠に書かれていることが前提条件であ
り、これに違反した場合は正しく認識できないことにな
り、認識結果を修正する手段が必要となる。
【0005】一方、光学的文字読取装置に使用する帳票
は、図8に示すような個々の枠が独立した形式から図9
に示すような表形式、あるいは光学的文字読取装置専用
でない一般伝票まで読取り可能となっている。この一般
伝票では、図10に示すように追加記入を禁止するため
の〆印を記入することが多い。これをそのまま光学的文
字読取装置で認識すると、〆印の部分に対応する認識結
果は、図11に示すように正しく認識されない。また、
上述した従来技術のように記入フィールドの関係を演算
式によって評価する方法でも、〆印の書かれる範囲は不
定であるため、〆印によって生じた認識結果を削除しな
ければ正しい演算結果を得られないという欠点がある。
また、〆印を禁止することは現状運用形態の変更を伴
い、利用者の利便性を損なうという欠点がある。
【0006】本発明は上述した従来技術の欠点を解決す
るためになされたものであり、その目的は余分に記入さ
れた〆印等についての帳票内のデータ認識結果を自動的
に削除し、認識結果に対する修正作業を低減することの
できる光学的文字読取装置を提供することである。
【0007】
【課題を解決するための手段】本発明による光学的文字
読取装置は、帳票表面を走査して読取ったイメージデー
タについての文字認識を行う光学的文字読取装置であっ
て、読取ったイメージデータから読取り対象の領域を抽
出してさらに1文字毎の文字イメージデータに分離する
分離手段と、この分離後の文字イメージデータについて
文字認識を行う文字認識手段と、この文字認識手段にお
いて文字認識できないデータを認識対象から削除する削
除手段と、この削除後のデータのみを出力する出力手段
とを含むことを特徴とする 本発明による記録媒体は、コンピュータを、帳票表面を
走査して読取ったイメージデータについての文字認識を
行う光学的文字読取装置として機能させるためのプログ
ラムを記録した記録媒体であって、読取ったイメージデ
ータから読取り対象の領域を抽出してさらに1文字毎の
文字イメージデータに分離する分離手段、この分離後の
文字イメージデータについて文字認識を行う文字認識手
段、この文字認識手段において文字認識できないデータ
を認識対象から削除する削除手段、この削除後のデータ
のみを出力する出力手段、として機能させるためのプロ
グラムを記録したことを特徴とする。
【0008】上述した従来技術では、複数存在する記入
フィールドの間に何らかの関係式が成立し、これを演算
式で表現することができるが、記入フィールド枠内に〆
印で代表されるような余分な認識結果が存在すると、こ
の演算が正しくできないという問題点があった。そこ
で、本発明では上記問題点に対して、まず記入フィール
ドの認識結果である文字分布を評価し、正規の記入であ
る可能性の高い認識結果を抽出する。次に、この得られ
た認識結果による演算を実行し、正しい演算結果が得ら
れたら、演算に使用した認識結果以外は余分な記入デー
タとして、自動的に削除する。
【0009】また、演算式で左辺または右辺の一方が多
項式である場合は、順次項目追加演算し、正しい結果を
得るまで、もしくは対象となる項目がなくなるまで実行
する。この演算結果で正解が得られない場合、認識結果
そのままを出力して、修正する。
【0010】こうすることにより、光学的文字読取装置
のために設計された帳票でない、一般に流通している伝
票形式の帳票そのものを利用できるだけでなく、記入方
法を変更せず、また文字認識方法も従来のままで余分な
データを判別し、データの修正回数を低減させることが
できる。
【0011】
【発明の実施の形態】次に、本発明の実施の一形態につ
いて図面を参照して説明する。
【0012】図1は本発明による光学的文字読取装置の
実施の一形態を示すブロック図である。同図において、
本発明の実施の一形態による光学的文字読取装置は、動
作指示や認識結果の表示,修正及びデータの媒体への出
力を制御する修正操作部と呼ぶパーソナルコンピュータ
1に接続される装置である。本装置100は光学的文字
読取装置全体を制御する装置制御部2と、帳票を認識す
るために必要な位置情報,文字数,種類及びフィールド
の関係を演算できるようにするための演算パラメータ等
が格納された書式情報部3と、帳票の搬送と紙面を光学
的に走査するスキャナ4と、スキャナによって走査した
イメージデータを格納するページメモリ5と、ページメ
モリから認識情報によって文字毎のイメージデータを分
離する前処理部6と、前処理部6で切り出されたイメー
ジで文字認識を処理する認識制御部7と、認識結果を格
納するメモリ8と、認識結果の中から妥当性の高い文字
列(フィールド)データを抽出する文字列抽出部9と、
抽出した文字列を格納する2次格納メモリ10と、書式
情報部3に定義された演算パラメータを解読して2次格
納バッファのフィールドデータの演算を実行する演算制
御部11と、書式情報部3とは別に文字列の抽出条件の
データを定義した抽出情報部12とを含んで構成されて
いる。
【0013】かかる構成からなる本装置における処理に
ついて図2〜図4のフローチャート及び図9〜図11を
参照して説明する。
【0014】まず、図9に示されている帳票1における
読取り対象領域は、図中の「金額」の下の表形式枠2の
各行と、合計金額の行である。各行は1行1フィールド
のデータで定義され、各行の金額を加算した結果が「合
計金額」と等しいという関係式が成立する。
【0015】つまり、図10のように記入された場合、
「金額」の下の各行に記入されている金額(本例では、
「500000」のみ)の合計と、「合計金額」の右に
記入されている金額(本例では、「500000」)と
が一致するはずである。
【0016】しかしながら、本来の金額ではない〆印が
記入されていることから、これを図11のように認識す
ると、金額が一致しなくなる。
【0017】そこで、本装置では図2〜図4に示されて
いる処理を行う。まず、図2において、公知の事実によ
り光学的文字読取装置では、全体を制御する機構から動
作指示を受けて読取りを開始し、帳票がなくなるまで同
一の動作を行う(S1〜S3)。また1帳票毎に光学的
走査を実行した結果はページメモリに格納され、そのデ
ータを予め設定されている書式情報部のデータに基づい
て、文字毎の分離と文字認識を実行する(S4〜S
7)。
【0018】本装置においては、上述の帳票の認識が終
了した時点で、その認識結果の中から抽出情報部で定義
された条件を満足するフィールドデータを抽出し、2次
格納バッファへ移送する(S8)。次に2次格納バッフ
ァ内の認識結果を書式情報部の演算パラメータにしたが
って妥当性の評価を行い、元の加工しない認識結果格納
バッファのデータか、2次格納バッファのデータかの情
報を出力する(S9)。この出力結果により修正操作部
へ転送する認識結果を選択する(S10〜S12)。
【0019】次に図2中のステップS8の文字列抽出処
理について説明する。
【0020】まず、抽出情報部から条件データをロード
する(S20)。ここで、図5に示されているように、
抽出情報部にはn種類の実行レベルが格納されており、
本例では実行レベル1を選択したものとする。
【0021】ここで実行レベルとは、〆印による読取り
不能文字や誤読文字となった文字列を排除するための条
件設定を複数選択できるようにした場合において、各条
件が同等にならないようにランク付けした情報をいう。
【0022】本例の実行レベル1による条件では、対象
フィールドとして行番号2桁,フィールド番号2桁で表
される認識結果を抽出対象とする。フィールドとはOC
R装置で読取る文字列の集合単位であり、対象フィール
ドとはこれらの読取フィールドから〆印のチェックを実
行対象とするフィールドを指す。
【0023】図10及び図11の場合、読取りフィール
ドは各「項目1」〜「項目6」に対応する金額欄(各行
に1フィールド)と、合計金額欄である。この時の対象
フィールド(〆印のチェックが行われるフィールド)
は、帳票の各「項目1」〜「項目5」までのフィールド
となる。
【0024】また、この時の抽出の条件は3文字以上の
スペース以外の文字コード(X>3)で、下3桁から連
続すること(X=XXX)である。この条件を図11の
認識結果に対応させると第1行目の第1フィールド
(「500000」が記入されているフィールド)のみ
が抽出される。
【0025】ここで、本条件をフィールドデータのよう
に記述すると、図6(a)に示されているように下3桁
の「XXX]において3文字以上のスペース以外の文字
コードが連続することとなる。したがって、同図(b)
に示されているように下3桁が「000」であれば、こ
の条件を満足する(OK)こととなる。これに対し、同
図(c)に示されているように1文字のみの場合や、同
図(d)に示されているように3文字あるが1桁目と2
桁目とがスペースである場合には、この条件を満足しな
いこととなる(NG)。
【0026】なお、フィールド番号とは図7に示されて
いるように、OCR装置で読取るために物理的な位置に
論理的な番号を付けた呼び名である。本例の帳票では、
項目に対するところが「行」で金額欄が「フィールド」
となる。
【0027】図3に戻り、対象フィールドがある限り、
認識対象(対象フィールド)をロードする(S21→S
22)。そして、抽出条件を満足する場合には、認識結
果を2次格納バッファへ移送する(S23→S24)。
抽出条件を満足しない場合には、認識結果と同数のスペ
ースデータを2次格納バッファへ移送する(S23→S
25)。以後、同様の処理を繰返す。
【0028】次に、図2中のステップS9の演算制御に
ついて図4を参照して説明する。前述のステップS8で
抽出されたデータは第1行目の第1フィールドのみであ
り、その他のデータはスペースデータに置換されてい
る。本実施例での演算パラメータを式にすると(行2
桁,フィールド2桁)、 0101+0201+0301+0401+0501+0601 =0701…(1) となる。この時、0101=0701となり、他のフィ
ールドのデータの有無に関係なく正しい演算結果とな
る。
【0029】すなわち、図10の帳票において、各項目
の金額欄0101〜0601に記入された数字の合計
は、合計金額欄に記入された数値と等しい(式(1)の
左辺=右辺)という前提があり、この前提を基に以下の
処理が行われる。
【0030】まず、書式情報部に演算式がある場合には
その式の第1フィールドの結果をロードする(S40→
S41)。そして、これを仮の左辺結果として格納する
(S42)。
【0031】ここで、左辺と右辺とが等しくなければ、
左辺に次のフィールドがあるかどうか判断する(S43
→S45)。次のフィールドがあれば、そのフィールド
の内容を仮の左辺結果に演算する(S45→S46)。
この演算後、再び左辺と右辺とが等しいかどうか判断
し、以下繰返す(S46→S43→S45…)。
【0032】左辺と右辺とが等しく評価フィールド以降
にデータがあれば、評価した以降のフィールドデータを
スペースに置換する(S49→S50)。この置換後の
データまたは評価フィールド以降にデータがない場合に
は、2次格納バッファ使用フラグをセットする(S5
1)。左辺のフィールドが1つのみである場合も同様で
ある(S45→S47→S51)。
【0033】なお、書式情報部に演算式がないか(S4
0→S48)、または左辺に次フィールドがなく、左辺
のフィールドが1つのみでない場合は(S45→S4
8)、2次格納バッファ使用禁止フラグをセットする。
【0034】要するに本装置は、帳票を光学的に走査し
て得られたイメージデータから読取り領域部分を抽出
し、さらにその抽出した部分から文字部分を抽出し、そ
の文字を認識してコード化し、このコード化された結果
を表示して修正及び確認し、このコード化された認識結
果を出力する光学的文字読取装置を前提としている。そ
して、帳票の文字読取りは、光学的に帳票紙面を走査し
てイメージデータを得る。このイメージデータから読取
り対象の領域を抽出して、さらに1文字毎のイメージデ
ータに分離する。この分離した文字データを文字認識に
よってコード化する。この時、コード化できない(読め
ない)文字や、誤ったコード(誤読)になる可能性があ
るので、コード化された結果に対する修正/確認を行っ
ているのである。
【0035】なお、以上説明した図2〜図4の処理を実
現するためのプログラムを記録した記録媒体を用意し、
これを用いてコンピュータを制御すれば、上述と同様な
文字読取動作を行うことができることは明白である。こ
の記録媒体には、半導体メモリ、磁気ディスク装置の
他、種々の記録媒体を用いることができる。
【0036】以上のように本装置によれば、〆印等、本
来不必要な記入データを自動的に削除して出力すること
により、本装置の導入前の帳票記入方式をそのまま採用
でき、かつ、装置内の基本的な文字認識処理を変更する
必要はないのである。
【0037】請求項の記載に関連して本発明は更に次の
態様をとりうる。
【0038】(1)前記第1のフィールド群に夫々記入
されている複数の文字は、帳票への追加記入を禁止する
ための〆印が該第1のフィールドを構成する各フィール
ドにまたがって記入されたものであることを特徴とする
請求項1又は2記載の光学的文字読取装置。
【0039】(2)前記第1のフィールド群に夫々記入
されている複数の文字は、帳票への追加記入を禁止する
ための〆印が該第1のフィールドを構成する各フィール
ドにまたがって記入されたものであることを特徴とする
請求項3又は4記載の記録媒体。
【0040】
【発明の効果】以上説明したように本発明は、〆印等、
本来不必要な記入データを自動的に削除して出力するこ
とにより、本装置の導入前の帳票記入方式をそのまま採
用でき、かつ、装置内の基本的な文字認識処理を変更す
る必要はないという効果がある。
【図面の簡単な説明】
【図1】本発明の実施の一形態による光学的文字読取装
置の構成を示すブロック図である。
【図2】図1の各部の動作を示すフローチャートであ
る。
【図3】図2中の文字列抽出ステップにおけるより詳細
な動作を示すフローチャートである。
【図4】図2中の演算制御ステップにおけるより詳細な
動作を示すフローチャートである。
【図5】図1中の抽出情報部に格納されている実行レベ
ルの例を示す図である。
【図6】実行レベルの条件を示す図である。
【図7】帳票上の行とフィールドとの関係を示す図であ
る。
【図8】OCR専用帳票の例を示す図である。
【図9】表形式帳票の例を示す図である。
【図10】表形式帳票への記入例を示す図である。
【図11】図10の帳票への記入例についての文字認識
結果を示す図である。
【符号の説明】
1 パーソナルコンピュータ 2 装置制御部 3 書式情報部 4 スキャナ 5 ページメモリ 6 前処理部 7 認識制御部 8 認識結果格納バッファ 9 文字列抽出部 10 2次結果格納バッファ 11 演算制御部 12 抽出情報部

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 帳票表面を走査して読取ったイメージデ
    ータについての文字認識を行う光学的文字読取装置であ
    って、読取ったイメージデータから読取り対象の領域を
    抽出してさらに1文字毎の文字イメージデータに分離す
    る分離手段と、この分離後の文字イメージデータについ
    て文字認識を行う文字認識手段と、この文字認識手段に
    おいて文字認識できないデータを認識対象から削除する
    削除手段と、この削除後のデータのみを出力する出力手
    段とを含むことを特徴とする光学的文字読取装置。
  2. 【請求項2】 前記削除手段は、前記帳票の第1のフィ
    ールド群に夫々記入されている複数の文字が示す数値の
    合計の値と前記第1のフィールド群以外の第2のフィー
    ルド群に記入されている文字が示す値とが等しい場合
    に、第1及び第2のフィールド群以外のフィールドを認
    識対象から削除することを特徴とする請求項1記載の光
    学的文字読取装置。
  3. 【請求項3】 コンピュータを、帳票表面を走査して読
    取ったイメージデータについての文字認識を行う光学的
    文字読取装置として機能させるためのプログラムを記録
    した記録媒体であって、読取ったイメージデータから読
    取り対象の領域を抽出してさらに1文字毎の文字イメー
    ジデータに分離する分離手段、この分離後の文字イメー
    ジデータについて文字認識を行う文字認識手段、この文
    字認識手段において文字認識できないデータを認識対象
    から削除する削除手段、この削除後のデータのみを出力
    する出力手段、として機能させるためのプログラムを記
    録したことを特徴とする記録媒体。
  4. 【請求項4】 前記削除手段は、前記帳票の第1のフィ
    ールド群に夫々記入されている複数の文字が示す数値の
    合計の値と前記第1のフィールド群以外の第2のフィー
    ルド群に記入されている文字が示す値とが等しい場合
    に、第1及び第2のフィールド群以外のフィールドを認
    識対象から削除することを特徴とする請求項3記載の記
    録媒体。
JP9147467A 1997-06-05 1997-06-05 光学的文字読取装置及びコンピュータを光学的文字読取装置として機能させるためのプログラムを記録した記録媒体 Withdrawn JPH10334189A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9147467A JPH10334189A (ja) 1997-06-05 1997-06-05 光学的文字読取装置及びコンピュータを光学的文字読取装置として機能させるためのプログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9147467A JPH10334189A (ja) 1997-06-05 1997-06-05 光学的文字読取装置及びコンピュータを光学的文字読取装置として機能させるためのプログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JPH10334189A true JPH10334189A (ja) 1998-12-18

Family

ID=15431048

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9147467A Withdrawn JPH10334189A (ja) 1997-06-05 1997-06-05 光学的文字読取装置及びコンピュータを光学的文字読取装置として機能させるためのプログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JPH10334189A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009259248A (ja) * 2008-04-11 2009-11-05 Nhn Corp ウェブページに含まれるイメージに対してタグ付けを実行し、その結果を利用してウェブ検索サービスを提供するための方法、装置及びコンピュータ読み取り可能な記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009259248A (ja) * 2008-04-11 2009-11-05 Nhn Corp ウェブページに含まれるイメージに対してタグ付けを実行し、その結果を利用してウェブ検索サービスを提供するための方法、装置及びコンピュータ読み取り可能な記録媒体

Similar Documents

Publication Publication Date Title
US5280544A (en) Optical character reading apparatus and method
JPS6159568A (ja) 文書処理装置
JPH113430A (ja) 入力画像を基準画像に対応付ける方法、そのための装置、及びその方法を実現するプログラムを記憶した記憶媒体
JP2001358925A (ja) 画像処理のための装置、方法及び記録媒体
JP4194462B2 (ja) 電子透かし埋め込み方法、電子透かし埋め込み装置、及びそれらを実現するプログラム並びにコンピュータ可読記憶媒体
JPH0132554B2 (ja)
JP3215176B2 (ja) 文書画像処理装置及び文書画像処理方法
JPH10334189A (ja) 光学的文字読取装置及びコンピュータを光学的文字読取装置として機能させるためのプログラムを記録した記録媒体
JP4383961B2 (ja) デジタル情報記録担体
JP3853331B2 (ja) デジタル情報記録方法
JP2002109470A (ja) 画像認識装置、画像認識方法、および、画像認識プログラムを記憶したコンピュータ読取り可能な記録媒体
JP4357226B2 (ja) 帳票定義装置、帳票定義方法及び帳票定義プログラム
JPH11213087A (ja) 文字認識装置
JP2570571B2 (ja) 光学文字読取装置
JP3269889B2 (ja) 光学式文字読取システム
JP2005050094A (ja) 光学的文字読取装置
JP2001209755A (ja) 書損じ修正装置、書損じ修正方法および書損じ修正プログラムを格納したコンピュータ読取り可能な記録媒体
JP2544589B2 (ja) 文書処理方法及び装置
JP4900271B2 (ja) 情報処理装置及び情報処理プログラム
JPH04130979A (ja) 文字画像切出し方法
JPH0473192B2 (ja)
JPS61198375A (ja) 光学的文字読取装置
JP4544691B2 (ja) 文字読取装置
JPS60110091A (ja) 文字認識方式
JPH1091719A (ja) 文字認識状態の管理方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20040907