JPH01191986A - 読取装置 - Google Patents

読取装置

Info

Publication number
JPH01191986A
JPH01191986A JP63016441A JP1644188A JPH01191986A JP H01191986 A JPH01191986 A JP H01191986A JP 63016441 A JP63016441 A JP 63016441A JP 1644188 A JP1644188 A JP 1644188A JP H01191986 A JPH01191986 A JP H01191986A
Authority
JP
Japan
Prior art keywords
format
format information
information
reading
slip
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63016441A
Other languages
English (en)
Other versions
JPH07111729B2 (ja
Inventor
Nobuaki Takagi
宣明 高木
Yoshikatsu Nakamura
中村 好勝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP63016441A priority Critical patent/JPH07111729B2/ja
Publication of JPH01191986A publication Critical patent/JPH01191986A/ja
Publication of JPH07111729B2 publication Critical patent/JPH07111729B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明は種々の書式の帳票のフォーマット情報を効率的
に検出して文字読取りに供することのできる帳票フォー
マット検出装置に関する。
(従来の技術) 光学的文字読取装置(OCR)による文字読取りに供さ
れる帳票のフォーマット(書式)は−般に予め定められ
ており、文字読取装置は帳票の所定の領域に記載された
文字情報だけを読取り対象とするようになっている。こ
れ故、従来では専ら所定の書式に従って文字記入領域を
枠組等によって指定した帳票を準備しており、また文字
読取装置にとっては、その文字読取り領域を固定的に設
定している。
また種々の書式の帳票を読取り対象とする文字読取装置
にあっては、帳票にその書式(フォーマット)を特定す
るID番号やIDコード等を帳票上の所定の位置にプレ
プリントしておき、文字読取装置ではこのID情報を読
取り認識することによってその書式を知り、該帳票から
の文字読取りを行うものとなっている。この際、文字読
取装置には、予め上記ID情報に対応してその書式にお
ける文字読取り領域の情報が、例えば基準位置からの座
標値データ等として設定される。これ故、この種の多種
書式の帳票を読取り対象とする文字読取装置にあっては
、上述したID情報を予め帳票に記載しておくことが必
要不可決となる。
これに対して名刺における会社名、所属1氏名。
住所等を読取る光学的文字読取装置にあっては、名刺の
書式が定まっていないので次のような不具合がある。即
ち、成る程度、会社名や氏名の記載領域が特定されるよ
うな場合であっても、装置にとってはその書式を同定す
る手段を有しないため、帳票(名刺)上における氏名・
住所記載領域(文字読取り対象領域)を画像処理等によ
って識別検出することが必要となる。この為には、例え
ば帳票(名刺)上のロゴ・マークや会社名1氏名・住所
、宣伝文9図形等をそれぞれ画像処理によって認識し、
これらを区別して読取り対象とする文字の記載領域を識
別検出する必要が生じる。
しかしこのような画像処理は非常に複雑であることのみ
ならず多大な処理時間を必要とし、また誤認識の可能性
も非常に高い。しかも読取り対象領域の誤認識が生じた
場合、その文字読取り自体が全く意味をなさないことに
なる。更には帳票が与えられる都度、その帳票の書式フ
ォーマットを検出して読取り認識処理するので、例えば
同一書式の帳票を含む多数の帳票を連続的に読取り認識
するような場合、その処理効率が非常に悪かった。
このように種々書式の帳票を読取り対象とする従来の光
学的文字読取装置にあっては、上記帳票からの文字読取
りの正確化と処理効率の点で大きな問題があった。
(発明が解決しようとする問題点) このように従来の光学的文字読取装置にあって、種々書
式の帳票を読取り対象とするような場合、その書式を特
定する為のID情報を帳票上にプレプリントしておく必
要があるとか、またその書式が定まっていない場合には
繁雑な画像処理によって読取り対象領域を識別検出する
必要がある等の不具合があった。しかも帳票が入力され
る都度、その帳票についてのフォーマット情報の検出処
理を行なう必要があるので、その処理効率が非常に悪い
と云う問題があった。
本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、種々の書式からなるが同一書式
の°帳票が多く含まれるような大量の帳票を効率的に読
取り認識処理することができ、その処理効率の向上を図
ることのできる帳票フォーマット検出装置を提供するこ
とにある。
[発明の構成] (問題点を解決するための手段) 本発明は、種々の書式で文字が記載される帳票の情報を
濃淡画像として入力し、その書式情報および文字読取対
象領域を検出する書式検出手段と、この書式検出手段に
よって求められた書式情報および文字読取対象領域の情
報に従って上記帳票を読取り認識処理する装置本体とを
備えた文字読取装置において、 上記書式検出手段によって求められた書式情報および文
字読取対象領域の情報をフォーマット情報記憶部に格納
し、前記装置本体では上記フォーマット情報記憶部に格
納された情報に従って入力帳票を順次読取認識するよう
にし、この装置本体が読取認識リジェクトしたとき、前
記書式検出手段を起動して前記フォーマット情報記憶部
に格納された情報を更新するようにしたことを特徴とす
るものである。
つまりフォーマット情報記憶部に格納されたフォーマッ
ト情報に従って入力帳票に対する文字読取り認識処理を
順次行なうようにし、読取り認識リジェクトが生じたと
きその入力帳票に対するフォーマット情報の検出処理を
行い、これによって検出されたフォーマット情報にて前
記フォーマット情報記憶部に格納される情報を更新し、
この更新されたフォーマット情報に従って入力帳票に対
する文字読取り認識処理を行なうようにしたことを特徴
とするものである。
(作用) 本発明によれば、フォーマット情報記憶部に格納されて
いるフォーマット情報に従って入力帳票に対する文字読
取り認識処理が順次行なわれ、その読取り認識処理の過
程で認識リジェクトが生じたとき、その入力帳票の書式
フォーマットの検出処理が行なわれ、検出された書式フ
ォーマットにて前記フォーマット情報記憶部が更新され
る。
そしてその更新処理された書式フォーマットにて上記入
力帳票に対する読取り認識処理が繰返し実行される。
従って本発明によれば、入力帳票の書式を一々検出する
必要がないので、同一書式の帳票が含まれる大量の帳票
を連続的に読取り認識処理するような場合であっても、
これを効率良く処理することが可能となる。つまり異種
書式の帳票が入力されたときにだけ、その帳票に対する
書式フォーマットの検出処理を行なえば良いので、帳票
の書式フォーマット検出の為の処理手続きを大幅に簡略
化することができる。
(実施例) 以下、図面を参照して本発明の一実施例に係る帳票フォ
ーマット検出装置につき説明する。この帳票フォーマッ
ト検出装置は、例えば光学的文字読取装置の一部として
組込まれるもので、概略的にはm1図に示すように構成
される。
第1図においてlは処理対象となる帳票である。
例えばTV右カメラらなる濃淡画像入力部2は上記帳票
1を濃淡画像として撮像入力し、以下に示す書式情報の
抽出処理に供している。尚、上記濃淡画像は、例えば帳
票画像を構成する複数の画素がそれぞれその部位での成
る濃度値を持った画像データとして表現される。
分割濃度ヒストグラム作成部3は上記濃淡画像を、例え
ば第3図に示すように縦・横にそれぞれ区分して上記濃
淡画像を所定の単位領域に分割し、各単位領域毎にその
濃度値のヒストグラムを求めている。この濃度ヒストグ
ラムは、例えば第4図に示すように濃淡画像が取り得る
各濃度値の単位領域における出現頻度をそれぞれ調べる
ことにより求められる。
しかして分割濃度ヒストグラム作成部3は各単位領域に
ついてそれぞれ求められた濃度ヒストグラムの特徴を、
例えばそのヒストグラムにおいて極大値をとる点の濃度
値とその出現頻度、および極大点の数として求めている
。具体的には、第4図に示す濃度ヒストグラムの例では
X点、y点がそれぞれ極大点として求められ、その濃度
値A 。
  X A7.および出現頻度値B  、B  がそれぞれ求y められる。そしてその極大点の数は“2”として求めら
れることになる。
このような単位領域の特徴の抽出は、前述した如く分割
設定された各単位領域毎にそれぞれ行われる。そしてフ
ォーマット情報判定部5は上述した如く検出される特徴
情報を第5図に示すような形式でフォーマット情報記憶
部4に格納し、これらの各単位領域の特徴情報が統合し
、これを前記帳M1の書式情報として求めている。換言
すればフォーマット情報判定部5は、上記帳票lのフォ
ーマット情報を前述した各単位領域の濃度ヒストグラム
からそれぞれ求められる特徴情報の集りとして表現して
求めている。
尚、このようにして帳票1の書式情報をフォーマット情
報記憶部4に登録する際、フォーマット情報判定部5は
同時にその帳票lの文字読取り対象とする文字列が記載
される読取り対象領域の情報が第6図に示すようにして
登録される。この読取り対象領域の情報は、例えば第7
図に例示するように帳票1の左上隅を座標原点として、
その矩形領域の対角線上の角部をそれぞれ特定する始端
座標(X  、y  )、および終端座標(x  。
S      S                 
         Qyo)等として与えられる。この
ような読取り対象領域の情報は帳票lに複数箇所存在す
る場合、各領域毎にそれぞれ与えられ、帳票lの書式フ
ォーマット情報に対応付けて管理される。
しかしてフォーマット情報判定部5にて求められた読取
り対象領域を示す情報は、同時にフォーマット情報バッ
ファ6に格納され、更に読取り装置本体7に与えられる
。読取り装置本体7はこのようにして検出されたフォー
マット情報(読取り対象領域)に従って前記入力帳票l
に対する読取り認識処理、つまり入力帳票画像中がらの
読取り対象領域の情報の選択的な抽出、およびその領域
中に記載された文字の認識処理を実行するものとなって
いる。
しかして最初に入力された帳票lに対する文字読取り処
理が終了し、次の帳票lが入力されると、前記フォーマ
ット情報バッファ6に格納された書式フォーマットの情
報(読取り対象領域の情報)が読取り装置本体7に与え
られる。すると読取り装置本体7はこの情報に従って前
記入力帳票lに対する読取り対象領域を決定し、文字読
取り認識処理を実行する。
ここで上記読取り装置本体7による帳票1の読取り認識
が失敗すると、即ち読取り認識リジェクトが生じると、
読取り装置本体7は前記濃淡画像入力部2を起動し、そ
の入力帳票lに対する書式フォーマットの検出処理を再
起動する。そしてこの再起動により前記分割濃度ヒスト
グラム作成部3およびフォーマット情報判定部5の前述
した如き作用によって新たに帳票lに対する書式フォー
マットが求められると、その書式フォーマット情報と読
取り対象領域の情報とが前記フォーマ・ソト情報記憶部
4に格納される。そしてこの新たに検出された読取り対
象領域の情報にて前記フォーマット情報バッファBに格
納された読取り対象領域の情報が更新される。その後、
この更新された読取り対象領域の情報に従って前記帳票
1に対する読取り認識処理が前記読取り装置本体7にて
再度実行される。
尚、検出された書式フォーマット情報が既に検出されて
いる書式フォーマット情報と同一であると判定された場
合、その書式フォーマット情報に対応付けて管理されて
いる読取り対象領域の情報が前記フォーマット情報記憶
部4から読出されて前記フォーマット情報バッファGに
格納される。
従ってこの場合には、読取り対象領域の検出が行なわれ
ることなく、既に求められている読取り対象領域の情報
にてフォーマット情報バッファ6の更新が行なわれるこ
とになる。
以上のように本装置では第2図にその処理手続きの概略
的な流れを示すように、帳票1が入力されたとき(ステ
ップa)、フォーマット情報バッファ6に格納された登
録フォーマット情報(読取り対象領域の情報)に従って
装置本体7による帳票lの読取り認識処理が実行される
ものとなっている(ステップb)。しかして次にこの帳
票の読取り認識において、リジェクトが生じたか否かが
判定される(ステップC)。そしてリジェクトが生じな
かった場合には、そのときに入力された帳票1の書式フ
ォーマットが先に処理した帳票の古式フォーマットと同
一であり、その読取り認識に成功したと判断して次の帳
票に対する読取り認識処理に控える。
これに対して認識リジェクトが生じた場合には、そのと
きに入力された帳票lの書式フォーマットがその前に処
理した帳票の書式フォーマットと異なっていると判断す
る。この場合には、前述した書式フォーマットの検出処
理を起動し、入力帳票lの書式フォーマットを検出する
(ステップd)。
そしてこの検出された書式フォーマットの情報にて前述
した如くフォーマット情報バッファ6に登録さている書
式フォーマットの情報(読取り対象領域の情報)を更新
しくステップe)、更新された書式フォーマットの情報
に従って入力帳票1に対する読取り認識処理を再度実行
する。
かくしてこのように構成された本装置によれば、既に求
められている帳票1の書式フォーマットの情報に従って
帳票lに対する読取り認識処理が行なわれ、この読取り
認識に失敗したときにだけ、書式フォーマットの検出処
理が行なわれるようになっている。これ故、同一書式の
帳票を含む大量の帳票を読取り処理するような場合、従
来装置にように帳票lが与えられる都度、その書式フォ
ーマットを検出処理すると云う煩わしさがなく、それに
要する時間も軽減されるので、読取り処理効率を高める
ことが可能となる。
また分割領域毎に求められた濃度値ヒストグラムに基く
特徴情報によって帳票の書式を簡易表現し、この情報を
用いて帳票1の書式を求めているので、その処理手続が
非常に簡単である。しかも従来のようにID番号やID
コード等を帳票1にプレプリントしておく必要がないの
で、帳票1自体に文字読取りに供し得るか否かの制限が
加わることがなく、文字読取り装置にとっては帳票に対
する汎用性を持たせることが可能となる。
また種々書式の帳票毎に、その読取り対象領域を簡易に
求めることが可能となるので、その処理効率の向上を図
ることが可能となり、更には帳票上に画像や図形、不必
要な文字等が混在していてもその読取り対象領域を簡易
に、且つ正確に特定して、文字読取り処理を効率良く実
行させることが可能となる。そして文字読取りの信頼性
を大幅に向上させることが可能となる。
尚、本発明は上述した実施例に限定されるものではない
。例えば濃淡画像を分割設定する単位領域の大きさやそ
の数は、装置の仕様や帳票の書式等に応じて定めれば良
いものである。また濃度ヒストグラムから抽出する特徴
の情報も種々変形可能であり、書式フォーマットの検出
の手法も上述した例に限定されない。要するに本発明は
その要旨を逸脱しない範囲で種々変形して実施すること
ができる。
[発明の効果] 以上説明したように本発明によれば、同一書式の帳票が
大量に存在するような場合、最初に処理する帳票から検
出された書式フォーマット情報に従って次の帳票に対す
る読取り処理に対処することができるので、処理効率の
向上を図ることができる。また同一書式の帳票について
は、同一のフォーマットでその読取り処理を繰返し実行
することができるので、文字読取りの信頼性向上にも大
きく寄与する等の実用上多大なる効果が奏せられる。
【図面の簡単な説明】
図は本発明の一実施例を示すもので、第1図は実施例に
係る帳票フォーマット検出装置の概略構成図、第2図は
実施例装置の概略的な処理手続きの流れを示す図、第3
図は濃淡画像の分割例を示す図、第4図は単位領域の濃
度値ヒストグラムとその特徴を示す図、第5図は解析さ
れた書式情報のフォーマット情報記憶部への登録形式を
示す図、第6図はフォーマット情報記憶部に登録する読
取り対象領域の情報の形式を示す図、第7図は読取り対
象領域を示す座標の概念を示す図である。 1・・・帳票、2・・・濃淡画像入力部、3・・・分割
濃度ヒストグラム作成部、4・・・フォーマット情報記
憶部、5・・・フォーマット情報判定部、6・・・フォ
ーマット情報バッファ、7・・・読取り装置本体。 出願人代理人 弁理士 鈴江武彦 12図 第3図 第5図         第6図

Claims (1)

    【特許請求の範囲】
  1. 種々の書式で文字が記載される帳票の情報を濃淡画像と
    して入力し、その書式情報および文字読取対象領域を検
    出する書式検出手段と、この書式検出手段によって求め
    られた書式情報および文字読取対象領域の情報を記憶す
    るフォーマット情報記憶部と、このフォーマット情報記
    憶部に格納された情報に従って入力帳票を順次読取認識
    する装置本体と、この装置本体が読取認識リジェクトし
    たとき、前記書式検出手段を起動して前記フォーマット
    情報記憶部に格納された情報を更新する制御部とを具備
    したことを特徴とする帳票フォーマット検出装置。
JP63016441A 1988-01-27 1988-01-27 読取装置 Expired - Lifetime JPH07111729B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63016441A JPH07111729B2 (ja) 1988-01-27 1988-01-27 読取装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63016441A JPH07111729B2 (ja) 1988-01-27 1988-01-27 読取装置

Publications (2)

Publication Number Publication Date
JPH01191986A true JPH01191986A (ja) 1989-08-02
JPH07111729B2 JPH07111729B2 (ja) 1995-11-29

Family

ID=11916323

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63016441A Expired - Lifetime JPH07111729B2 (ja) 1988-01-27 1988-01-27 読取装置

Country Status (1)

Country Link
JP (1) JPH07111729B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6360011B1 (en) 1995-07-31 2002-03-19 Fujitsu Limited Data medium handling apparatus and data medium handling method
US8169651B2 (en) 2002-12-27 2012-05-01 Brother Kogyo Kabushiki Kaisha Data processing apparatus for recognizing and processing content recorded on a recording medium

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60183688A (ja) * 1984-03-02 1985-09-19 Nec Corp 光学文字読取方式
JPS61289476A (ja) * 1985-06-18 1986-12-19 Fujitsu Ltd 文字読取装置のフオ−マツト生成方式
JPS62239281A (ja) * 1986-04-09 1987-10-20 Hitachi Ltd 光学文字読取方式

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60183688A (ja) * 1984-03-02 1985-09-19 Nec Corp 光学文字読取方式
JPS61289476A (ja) * 1985-06-18 1986-12-19 Fujitsu Ltd 文字読取装置のフオ−マツト生成方式
JPS62239281A (ja) * 1986-04-09 1987-10-20 Hitachi Ltd 光学文字読取方式

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6360011B1 (en) 1995-07-31 2002-03-19 Fujitsu Limited Data medium handling apparatus and data medium handling method
US6501864B1 (en) 1995-07-31 2002-12-31 Fujitsu Limited Data medium handling apparatus and data medium handling method
US6567546B1 (en) 1995-07-31 2003-05-20 Fujitsu Limited Data medium handling apparatus medium handling method
US8169651B2 (en) 2002-12-27 2012-05-01 Brother Kogyo Kabushiki Kaisha Data processing apparatus for recognizing and processing content recorded on a recording medium

Also Published As

Publication number Publication date
JPH07111729B2 (ja) 1995-11-29

Similar Documents

Publication Publication Date Title
CN113139445B (zh) 表格识别方法、设备及计算机可读存储介质
JP2940936B2 (ja) 表領域識別方法
JP2575539B2 (ja) 書類上の金額フィールドの位置特定方法および識別方法
JPH0221383A (ja) 光学文字読取装置
US20200302135A1 (en) Method and apparatus for localization of one-dimensional barcodes
JP3268552B2 (ja) 領域抽出方法、宛名領域抽出方法、宛名領域抽出装置、及び画像処理装置
JPH01191986A (ja) 読取装置
JP2575408B2 (ja) 郵便物の宛先住所読取装置
JP3090070B2 (ja) 帳票識別方法及び装置
JP2009181225A (ja) Ocr装置、証跡管理装置及び証跡管理システム
JPH07152856A (ja) 光学的文字読取装置
JPS5949671A (ja) 光学的文字読取装置
JP2977244B2 (ja) 文字認識方法及び文字認識装置
JP3006294B2 (ja) 光学的文字読取装置
JP4431335B2 (ja) 文字列読み取りプログラム
JPH0228897A (ja) 宛名領域検出装置
KR20220168787A (ko) 만주어의 글자 추출 방법 및 이를 수행하는 시스템
JPS62103784A (ja) 文字読取装置
JPH11306282A (ja) 文字列領域抽出方法及び装置
JP2003323586A (ja) 帳票フォーム登録方法および帳票認識方法
JP2004013188A (ja) 帳票読取り装置および帳票読取り方法ならびプログラム
JPH01201789A (ja) 文字読取装置
JPH041882A (ja) 文字認識方法およびその装置
JP2963474B2 (ja) 類似文字識別方法
KR100817835B1 (ko) 바코드를 이용한 폼에디터 문서 등록방법.

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071129

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081129

Year of fee payment: 13

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081129

Year of fee payment: 13