JPH07111729B2 - 読取装置 - Google Patents

読取装置

Info

Publication number
JPH07111729B2
JPH07111729B2 JP63016441A JP1644188A JPH07111729B2 JP H07111729 B2 JPH07111729 B2 JP H07111729B2 JP 63016441 A JP63016441 A JP 63016441A JP 1644188 A JP1644188 A JP 1644188A JP H07111729 B2 JPH07111729 B2 JP H07111729B2
Authority
JP
Japan
Prior art keywords
format
information
format information
area
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63016441A
Other languages
English (en)
Other versions
JPH01191986A (ja
Inventor
宣明 高木
好勝 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP63016441A priority Critical patent/JPH07111729B2/ja
Publication of JPH01191986A publication Critical patent/JPH01191986A/ja
Publication of JPH07111729B2 publication Critical patent/JPH07111729B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明は種々の書式の帳票のフォーマット情報を効率的
に検出して文字読取りを行う文字読取装置に関する。
(従来の技術) 光学的文字読取装置(OCR)による文字読取りに供され
る帳票のフォーマット(書式)は一般に予め定められて
おり、文字読取装置は帳票の所定の領域に記載された文
字情報だけを読取り対象とするようになっている。これ
故、従来では専ら所定の書式に従って文字記入領域を枠
組等によって指定した帳票を準備しており、また文字読
取装置にとっては、その文字読取り領域を固定的に設定
している。
また種々の書式の帳票を読取り対象とする文字読取装置
にあっては、帳票にその書式(フォーマット)を特定す
るID番号やIDコード等を帳票上の所定の位置にプレプリ
ントしておき、文字読取装置ではこのID情報を読取り認
識することによってその書式を知り、該帳票からの文字
読取りを行うものとなっている。この際、文字読取装置
には、予め上記ID情報に対応してその書式における文字
読取り領域の情報が、例えば基準位置からの座標値デー
タ等として設定される。これ故、この種の多種書式の帳
票を読取り対象とする文字読取装置にあっては、上述し
たID情報を予め帳票に記載しておくことが必要不可決と
なる。
これに対して名刺における会社名,所属,氏名,住所等
を読取る光学的文字読取装置にあっては、名刺の書式が
定まっていないので次のような不具合がある。即ち、或
る程度、会社名や氏名の記載領域が特定されるような場
合であっても、装置にとってはその書式を同定する手段
を有しないため、帳票(名刺)上における氏名・住所記
載領域(文字読取り対象領域)を画像処理等によって識
別検出することが必要となる。この為には、例えば帳票
(名刺)上のロゴ・マークや会社名,氏名・住所,宣伝
文,図形等をそれぞれ画像処理によって認識し、これら
を区別して読取り対象とする文字の記載領域を識別検出
する必要が生じる。
しかしこのような画像処理は非常に複雑であることのみ
ならず多大な処理時間を必要とし、また誤認識の可能性
も非常に高い。しかも読取り対象領域の誤認識が生じた
場合、その文字読取り自体が全く意味をなさないことに
なる。更には帳票が与えられる都度、その帳票の書式フ
ォーマットを検出して読取り認識処理するので、例えば
同一書式の帳票を含む多数の帳票を連続的に読取り認識
するような場合、その処理効率が非常に悪かった。
このように種々書式の投票を読取り対象とする従来の光
学的文字読取装置にあっては、上記帳票からの文字読取
りの正確化と処理効率の点で大きな問題があった。
(発明が解決しようとする問題点) このように従来の光学的文字読取装置にあって、種々書
式の帳票を読取り対象とするような場合、その書式を特
定する為のID情報を帳票上にプレプリントしておく必要
があるとか、またその書式が定まっていない場合には繁
雑な画像処理によって読取り対象領域を識別検出する必
要がある等の不具合があった。しかも帳票が入力される
都度、その帳票についてのフォーマット情報の検出処理
を行なう必要があるので、その処理効率が非常に悪いと
云う問題があった。
本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、種々の書式からなるが同一書式
の帳票が多く含まれるような大量の帳票を効率的に読取
り認識処理することができ、その処理効率の向上を図る
ことのできる文字読取装置を提供することにある。
[発明の構成] (問題点を解決するための手段) 本発明は、種々の書式で文字が記載される帳票の情報を
濃淡画像として入力する画像入力部と、この画像入力部
から入力された帳票の濃淡画像を所定の単位領域に分割
し、各単位領域毎に濃度値とその濃度値の出現頻度で現
せられる濃度値ヒストグラムを求めるとともに、この求
められた濃度値ヒストグラムから極大値を示す濃度値と
その出現頻度値とを各単位領域毎に求めることにより帳
票の書式情報を求めるフォーマット情報判定手段と、こ
のフォーマット情報判定手段より求められた各単位領域
毎の極大値を示す濃度値及びその出現頻度値からなる書
式情報を、帳票における文字読取り対象領域を示す領域
情報と対応付けて記憶するフォーマット情報記憶手段
と、このフォーマット情報記憶手段に記憶された文字読
取り対象領域を示す領域情報を一時的に記憶するフォー
マット情報バッファと、帳票の読取り確認時、前記画像
入力部から入力された帳票の濃淡画像に対して、前記フ
ォーマット情報バッファに記憶された領域情報に従って
認識する認識手段と、この認識手段により認識リジェク
トが発生したことを検出する認識リジェクト検出手段
と、この認識リジェクト検出手段により認識リジェクト
が発生したことを検出したとき、前記フォーマット情報
判定手段を動作させ、当該帳票の各領域単位毎の極大値
を示す濃度値及びその出現頻度値からなる書式情報を求
めるとともに、この書式情報に基づいて前記フォーマッ
ト情報記憶手段から対応する領域情報を読出して前記フ
ォーマット情報バッファの領域情報を更新する手段から
構成されている。
(作用) 本発明は、種々の書式で文字が記載される帳票の情報を
濃淡画像として画像入力部で入力し、この入力された帳
票の濃淡画像を所定の単位領域に分割し、各単位領域毎
に濃度値とその濃度値の出現頻度で現せられる濃度値ヒ
ストグラムをフォーマット情報判定手段で求めるととも
に、この求められた濃度値ヒストグラムから極大値を示
す濃度値とその出現頻度値とを各単位領域毎に求めるこ
とにより帳票の書式情報をフォーマット情報判定手段で
求め、この求められた各単位領域毎の極大値を示す濃度
値及びその出現頻度値からなる書式情報を、帳票におけ
る文字読取り対象領域を示す領域情報と対応付けてフォ
ーマット情報記憶手段で記憶し、この記憶された文字読
取り対象領域を示す領域情報をフォーマット情報バッフ
ァで一時的に記憶し、帳票の読取り確認時、上記画像入
力部から入力された帳票の濃淡画像に対して、上記フォ
ーマット情報バッファに記憶された領域情報に従って認
識し、この認識により認識リジェクトが発生したことを
検出したとき、上記フォーマット情報判定手段を動作さ
せ、当該帳票の各領域単位毎の極大値を示す濃度値及び
その出現頻度値からなる書式情報を求めるとともに、こ
の書式情報に基づいて上記フォーマット情報記憶手段か
ら対応する領域情報を読出して上記フォーマット情報バ
ッファの領域情報を更新するようにしたものである。
(実施例) 以下、図面を参照して本発明の一実施例に係る帳票フォ
ーマット検出装置につき説明する。この帳票フォーマッ
ト検出装置は、例えば光学的文字読取装置の一部として
組込まれるもので、概略的には第1図に示すように構成
される。
第1図において1は処理対象となる帳票である。例えば
TVカメラからなる濃淡画像入力部2は上記帳票1を濃淡
画像として撮像入力し、以下に示す書式情報の抽出処理
に供している。尚、上記濃淡画像は、例えば帳票画像を
構成する複数の画素がそれぞれその部位での或る濃度値
を持った画像データとして表現される。
分割濃度ヒストグラム作成部3は上記濃淡画像を、例え
ば第3図に示すように縦・横にそれぞれ区分して上記濃
淡画像を所定の単位領域に分割し、各単位領域毎にその
濃度値のヒストグラムを求めている。この濃度ヒストグ
ラムは、例えば第4図に示すように濃淡画像が取り得る
各濃度値の単位領域における出現頻度をそれぞれ調べる
ことにより求められる。
しかして分割濃度ヒストグラム作成部3は各単位領域に
ついてそれぞれ求められた濃度ヒストグラムの特徴を、
例えばそのヒストグラムにおいて極大値をとる点の濃度
値とその出現頻度、および極大点の数として求めてい
る。具体的には、第4図に示す濃度ヒストグラムの例で
はx点,y点がそれぞれ極大点として求められ、その濃度
値Ax,Ay,および出現頻度値Bx,Byがそれぞれ求められ
る。そしてその極大点の数は“2"として求められること
になる。
このような単位領域の特徴の抽出は、前述した如く分割
設定された各単位領域毎にそれぞれ行われる。そしてフ
ォーマット情報判定部5は上述した如く検出される特徴
情報を第5図に示すような形式でフォーマット情報記憶
部4に格納し、これらの各単位領域の特徴情報が統合
し、これを前記帳票1の書式情報として求めている。換
言すればフォーマット情報判定部5は、上記帳票1のフ
ォーマット情報を前述した各単位領域の濃度ヒストグラ
ムからそれぞれ求められる特徴情報の集りとして表現し
て求めている。
尚、このようにして帳票1の書式情報をフォーマット情
報記憶部4に登録する際、フォーマット情報判定部5は
同時にその帳票1の文字読取り対象とする文字列が記載
される読取り対象領域の情報が第6図に示すようにして
登録される。この読取り対象領域の情報は、例えば第7
図に例示するように帳票1の左上隅を座標原点として、
その矩形領域の対角線上の角部をそれぞれ特定する始端
座標(xS,yS)、および終端座標(xe,ye)等として与え
られる。このような読取り対象領域の情報は帳票1に複
数箇所存在する場合、各領域毎にそれぞれ与えられ、帳
票1の書式フォーマット情報に対応付けて管理される。
しかしてフォーマット情報判定部5にて求められた読取
り対象領域を示す情報は、同時にフォーマット情報バッ
ファ6に格納され、更に読取り装置本体7に与えられ
る。読取り装置本体7はこのようにして検出されたフォ
ーマット情報(読取り対象領域)に従って前記入力帳票
1に対する読取り認識処理、つまり入力帳票画像中から
の読取り対象領域の情報の選択的な抽出、およびその領
域中に記載された文字の認識処理を実行するものとなっ
ている。
しかして最初に入力された帳票1に対する文字読取り処
理が終了し、次の帳票1が入力されると、前記フォーマ
ット情報バッファ6に格納された書式フォーマットの情
報(読取り対象領域の情報)が読取り装置本体7に与え
られる。すると読取り装置本体7はこの情報に従って前
記入力帳票1に対する読取り対象領域を決定し、文字読
取り認識処理を実行する。
ここで上記読取り装置本体7による帳票1の読取り認識
が失敗すると、即ち読取り認識リジェクトが生じると、
読取り装置本体7は前記濃淡画像入力部2を起動し、そ
の入力帳票1に対する書式フォーマットの検出処理を再
起動する。そしてこの再起動により前記分割濃度ヒスト
グラム作成部3およびフォーマット情報判定部5の前述
した如き作用によって新たに帳票1に対する書式フォー
マットが求められると、その書式フォーマット情報と読
取り対象領域の情報とが前記フォーマット情報記憶部4
に格納される。そしてこの新たに検出された読取り対象
領域の情報にて前記フォーマット情報バッファ6に格納
された読取り対象領域の情報が更新される。その後、こ
の更新された読取り対象領域の情報に従って前記帳票1
に対する読取り認識処理が前記読取り装置本体7にて再
度実行される。
尚、検出された書式フォーマット情報が既に検出されて
いる書式フォーマット情報と同一であると判定された場
合、その書式フォーマット情報に対応付けて管理されて
いる読取り対象領域の情報が前記フォーマット情報記憶
部4から読出されて前記フォーマット情報バッファ6に
格納される。従ってこの場合には、読取り対象領域の検
出が行なわれることなく、既に求められている読取り対
象領域の情報にてフォーマット情報バッファ6の更新が
行なわれることになる。
以上のように本装置では第2図にその処理手続きの概略
的な流れを示すように、帳票1が入力されたとき(ステ
ップa)、フォーマット情報バッファ6に格納された登
録フォーマット情報(読取り対象領域の情報)に従って
装置本体7による帳票1の読取り認識処理が実行される
ものとなっている(ステップb)。しかして次にこの帳
票の読取り認識において、リジェクトが生じたか否かが
判定される(ステップc)。そしてリジェクトが生じな
かった場合には、そのときに入力された帳票1の書式フ
ォーマットが先に処理した帳票の書式フォーマットと同
一であり、その読取り認識に成功したと判断して次の帳
票に対する読取り認識処理に控える。
これに対して認識リジェクトが生じた場合には、そのと
き入力された帳票1の書式フォーマットがその前に処理
した帳票の書式フォーマットと異なっていると判断す
る。この場合には、前述した書式フォーマットの検出処
理を起動し、入力帳票1の書式フォーマットを検出する
(ステップd)。そしてこの検出された書式フォーマッ
トの情報にて前述した如くフォーマット情報バッファ6
に登録さている書式フォーマットの情報(読取り対象領
域の情報)を更新し(ステップe)、更新された書式フ
ォーマットの情報に従って入力帳票1に対する読取り認
識処理を再度実行する。
かくしてこのように構成された本装置によれば、既に求
められている帳票1の書式フォーマットの情報に従って
帳票1に対する読取り認識処理が行なわれ、この読取り
認識に失敗したときにだけ、書式フォーマットの検出処
理が行なわれるようになっている。これ故、同一書式の
帳票を含む大量の帳票を読取り処理するような場合、従
来装置にように帳票1が与えられる都度、その書式フォ
ーマットを検出処理すると云う煩わしさがなく、それに
要する時間も軽減されるので、読取り処理効率を高める
ことが可能となる。
また分割領域毎に求められた濃度値ヒストグラムに基く
特徴情報によって帳票の書式を簡易表現し、この情報を
用いて帳票1の書式を求めているので、その処理手続が
非常に簡単である。しかも従来のようにID番号やIDコー
ド等を帳票1にプレプリントしておく必要がないので、
帳票1自体に文字読取りに供し得るか否かの制限が加わ
ることがなく、文字読取り装置にとっては帳票に対する
汎用性を持たせることが可能となる。
また種々の書式の帳票毎に、その読取り対象領域を簡易
に求めることが可能となるので、その処理効率の向上を
図ることが可能となり、更には帳票上に画像や図形,不
必要な文字等が混在していてもその読取り対象領域を簡
易に、且つ正確に特定して、文字読取り処理を効率良く
実行させることが可能となる。そして文字読取りの信頼
性を大幅に向上させることが可能となる。
尚、本発明は上述した実施例に限定されるものではな
い。例えば濃淡画像を分割設定する単位領域の大きさや
その数は、装置の仕様や帳票の書式等に応じて定めれば
良いものである。また濃度ヒストグラムから抽出する特
徴の情報も種々変形可能であり、書式フォーマットの検
出の手法も上述した例に限定されない。要するに本発明
はその要旨を逸脱しない範囲で種々変形して実施するこ
とができる。
[発明の効果] 以上説明したように本発明によれば、同一書式の帳票が
大量に存在するような場合、最初に処理する帳票から検
出された書式フォーマット情報に従って次の帳票に対す
る読取り処理に対処することができるので、処理効率の
向上を図ることができる。また同一書式の帳票について
は、同一のフォーマットでその読取り処理を繰返し実行
することができるので、文字読取りの信頼性向上にも大
きく寄与する等の実用上多大なる効果が奏せられる。
【図面の簡単な説明】
図は本発明の一実施例を示すもので、第1図は実施例に
係る帳票フォーマット検出装置の概略構成図、第2図は
実施例装置の概略的な処理手続きの流れを示す図、第3
図は濃淡画像の分割例を示す図、第4図は単位領域の濃
度値ヒストグラムとその特徴を示す図、第5図は解析さ
れた書式情報のフォーマット情報記憶部への登録形式を
示す図、第6図はフォーマット情報記憶部に登録する読
取り対象領域の情報の形式を示す図、第7図は読取り対
象領域を示す座標の概念を示す図である。 1……帳票、2……濃淡画像入力部(画像入力部)、3
……分割濃度ヒストグラム作成部、4……フォーマット
情報記憶部(フォーマット情報記憶手段)、5……フォ
ーマット情報判定部(フォーマット情報判定手段)、6
……フォーマット情報バッファ、7……読取り装置本体
(認識手段、認識リジェクト検出手段)。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】種々の書式で文字が記載される帳票の情報
    を濃淡画像として入力する画像入力部と、 この画像入力部から入力された帳票の濃淡画像を所定の
    単位領域に分割し、各単位領域毎に濃度値とその濃度値
    の出現頻度で現せられる濃度値ヒストグラムを求めると
    ともに、この求められた濃度値ヒストグラムから極大値
    を示す濃度値とその出現頻度値とを各単位領域毎に求め
    ることにより帳票の書式情報を求めるフォーマット情報
    判定手段と、 このフォーマット情報判定手段より求められた各単位領
    域毎の極大値を示す濃度値及びその出現頻度値からなる
    書式情報を、帳票における文字読取り対象領域を示す領
    域情報と対応付けて記憶するフォーマット情報記憶手段
    と、 このフォーマット情報記憶手段に記憶された文字読取り
    対象領域を示す領域情報を一時的に記憶するフォーマッ
    ト情報バッファと、 帳票の読取り確認時、前記画像入力部から入力された帳
    票の濃淡画像に対して、前記フォーマット情報バッファ
    に記憶された領域情報に従って認識する認識手段と、 この認識手段により認識リジェクトが発生したことを検
    出する認識リジェクト検出手段と、 この認識リジェクト検出手段により認識リジェクトが発
    生したことを検出したとき、前記フォーマット情報判定
    手段を動作させ、当該帳票の各領域単位毎の極大値を示
    す濃度値及びその出現頻度値からなる書式情報を求める
    とともに、この書式情報に基づいて前記フォーマット情
    報記憶手段から対応する領域情報を読出して前記フォー
    マット情報バッファの領域情報を更新する手段と、 を具備することを特徴とする読取装置。
JP63016441A 1988-01-27 1988-01-27 読取装置 Expired - Lifetime JPH07111729B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63016441A JPH07111729B2 (ja) 1988-01-27 1988-01-27 読取装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63016441A JPH07111729B2 (ja) 1988-01-27 1988-01-27 読取装置

Publications (2)

Publication Number Publication Date
JPH01191986A JPH01191986A (ja) 1989-08-02
JPH07111729B2 true JPH07111729B2 (ja) 1995-11-29

Family

ID=11916323

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63016441A Expired - Lifetime JPH07111729B2 (ja) 1988-01-27 1988-01-27 読取装置

Country Status (1)

Country Link
JP (1) JPH07111729B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1818857B1 (en) 1995-07-31 2010-06-23 Fujitsu Limited Document processor and document processing method
JP3888306B2 (ja) 2002-12-27 2007-02-28 ブラザー工業株式会社 データ処理装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0664624B2 (ja) * 1984-03-02 1994-08-22 日本電気株式会社 光学文字読取方式
JPS61289476A (ja) * 1985-06-18 1986-12-19 Fujitsu Ltd 文字読取装置のフオ−マツト生成方式
JPS62239281A (ja) * 1986-04-09 1987-10-20 Hitachi Ltd 光学文字読取方式

Also Published As

Publication number Publication date
JPH01191986A (ja) 1989-08-02

Similar Documents

Publication Publication Date Title
CN113139445B (zh) 表格识别方法、设备及计算机可读存储介质
JP3294995B2 (ja) 帳票読取装置
JPH08255236A (ja) 画像のファイリング装置及びファイリング方法
JP4078009B2 (ja) 帳票における文字記録領域の検出装置、帳票における文字記録領域の検出方法、記憶媒体及び帳票フォーマット作成装置
EP1202213B1 (en) Document format identification apparatus and method
JP3483919B2 (ja) 伝票文書情報システム
JP4935459B2 (ja) 文字認識方法、文字認識プログラムおよび文字認識装置
JPH07111729B2 (ja) 読取装置
JP3268552B2 (ja) 領域抽出方法、宛名領域抽出方法、宛名領域抽出装置、及び画像処理装置
JP5134383B2 (ja) Ocr装置、証跡管理装置及び証跡管理システム
JP2575408B2 (ja) 郵便物の宛先住所読取装置
JP3090070B2 (ja) 帳票識別方法及び装置
JPH07152856A (ja) 光学的文字読取装置
JP3186712B2 (ja) 文書読取装置
JP2000339405A (ja) 光学的文字認識システム、同システムに於ける帳票のフォーマットコントロール作成方法、及び同方法が格納された記憶媒体
JP3006294B2 (ja) 光学的文字読取装置
JP3276554B2 (ja) フォーマット認識装置及び文字読取り装置
JP3412998B2 (ja) 画像処理装置及びその方法
JPH05303661A (ja) イメージデータ部分取得表示装置
JP2003099709A (ja) 誤読文字修正方法及び光学的文字認識装置
JPH041882A (ja) 文字認識方法およびその装置
JP2004013188A (ja) 帳票読取り装置および帳票読取り方法ならびプログラム
JPH10124610A (ja) 光学式文字読取装置
JPS61190676A (ja) 帳票登録装置
JPH06259594A (ja) 光学的読取りデータの処理方法及び同装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071129

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081129

Year of fee payment: 13

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081129

Year of fee payment: 13