JP2000331117A - 文書読取システム - Google Patents

文書読取システム

Info

Publication number
JP2000331117A
JP2000331117A JP11142683A JP14268399A JP2000331117A JP 2000331117 A JP2000331117 A JP 2000331117A JP 11142683 A JP11142683 A JP 11142683A JP 14268399 A JP14268399 A JP 14268399A JP 2000331117 A JP2000331117 A JP 2000331117A
Authority
JP
Japan
Prior art keywords
image
image data
reading system
document reading
entry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP11142683A
Other languages
English (en)
Inventor
Kiyoshi Ishihara
清志 石原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP11142683A priority Critical patent/JP2000331117A/ja
Publication of JP2000331117A publication Critical patent/JP2000331117A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Image Input (AREA)

Abstract

(57)【要約】 【課題】 印字や鉛筆等の記入手段に影響されず、正し
い認識処理が可能な文書読取システムを提供する。 【解決手段】 スキャナ11で読み取られた帳票のイメ
ージは、画像入力部12で多値の画像イメージデータに
変換されて画像イメージメモリ18に格納される。画像
イメージデータの各フィールドは、イメージ切り出し部
15によって切り出され、2値化処理部16によって帳
票レイアウト・データベース19に登録された各フィー
ルド毎の2値化閾値に基づいて2値化される。2値イメ
ージファイル20に格納された2値のイメージデータ
は、認識処理部17によって読み出されて認識処理が行
われる。各フィールドの記入手段に対応した2値化閾値
を登録しておくことにより、正しい認識処理ができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、帳票等に記載され
た文字や画像を読み取る文書読取システムに関するもの
である。
【0002】
【従来の技術】図2は、文書読取システムの読み取り対
象となる帳票の一例を示す図である。この帳票は、例え
ば左上の欄外に、帳票種別を示す帳票コード番号が黒色
等の読み取り可能な色で予め印刷されている。また、こ
の帳票には、人間の目には識別されるが機械には読み取
られないように、例えば橙色のドロップアウトカラー
で、複数の記入欄を示すための項目名や記入枠が予め印
刷されている。そして、記入枠内に、所定の事項を、プ
リンタで印刷したり、黒色の鉛筆やペン等で記入して文
書読取システムに入力するようになっている。
【0003】一方、従来の文書読取システムでは、読み
取り対象とする帳票コード番号毎に、その様式、即ち記
入枠の位置や記入される文字・記号の種類等のレイアウ
ト情報が、予め帳票レイアウト・データベースに登録さ
れている。そして、文書読取システムでは、読み取り対
象の帳票を画素に分解して各画素濃度を光学的に読み取
り、その読み取ったイメージデータを一定の閾値を用い
て白黒の2値データに変換し、画像イメージメモリに一
旦蓄積する。更に、文書読取システムでは、読み取った
帳票コード番号に従って帳票レイアウト・データベース
を検索し、そのレイアウト情報に基づいて、画像イメー
ジメモリから認識対象の記入枠のイメージデータを切り
出し、認識処理を行うようになっている。
【0004】
【発明が解決しようとする課題】しかしながら、従来の
文書読取システムでは、次のような課題があった。例え
ば、図2の帳票のように、プリンタで文字等を印刷した
記入枠と、鉛筆等を用いて文字等を手書きで記入した記
入枠と、印鑑で押印した記入枠とが混在する場合、それ
らの記入手段毎に記入濃度が異なるため、記入枠毎に読
み取られたイメージデータの画素濃度が異なる。このた
め、光学的に読み取ったイメージデータを2値化する段
階で、実際に記載された文字等とは異なったイメージデ
ータに変換されてしまい、正しい認識処理ができなくな
る場合があった。本発明は、前記従来技術が持っていた
課題を解決し、記入手段に影響されず、正しい認識処理
が可能な文書読取システムを提供するものである。
【0005】
【課題を解決するための手段】前記課題を解決するため
に、本発明は、文書読取システムにおいて、複数の記入
領域を有する文書の画像情報を画素に分解して読み取る
読み取り手段から各画素の濃度に対応するレベルのイメ
ージ信号が与えられ、該イメージ信号に基づいて該各画
素毎に多値のイメージデータを生成する画像入力手段
と、前記画像入力手段で生成された多値のイメージデー
タを格納するイメージ格納手段と、前記文書における前
記複数の記入領域の位置を示す位置情報、及び該記入領
域のイメージデータを2値化するための2値化閾値が予
め登録された領域情報登録手段を備えている。更にこの
文書読取システムは、前記位置情報を参照して前記イメ
ージ格納手段から前記各記入領域のイメージデータを切
り出す切り出し手段と、前記切り出し手段で切り出され
た前記記入領域のイメージデータを、該記入領域の2値
化閾値に従って2値のイメージデータに変換して出力す
る2値化処理手段と、前記2値化処理手段から出力され
た2値のイメージデータに基づいて前記記入領域の画像
情報を認識する認識処理手段とを有している。
【0006】本発明によれば、以上のように文書読取シ
ステムを構成したので、次のような作用が行われる。読
み取り手段で読み取られた複数の記入領域を有する文書
の画像情報のイメージ信号は、画像入力手段に与えられ
て、各画素毎に多値のイメージデータが生成される。多
値のイメージデータは、後の処理のためにイメージ格納
手段に一旦格納される。イメージ格納手段に格納された
イメージデータは、切り出し手段により、領域情報登録
手段に登録された記入領域の位置を示す位置情報に基づ
いて、各記入領域単位に切り出される。切り出されたイ
メージデータは、更に2値化処理手段により、領域情報
登録手段に登録された2値化閾値に基づいて、2値のイ
メージデータに変換される。2値のイメージデータは認
識処理手段に与えられ、その記入領域の画像情報が認識
される。
【0007】
【発明の実施の形態】図1は、本発明の実施形態を示す
文書読取システムの構成図である。この文書読取システ
ムは、読み取り対象の文書(例えば、帳票)を画素に分
解して各画素濃度を光学的に読み取るイメージスキャナ
やディジタルカメラ等の読み取り手段(例えば、スキャ
ナ)11を有しており、このスキャナ11が画像入力手
段(例えば、画像入力部)12に接続されている。画像
入力部12は、スキャナ11から与えられた画素毎の濃
度に対応したレベルのイメージ信号を、例えば8ビット
の多値の画像イメージデータに変換して出力するもので
ある。画像入力部12の出力側は、システムバス13に
接続されている。システムバス13には、画像入力部1
2のほか、帳票識別部14、切り出し手段(例えば、イ
メージ切り出し部)15、2値化処理手段(例えば、2
値化処理部)16、及び認識手段(例えば、認識処理
部)17の各処理手段が接続されている。更に、システ
ムバス13には、イメージ格納手段(例えば、画像イメ
ージメモリ)18、領域情報登録手段(例えば、帳票レ
イアウト・データベース)19、2値イメージファイル
20、及び認識結果ファイル21の各記憶手段が接続さ
れている。また図示していないが、システムバス13に
は、各処理手段の一連の動作を制御するための制御部が
接続されている。
【0008】画像イメージメモリ18は、画像入力部1
2から出力された帳票の多値の画像イメージデータを認
識処理等のために一旦格納するものである。帳票識別部
14は、画像イメージメモリ18に格納された画像イメ
ージデータに基づいて、読み取られた帳票の種別を識別
するものである。例えば、図2のような帳票であれば、
左上の欄外に記載された帳票コード番号を文字認識する
ことによって、帳票種別が識別される。また、所定の位
置に帳票コード番号が付されていない帳票であれば、そ
の帳票の寸法や帳票上の罫線の特徴等をもとに、帳票種
別を識別するようになっている。帳票レイアウト・デー
タベース19は、帳票種別毎にその帳票上の記入枠等で
仕切られた複数の記入領域(ここでは、「フィールド」
と呼ぶ)の位置を示す位置情報や、各記入領域の画像イ
メージデータを2値化するための2値化閾値等のレイア
ウト情報が予め登録されたファイルである。イメージ切
り出し部15は、帳票レイアウト・データベース19に
登録された位置情報に従って、読み取った帳票の各フィ
ールドのイメージデータを、画像イメージメモリ18か
ら順次切り出すものである。
【0009】2値化処理部16は、イメージ切り出し部
15で切り出された8ビットの多値のイメージデータ
を、帳票レイアウト・データベース19に登録された2
値化閾値に基づいて、例えば白及び黒に対応する2値の
イメージデータに変換して出力するものである。2値イ
メージファイル20は、2値化処理部16から出力され
た2値のイメージデータを格納するものである。認識処
理部17は、文字やマーク等の認識対象のフィールドに
対して、2値イメージファイル20に格納されたイメー
ジデータをもとに認識処理を行い、その認識結果を出力
するものである。認識結果ファイル21は、認識処理部
17によって認識された認識結果を格納するものであ
る。
【0010】図3は、図1中の帳票レイアウト・データ
ベース19の一例を模式的に示す図である。この図3に
示すように、帳票レイアウト・データベース19には、
帳票コード番号毎に、認識の対象となる複数のフィール
ドが登録されている。そして、これらの各フィールドに
対して、そのフィールドの位置情報(例えば、フィール
ドの対角点の座標に対応するイメージメモリ上のアドレ
ス等)、情報種別(例えば、画像、文字、マーク等の区
別)、及び2値化閾値等のデータが予め格納されてい
る。
【0011】図4は、図1の文書読取システムの動作を
示すフローチャートである。以下、この図4を参照しつ
つ、図1の動作を説明する。図1の文書読取システムの
スキャナ11に読み取り対象の帳票が入力されると、こ
のスキャナ11によって、図4のステップS1の帳票読
み取り処理が開始される。ステップS1において、スキ
ャナ11で画素に分解されて読み取られた帳票の画素毎
の濃度に応じたイメージ信号が、画像入力部12に与え
られる。ステップS2では、画像入力部12において、
イメージ信号が8ビットの多値の画像イメージデータに
変換され、システムバス13を介して画像イメージメモ
リ18に格納される。ステップS2の後、ステップS3
へ進む。ステップS3では、帳票識別部14が起動さ
れ、画像イメージメモリ18に格納された画像イメージ
データが参照され、帳票の所定の位置に付された帳票コ
ード番号が読み取られる。また、所定の位置に帳票コー
ド番号が付されていない帳票の場合には、帳票の寸法や
罫線の特徴が登録された帳票様式データと、画像イメー
ジメモリ18に格納された画像イメージデータとに基づ
いて、読み取られた帳票の識別が行われる。識別結果の
帳票コード番号は、イメージ切り出し部15に与えら
れ、ステップS4へ進む。
【0012】ステップS4では、イメージ切り出し部1
5が起動される。イメージ切り出し部15によって帳票
レイアウト・データベース19が参照され、画像イメー
ジメモリ18から認識対象のフィールド単位のイメージ
データが切り出される。切り出されたイメージデータは
2値化処理部16へ与えられ、ステップS5へ進む。ス
テップS5では、2値化処理部16が起動される。2値
化処理部16によって帳票レイアウト・データベース1
9が参照され、2値化閾値に基づいて、多値のイメージ
データが2値イメージデータに変換される。2値イメー
ジデータは、2値イメージファイルに格納され、ステッ
プS6へ進む。ステップS6では、例えば図示しない制
御部によって帳票レイアウト・データベース19が参照
され、そのフィールドの情報種別が文字やマーク等の認
識対象の情報であるか、認識対象とならない画像情報で
あるかが判定される。認識対象の情報であればステップ
S7へ進み、認識対象とならない画像情報であればステ
ップS8へ進む。
【0013】ステップS7では、認識処理部17が起動
される。認識処理部17によって2値イメージファイル
が読み出され、文字やマークの認識が行われる。認識結
果のデータは認識結果ファイル21に格納され、ステッ
プS8へ進む。ステップS8では、制御部によって帳票
レイアウト・データベース19が参照され、認識対象の
フィールドの処理がすべて完了したか否かが判定され
る。まだ処理の完了していないフィールドが残っていれ
ば、ステップS4へ戻り、残りのフィールドの処理が行
われる。そして、すべてのフィールドの処理が完了して
いれば、その帳票の読み取り処理は終了する。
【0014】このように、本実施形態の文書読取システ
ムは、読み取り対象のフィールド毎に2値化閾値を登録
した帳票レイアウト・データファイル19と、その2値
化閾値に基づいて多値のイメージデータを2値化する2
値化処理部16を有している。このため、フィールド毎
に記載された文字等の濃度が異なっていても、予めそれ
ぞれ登録された適切な2値化閾値で2値化処理を行うこ
とができるので、プリンタ印字や鉛筆書き等の記入手段
の相違に影響されず、正しい認識処理ができるという利
点がある。
【0015】なお、本発明は、上記実施形態に限定され
ず、種々の変形が可能である。この変形例としては、例
えば、次の(a)〜(f)のようなものがある。 (a) 画像入力部12では、スキャナ11から与えら
れたイメージ信号を、8ビットの多値の画像イメージデ
ータに変換しているが、8ビットに限定されず、2ビッ
ト以上の多値であれば良い。但し、ビット数が少なけれ
ば、きめ細かい閾値を設定することができなくなる。 (b) 読み取り対象の帳票は、認識対象の文字等と認
識対象とならない画像等のフィールドが混在するもので
も、認識対象の文字フィールドのみで構成されたもので
も、同様に読み取り可能である。
【0016】(c) 1種類の帳票のみを読み取る場合
であれば、帳票識別部14を削除することができる。 (d) 2値化処理部16の処理結果を、2値イメージ
ファイル20に一旦格納してから、認識処理部17によ
る認識処理を行っているが、この2値イメージファイル
20を介さずに、直ちに認識処理を行うようにしても良
い。 (e) 認識処理部17の認識結果を、認識結果ファイ
ル21に格納するようにしているが、通信回線等を介し
てホストコンピュータ等に伝送するようにしても良い。 (f) 画像入力部12等の各処理部を、システムバス
13で接続した構成となっているが、コンピュータを用
いてこれらの各処理部と同様の動作をソフトウエア処理
によって行うようにしても良い。
【0017】
【発明の効果】以上詳細に説明したように、本発明によ
れば、読み取り対象の文書の各記入領域のイメージデー
タの2値化閾値を登録した領域情報登録手段と、その2
値化閾値に従ってイメージデータを、多値から2値に変
換する2値化処理手段とを有している。これにより、各
記入領域毎にその記入手段(例えば、プリンタ印字や鉛
筆書き等)に対応した閾値で2値化することが可能にな
り、記入領域毎に正しい認識処理が可能になるという効
果がある。
【図面の簡単な説明】
【図1】本発明の実施形態を示す文書読取システムの構
成図である。
【図2】文書読取システムの読み取り対象となる帳票の
一例を示す図である。
【図3】図1中の帳票レイアウト・データベース19の
一例を模式的に示す図である。
【図4】図1の文書読取システムの動作を示すフローチ
ャートである。
【符号の説明】
11 スキャナ 12 画像入力部 14 帳票識別部 15 イメージ切り出し部 16 2値化処理部 17 認識処理部 18 画像イメージメモリ 19 帳票レイアウト・データベース 20 2値イメージファイル 21 認識結果ファイル

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 複数の記入領域を有する文書の画像情報
    を画素に分解して読み取る読み取り手段から各画素の濃
    度に対応するレベルのイメージ信号が与えられ、該イメ
    ージ信号に基づいて該各画素毎に多値のイメージデータ
    を生成する画像入力手段と、 前記画像入力手段で生成された多値のイメージデータを
    格納するイメージ格納手段と、 前記文書における前記複数の記入領域の位置を示す位置
    情報、及び該記入領域のイメージデータを2値化するた
    めの2値化閾値が予め登録された領域情報登録手段と、 前記位置情報を参照して前記イメージ格納手段から前記
    各記入領域のイメージデータを切り出す切り出し手段
    と、 前記切り出し手段で切り出された前記記入領域のイメー
    ジデータを、該記入領域の2値化閾値に従って2値のイ
    メージデータに変換して出力する2値化処理手段と、 前記2値化処理手段から出力された2値のイメージデー
    タに基づいて前記記入領域の画像情報を認識する認識処
    理手段とを、 備えたことを特徴とする文書読取システム。
JP11142683A 1999-05-24 1999-05-24 文書読取システム Withdrawn JP2000331117A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11142683A JP2000331117A (ja) 1999-05-24 1999-05-24 文書読取システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11142683A JP2000331117A (ja) 1999-05-24 1999-05-24 文書読取システム

Publications (1)

Publication Number Publication Date
JP2000331117A true JP2000331117A (ja) 2000-11-30

Family

ID=15321105

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11142683A Withdrawn JP2000331117A (ja) 1999-05-24 1999-05-24 文書読取システム

Country Status (1)

Country Link
JP (1) JP2000331117A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1203692A2 (en) 2000-10-30 2002-05-08 Johnson Controls Automotive Systems Corporation Vehicle seat back assembly
US7280693B2 (en) 2002-07-26 2007-10-09 Fujitsu Limited Document information input apparatus, document information input method, document information input program and recording medium
JP2009151803A (ja) * 2009-01-29 2009-07-09 Dainippon Printing Co Ltd 記入情報処理システム、プログラム及び電子ペン用帳票
JP2021141367A (ja) * 2020-03-02 2021-09-16 京セラドキュメントソリューションズ株式会社 画像形成装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1203692A2 (en) 2000-10-30 2002-05-08 Johnson Controls Automotive Systems Corporation Vehicle seat back assembly
US7280693B2 (en) 2002-07-26 2007-10-09 Fujitsu Limited Document information input apparatus, document information input method, document information input program and recording medium
JP2009151803A (ja) * 2009-01-29 2009-07-09 Dainippon Printing Co Ltd 記入情報処理システム、プログラム及び電子ペン用帳票
JP2021141367A (ja) * 2020-03-02 2021-09-16 京セラドキュメントソリューションズ株式会社 画像形成装置
JP7460948B2 (ja) 2020-03-02 2024-04-03 京セラドキュメントソリューションズ株式会社 画像形成装置

Similar Documents

Publication Publication Date Title
US8306325B2 (en) Text character identification system and method thereof
EP0063454A2 (en) Method for recognizing machine encoded characters
JP2000293626A (ja) 文字認識方法及び装置ならびに記憶媒体
JP2000331117A (ja) 文書読取システム
JP2020042466A (ja) 認識処理装置及びプログラム
JP4281236B2 (ja) 画像認識装置、画像認識方法、および、画像認識プログラムを記憶したコンピュータ読取り可能な記録媒体
RU2249853C2 (ru) Способ считывания полного блока данных из формуляров с графическими знаками
JP3476595B2 (ja) 画像領域分割方法、および画像2値化方法
JP4159948B2 (ja) 2次元コード読み取り装置、2次元コード読み取り方法及び2次元コード読み取りプログラム、記憶媒体
JP7497620B2 (ja) 文書データ生成装置、画像形成装置、及び文書データ生成プログラム
JP2001109843A (ja) 文字認識方法および装置
JPH0991385A (ja) 文字認識辞書追加方法及びこれを用いた端末ocr装置
CN106959940A (zh) 一种便于文档自动化录入的文档格式及转换和识别方法
JP3199033B2 (ja) 光学式文字読取方法、及び光学式文字読取装置
JP2003173421A (ja) 文字認識結果補正装置
JP3006294B2 (ja) 光学的文字読取装置
JP3756660B2 (ja) 画像認識方法、装置および記録媒体
JP2544589B2 (ja) 文書処理方法及び装置
JP2002259909A (ja) 文字読取装置
JP3277977B2 (ja) 文字認識方法
JP2570571B2 (ja) 光学文字読取装置
JP2022019257A (ja) 情報処理装置、情報処理方法及びプログラム
JP2004280530A (ja) 帳票処理システム及び帳票処理方法
JPH11345281A (ja) 光学式文字読取装置
JPH0554178A (ja) 文字認識装置及び修正用帳票

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060801