JP4544703B2 - Form reading method and form reading system - Google Patents

Form reading method and form reading system Download PDF

Info

Publication number
JP4544703B2
JP4544703B2 JP2000182735A JP2000182735A JP4544703B2 JP 4544703 B2 JP4544703 B2 JP 4544703B2 JP 2000182735 A JP2000182735 A JP 2000182735A JP 2000182735 A JP2000182735 A JP 2000182735A JP 4544703 B2 JP4544703 B2 JP 4544703B2
Authority
JP
Japan
Prior art keywords
image
feature information
information
image data
storage memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000182735A
Other languages
Japanese (ja)
Other versions
JP2002007960A (en
Inventor
善美 能塒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2000182735A priority Critical patent/JP4544703B2/en
Publication of JP2002007960A publication Critical patent/JP2002007960A/en
Application granted granted Critical
Publication of JP4544703B2 publication Critical patent/JP4544703B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、多種の帳票の画像が混在入力される画像ベースの帳票処理システムにおいて、帳票のフォーマットを識別し、文字認識等の処理対象領域の位置を決定する帳票読み取り方法および帳票読み取りシステムに関する。
【0002】
【従来の技術】
多種多様な帳票の画像データを入力し、文字認識対象領域の文字を認識したり、画像をファイリングしたりするいわゆる基幹業務系の帳票画像処理システムにおいては、まず、入力された帳票の画像データを業務に合わせて分類する必要がある。
【0003】
その分類のシステムは、画像データをイメージスキャナやFAX等の画像入力装置から入力する際に、(1)帳票を紙の段階で、予め種類毎に分類・仕分けし、画像入力する際にオペレータが帳票の種類を指定する方法(帳票フォーマット指定)、(2)帳票の種類を判別するための帳票(バッチ票等)を該当帳票の束の先頭に付加して画像入力する方法(バッチ票指定)、(3)帳票にユニークなID(文字別)をつけてその文字認識結果で帳票の種類を識別する方法(シートID識別)等の方法がとられてきた。
【0004】
最近の帳票画像処理システムでは、システム専用に作成された帳票だけではなく、既存の帳票や不特定多数の外部者が作成した帳票も処理対象とする必要がでてきた。
そのため、新たな分類方法として、(4)分類対象となる帳票の画像データの罫線特徴を抽出し、その特徴をその画像のファーマットとして予め登録・分類しておき、個々の画像データが入力したときにその画像データの罫線の特徴と登録されている複数のフォーマットの罫線の特徴を照らし合わせて帳票の種類を識別する方法(罫線特徴識別)、(5)分類対象となる帳票のユニークなパターンをもつ領域(帳票タイトル等)を帳票特徴領域としてパターン登録しておき、入力された個々の画像データのパターンと照らし合わせて帳票の種類を識別する方法(領域特徴識別)もとられている。
【0005】
【発明が解決しようとする課題】
基幹産業系の帳票画像処理システムでは、不特定多数の外部者が作成した帳票も処理対象とする必要があり、その場合、上記の如く、罫線特徴や領域特徴で帳票識別を行われることが多い。
ところが、システムによっては、(イ)A4縦サイズ帳票とA4横サイズ帳票のように用紙サイズは同じであるが用紙方向が異なるものが混在入力処理対象となる場合、(ロ)B4横サイズ帳票のように横方向では画像入力装置(スキャナ・FAX等)で画像を取得することができないものが混在入力処理対象となる場合がある。
【0006】
(イ)の場合は、画像入力装置によるスキュー防止や画像取得処理時間の短縮、オペレーションの簡易化のため、A4横方向またはA4縦方向のいずれかに揃えて画像を取得することが多い。
また、(ロ)の場合は、B4横帳票をB4縦方向に入力することになる。
このような場合、予め、帳票を方向別に仕分けし、同じ方向の用紙のみを画像入力装置にセットしてオペレータやアプリケーションに用紙方向を指定させ、画像取得後に指定された方向に画像を回転してから帳票識別、文字認識等の処理を行うことになる。
【0007】
ところが、これでは人手による仕分け作業が必要であり、本来の混在入力とはいえない。そこで、用紙方向が混在した帳票を混在した状態で画像入力し、帳票識別、文字認識を行えることが望まれている。
【0008】
【課題を解決するための手段】
そこで本発明は、読み取り対象の複数種類の帳票の画像データを読み取り、各帳票を識別するための帳票識別用特徴情報として帳票サイズがそろうように正方向から回転させた状態での罫線特徴情報を回転方向情報と共に予め帳票フォーマット格納メモリに登録しておき、個々に入力される帳票の上記画像データの特徴情報と上記の予め登録されている帳票識別特徴情報とを照合して帳票識別し、該当する帳票の回転方向情報により画像を回転させて正方向の画像を得て、文字認識等の処理対象領域情報を正方向の画像に対して設定することを特徴とするものである。
【0009】
さらに、具体的には、読み取り対象の帳票の画像データを入力し、その画像データを画像メモリに格納する画像入力手段と、取り扱うすべての帳票の画像データからそれぞれ抽出した帳票識別特徴情報として帳票サイズがそろうように正方向から回転させた状態での罫線特徴情報を回転方向情報と共に予め登録した帳票フォーマット格納メモリと、入力画像の特徴情報を抽出する特徴情報抽出処理部と、抽出した特徴情報と上記の予め登録されている帳票識別用特徴情報とを照合して帳票を識別する帳票識別手段と、入力画像を回転する画像回転処理部からなり、帳票識別を行って、該当する帳票の回転方向情報により画像を回転させて正方向の画像を得て、文字認識等の処理対象領域情報を正方向の画像に対して設定することを特徴とする。
【0010】
さらには、入力画像をカラードロップアウト処理するカラードロップアウト処理部を設け、帳票識別後、その帳票識別結果のカラードロップアウト処理要の情報に基づいて予め指定した色をドロップアウト処理をすることを特徴とする。
【0011】
【発明の実施の形態】
第1実施の形態例
図1は本実施の形態例を示すブロック図である。
図において、1は画像入力処理部であり、入力対象である帳票の画像を画像データとして入力し、画像データ格納メモリ2に格納する機能を有する。一般にスキャナ装置、FAX等がこれにあたる。画像データ格納メモリ2は画像入力処理部1で入力した画像データを格納するメモリである。
【0012】
3は特徴情報抽出処理部であり、画像データ格納メモリ2に格納されている画像データから帳票識別のインプットとなる特徴情報を抽出する機能をもつ。一般に罫線特徴(帳票を構成する罫線の形状、長さ、本数、構成等からなる情報)や領域特徴(帳票上のタイトル等ユニークな特徴をもつ領域の位置情報、パターン情報からなる情報)が特徴情報にあたる。
【0013】
4は特徴情報格納メモリであり、特徴情報抽出処理部3で抽出した特徴情報を格納するメモリである。
5は帳票フォーマット格納メモリであり、本システムで分類対象としているすべての帳票識別用特徴情報と、その帳票の文字認識等の処理の対象となる領域の位置や属性に関する情報を予め設定した帳票フォーマット情報を格納するメモリである。本帳票フォーマット格納メモリ5には、分類対象として予め登録したすべてまたは分類対象の一部の帳票フォーマット情報が格納されている。なお、帳票識別用特徴情報のみを格納してもよいもので、この場合、文字認識対象領域の位置や属性に関する帳票フォーマット情報はディスク等の外部記憶装置においておくことができる。
【0014】
6は帳票識別処理部であり、帳票フォーマット格納メモリ5に格納されている帳票識別用特徴情報と特徴情報格納メモリ4に格納された個々の入力画像の特徴情報を照合することによって、該当帳票を特定または絞り込む機能をもつ。
帳票識別が成功した場合は、識別結果の帳票を示すデータ(帳票名やID等)を、帳票識別結果格納メモリ7に格納する。
【0015】
8は画像回転処理部であり、帳票識別結果格納メモリ7に格納されている帳票識別結果から帳票識別用特徴情報を有する帳票フォーマット格納メモリ5を参照し、画像回転方向の情報を得て、画像データ格納メモリ2に格納されている画像データを指定された方向に回転する。
9は回転後画像データ格納メモリであり、方向回転後の画像データを格納するメモリである。
【0016】
10は領域設定処理部であり、帳票フォーマット格納メモリ5に格納されている該当帳票のフォーマットを参照しながら回転後画像データ格納メモリ9に格納されている画像データ上に処理対象となる領域を設定する機能をもつ。
処理対象帳票例を図2に示す。帳票13は、例えばA4横サイズ(A4サイズ用紙を横長においた方向を正方向とするもの)の帳票である。
【0017】
帳票14はA4縦サイズ(A4サイズ用紙を縦長においた方向を正方向とするもの)の帳票である。
上記の帳票13、14をひとつのスキャナで混在読み取りされるものとする。
読み取り処理時間を短縮する目的で、また、横方向サイズの混在によるスキューやジャム等の障害を防いでスキャナ走行を円滑化する目的で、帳票14をA4横方向にスキャナにセットし、右または左、図示では右90度回転の画像を取得する(帳票14ーB)。
【0018】
フォーマット登録時、帳票13は、正方向のままで特徴情報(罫線特徴等)を抽出して登録する。帳票14は、画像取得時と同じ方向の右(左)に90度回転した画像(帳票14ーB)として帳票識別用特徴情報を取得する。
処理対象となる領域の位置情報は、正方向の画像(帳票14ーA)で取得する。
【0019】
以下に、図3を用いて動作を説明する。
S1、画像入力処理部1が処理対象帳票の画像データを入力し、画像データ格納メモリ2に格納する。(画像入力)
S2、特徴情報抽出処理部3が、画像データ格納メモリ2に格納された処理対象帳票の画像データから識別用の特徴情報を抽出し、特徴情報格納メモリ4に格納する。特徴情報には、罫線特徴のように、画像データのみから抽出できるものと、領域情報のように、帳票フォーマットに登録されている情報をもとに抽出するものがある。後者の場合は、帳票フォーマット格納メモリ5も合わせて参照する。(特徴情報抽出)
S3、帳票識別処理部6が、帳票フォーマット格納メモリ5から予め登録されている処理対象帳票の帳票識別用特徴情報を順に取り出し、画像データ格納メモリ2に格納されている画像データの特徴情報と照合することにより、画像データがどの帳票であるかを識別する。その識別結果を帳票識別結果格納メモリ7に格納する。該当する帳票があった場合は、その帳票を特定する情報(帳票名やID等)を格納する。該当する帳票がない場合には、エラーコード等の該当なしがわかる情報を格納する。(帳票識別)
S4、該当する帳票があった場合は、帳票フォーマット格納メモリ5に格納されているこの帳票の帳票フォーマットから領域設定処理の前に、画像回転が必要か否かを示す情報を読み出す。つまり、処理対象帳票が図2に示す帳票13である場合には「NO:画像回転なし」、帳票14である場合には、「YES:左90度回転」ということになる。
【0020】
S5、画像回転要の場合は、画像回転処理部8が、画像を帳票フォーマットで指定された方向に回転する。つまり、図2の帳票14の場合には、帳票14ーBの方向の画像が取得されているために、左90度回転して帳票14ーAの方向に戻す。回転後の画像データを回転後画像データ格納メモリ9に格納する。
S6、領域設定処理部10が、特定された帳票の文字認識対象領域の位置や属性に関する情報を帳票フォーマット格納メモリ5から取り出し、領域を設定する。
【0021】
S7、設定された領域にに対して文字認識処理を行う。
以上の説明による実施の形態によると、入力帳票の用紙方向が混在する帳票画像処理システムにおいて、用紙の方向をそろえて画像入力し、そのままの方向で帳票識別を行った後、画像回転が必要な帳票である場合には、画像を回転させ、それ以降の領域設定、文字認識等の処理を行うことができるために、スキュー等の発生が少なく画像の取得精度が向上すると共に画像取得時間の短縮をはかることができる。
【0022】
また、帳票のサイズがB4横帳票などB4縦帳票と用紙方向の異なる帳票と混在させて読み取ることが可能となる。
第2実施の形態例
装置のブロック図を図4に示す。その構造は上記第1実施の形態例とほぼ同様であるために説明は省略する。
【0023】
図5において、帳票15ーAは、罫線が青系の色で印刷されている帳票であり、帳票16ーAは、罫線が赤系の色で印刷されている帳票である。
これらの青系や赤系の色で印刷されている罫線の色をドロップアウトして罫線が見えない状態の画像にすることで認識性能の向上をはかることがきる。
ところが、罫線をドロップアウトしてしまうと、帳票15ーBと帳票16ーBのように帳票を識別する特徴がなくなってしまう。そこで、フォーマット登録時に、帳票識別用の特徴情報を抽出する際に、帳票15、16ともカラードロップアウト処理を行う前の画像15ーA、16ーAを使用する。
【0024】
以下に、図6を用いて動作を説明する。
S1、画像入力処理部1が処理対象帳票の画像データを入力し、画像データ格納メモリ2に格納する。この時点では、カラードロップアウト処理が実行されていないために帳票15ーA、16ーAの画像が入力される。(画像入力)
S2、特徴情報抽出処理部3が、画像データ格納メモリ2に格納された処理対象帳票の画像データから帳票識別用の特徴情報を抽出し、特徴情報格納メモリ4に格納する。特徴情報には、罫線特徴のように、画像データのみから抽出できるものと、領域情報のように、帳票フォーマットに登録されている情報をもとに抽出するものがある。後者の場合は、帳票フォーマット格納メモリ5も合わせて参照する。(特徴情報抽出)
S3、帳票識別処理部6が、帳票フォーマット格納メモリ5から予め登録されている処理対象帳票の帳票識別用特徴情報を順に取り出し、画像データ格納メモリ2に格納されている画像データの特徴情報と照合することにより、画像データがどの帳票であるかを識別する。その識別結果を帳票識別結果格納メモリ7に格納する。該当する帳票があった場合は、その帳票を特定する情報(帳票名やID等)を格納する。該当する帳票がない場合には、エラーコード等の該当なしがわかる情報を格納する。(帳票識別)
S4、該当する帳票があった場合は、帳票フォーマット格納メモリ5に格納されているこの帳票の帳票フォーマットから領域設定、文字認識等の前にカラードロップアウトが必要か否かを示す情報を読み出す。つまり、処理対象帳票が図5に示す帳票15である場合には「YES:青系ドロップアウト」、帳票16である場合には、「YES:赤系ドロップアウト」ということになる。
【0025】
S5、カラードロップアウトが必要の場合は、カラードロップアウト処理部11が、帳票フォーマットで指定された色で画像のカラークラスタリング処理を行う。帳票15の場合には、青系ドロップアウト処理を行い、画像15ーBのような画像がカラードロップアウト後画像データ格納メモリ12に格納される。帳票16の場合には、赤系ドロップアウト処理を行い、画像16ーBのような画像がカラードロップアウト後画像データ格納メモリ12に格納される。
【0026】
S6、領域設定処理部10が、特定された帳票の文字認識対象領域の位置や属性に関する情報を帳票フォーマット格納メモリ5から取り出し、領域を設定する。
S7、設定された領域に対し、カラードロップアウト後の画像データを使用して文字認識処理を行う。
【0027】
以上の説明による実施の形態によると、入力帳票にドロップアウトカラーが混在する帳票画像処理システムにおいて、カラードロップアウト処理前の画像を入力し、その画像で帳票識別を行った後、識別結果に応じたカラードロップアウト処理を行い、その処理後、領域設定、文字認識等の処理を行うことによって処理対象帳票の種類を広げると共に文字認識の精度の向上をはかることができる。
【0028】
【発明の効果】
以上詳細に説明した本発明によると、読み取り対象の複数種類のすべての帳票の画像データを読み取り、各帳票を識別するための帳票識別用特徴情報として予め帳票フォーマット格納メモリに登録しておき、個々に入力される帳票の画像データの特徴情報と上記の予め登録されている帳票識別用特徴情報とを照合することによりその個々に入力される帳票を識別することができるようにしたことにより、表示方向が縦横混在している帳票の場合、その個々に入力される画像を識別して正方向に回転が必要な画像データは回転させて方向を直して文字認識対象領域を設定することができる効果を有する。
【0029】
また、カラー表示が混在している帳票は、その個々に入力される帳票をカラードロップアウトして処理することができ、処理対象帳票の種類を広げると共に文字認識の精度を向上させることができる効果を有する。
【図面の簡単な説明】
【図1】第1の実施の形態例を示すブロック図
【図2】帳票の説明図
【図3】処理手順を示すフローチャート
【図4】第2の実施の形態例を示すブロック図
【図5】帳票の説明図
【図6】処理手順を示すフローチャート
【符号の説明】
1 画像入力処理部
2 画像データ格納メモリ
3 特徴情報抽出処理部
4 特徴情報格納メモリ
5 帳票フォーマット格納メモリ
6 帳票識別処理部
7 帳票識別結果格納メモリ
8 画像回転処理部
9 回転後画像データ格納メモリ
10 領域設定処理部
11 カラードロップアウト処理部
12 カラードロップアウト後画像データ格納メモリ
13 帳票
14 帳票
15 帳票
16 帳票
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a form reading method and a form reading system for identifying the format of a form and determining the position of a processing target area such as character recognition in an image-based form processing system in which images of various forms are mixedly input.
[0002]
[Prior art]
In a so-called core business form image processing system that inputs image data of a wide variety of forms and recognizes characters in the character recognition target area or filing an image, first the image data of the input form is input. It is necessary to classify according to business.
[0003]
In the classification system, when image data is input from an image input device such as an image scanner or FAX, (1) the form is classified and sorted in advance at the paper stage by type, and an operator inputs the image. Method of specifying the type of form (form format specification), (2) Method of inputting an image by adding a form (batch form, etc.) for determining the type of form to the top of the bundle of the corresponding form (specifying batch form) (3) A method such as a method of attaching a unique ID (by character) to a form and identifying the type of the form from the character recognition result (sheet ID identification) has been used.
[0004]
In recent form image processing systems, not only forms created exclusively for the system but also existing forms and forms created by an unspecified number of outsiders have been required to be processed.
Therefore, as a new classification method, (4) the ruled line feature of the image data of the form to be classified is extracted, the feature is registered and classified in advance as the format of the image, and individual image data is input. A method of identifying the type of a form by comparing the characteristics of the ruled line of the image data with the characteristics of the ruled lines of a plurality of registered formats (ruled line characteristic identification), (5) a unique pattern of the form to be classified An area (such as a form title) having a pattern is registered as a form feature area, and the type of form is identified (area feature identification) in comparison with the pattern of each input image data.
[0005]
[Problems to be solved by the invention]
In the core industry form image processing system, it is necessary to also process forms created by an unspecified number of outsiders. In this case, form identification is often performed using ruled line features and area features as described above. .
However, depending on the system, if (B) A4 vertical size form and A4 horizontal size form, but the paper sizes are the same but different paper directions are subject to mixed input processing, As described above, in the horizontal direction, an image that cannot be acquired by an image input device (such as a scanner or a FAX) may be a target for mixed input processing.
[0006]
In the case of (A), images are often acquired in either the A4 horizontal direction or the A4 vertical direction in order to prevent skew by the image input device, shorten the image acquisition processing time, and simplify the operation.
In the case of (b), the B4 horizontal form is input in the B4 vertical direction.
In such a case, the forms are sorted in advance according to the direction, only the paper in the same direction is set in the image input device, the operator or application specifies the paper direction, and the image is rotated in the specified direction after the image is acquired. Thus, processing such as form identification and character recognition is performed.
[0007]
However, this requires manual sorting and cannot be said to be an original mixed input. Therefore, it is desired to be able to perform form identification and character recognition by inputting images in a mixed form with mixed paper orientations.
[0008]
[Means for Solving the Problems]
Therefore, the present invention reads the image data of a plurality of types of forms to be read, and the ruled line feature information in a state rotated from the forward direction so that the form sizes are aligned as form identifying feature information for identifying each form. It is registered in advance in the form format storage memory together with the rotation direction information, and the form information is identified by collating the feature information of the image data of the form inputted individually with the form registration feature information registered in advance. The image is rotated according to the rotation direction information of the form to be obtained to obtain an image in the forward direction, and processing target area information such as character recognition is set for the image in the forward direction.
[0009]
Furthermore, specifically, the image size of the form identification feature information extracted from the image input means for inputting the image data of the form to be read and storing the image data in the image memory and the image data of all the handled forms A form format storage memory in which ruled line feature information in a state rotated in the forward direction so as to be aligned is registered in advance together with the rotation direction information, a feature information extraction processing unit for extracting feature information of an input image, and extracted feature information Comprising a form identification means for identifying a form by collating with the previously registered form identification feature information, and an image rotation processing unit for rotating the input image. Rotating the image with information to obtain a forward image, and setting processing target area information such as character recognition for the forward image
[0010]
Furthermore, a color dropout processing unit for performing color dropout processing on the input image is provided, and after the form is identified, the color specified in advance is subjected to dropout processing based on the information on the color dropout processing required for the form identification result. Features.
[0011]
DETAILED DESCRIPTION OF THE INVENTION
First Embodiment FIG. 1 is a block diagram showing a first embodiment.
In the figure, reference numeral 1 denotes an image input processing unit which has a function of inputting an image of a form to be input as image data and storing it in the image data storage memory 2. In general, this is a scanner device, FAX, or the like. The image data storage memory 2 is a memory for storing the image data input by the image input processing unit 1.
[0012]
A feature information extraction processing unit 3 has a function of extracting feature information serving as an input for form identification from image data stored in the image data storage memory 2. Generally features ruled line features (information consisting of the shape, length, number, configuration, etc. of ruled lines constituting a form) and area features (information consisting of position information and unique pattern information such as titles on forms) It corresponds to information.
[0013]
Reference numeral 4 denotes a feature information storage memory which stores the feature information extracted by the feature information extraction processing unit 3.
Reference numeral 5 denotes a form format storage memory, which is a form format in which all the form identification feature information to be classified in this system, and information on the position and attributes of areas to be processed such as character recognition of the form are set in advance. A memory for storing information. The form format storage memory 5 stores all or a part of the form format information of the classification target registered in advance as the classification target. Note that only the form identification feature information may be stored. In this case, the form format information relating to the position and attributes of the character recognition target area can be stored in an external storage device such as a disk.
[0014]
Reference numeral 6 denotes a form identification processing unit, which compares the form identification feature information stored in the form format storage memory 5 with the feature information of the individual input images stored in the feature information storage memory 4 to obtain the corresponding form. Has a function to specify or narrow down.
If the form identification is successful, data (form name, ID, etc.) indicating the form of the identification result is stored in the form identification result storage memory 7.
[0015]
An image rotation processing unit 8 refers to the form format storage memory 5 having the form identification feature information from the form identification result stored in the form identification result storage memory 7, obtains information on the image rotation direction, and The image data stored in the data storage memory 2 is rotated in the designated direction.
Reference numeral 9 denotes a post-rotation image data storage memory which stores image data after direction rotation.
[0016]
An area setting processing unit 10 sets an area to be processed on the image data stored in the rotated image data storage memory 9 while referring to the format of the corresponding form stored in the form format storage memory 5. It has a function to do.
An example of a processing target form is shown in FIG. The form 13 is, for example, a form of A4 horizontal size (a direction in which A4 size paper is placed in landscape orientation is a positive direction).
[0017]
The form 14 is a form of A4 portrait size (a direction in which A4 size paper is placed in portrait orientation is the forward direction).
It is assumed that the forms 13 and 14 are read together by a single scanner.
For the purpose of shortening the reading processing time, and for the purpose of facilitating scanner running by preventing problems such as skew and jamming due to mixing of horizontal sizes, the form 14 is set on the scanner in the A4 horizontal direction, and the right or left In the figure, an image rotated 90 degrees to the right is acquired (form 14-B).
[0018]
At the time of format registration, the form 13 extracts and registers feature information (ruled line features, etc.) while maintaining the normal direction. The form 14 acquires the feature information for form identification as an image (form 14-B) rotated 90 degrees to the right (left) in the same direction as when acquiring the image.
The position information of the area to be processed is acquired as a forward image (form 14-A).
[0019]
Hereinafter, the operation will be described with reference to FIG.
S 1, the image input processing unit 1 inputs the image data of the processing target form and stores it in the image data storage memory 2. (Image input)
S 2, the feature information extraction processing unit 3 extracts feature information for identification from the image data of the processing target form stored in the image data storage memory 2 and stores it in the feature information storage memory 4. The feature information includes those that can be extracted from only image data such as ruled line features and those that are extracted based on information registered in the form format such as region information. In the latter case, the form format storage memory 5 is also referred to. (Feature information extraction)
S3, the form identification processing unit 6 sequentially extracts form identification feature information of the processing target form registered in advance from the form format storage memory 5, and collates it with the feature information of the image data stored in the image data storage memory 2 By doing so, it is identified which form the image data is. The identification result is stored in the form identification result storage memory 7. If there is a corresponding form, information (form name, ID, etc.) specifying the form is stored. When there is no corresponding form, information indicating no corresponding such as an error code is stored. (Form identification)
S4, if there is a corresponding form, information indicating whether or not image rotation is necessary is read out from the form format of the form stored in the form format storage memory 5 before the area setting process. That is, if the processing target form is the form 13 shown in FIG. 2, “NO: no image rotation”, and if it is the form 14, “YES: rotate 90 degrees left”.
[0020]
In S5, when image rotation is required, the image rotation processing unit 8 rotates the image in the direction specified by the form format. That is, in the case of the form 14 in FIG. 2, since the image in the direction of the form 14-B is acquired, the image is rotated 90 degrees to the left and returned to the direction of the form 14-A. The rotated image data is stored in the rotated image data storage memory 9.
S6, the area setting processing unit 10 takes out information on the position and attributes of the character recognition target area of the specified form from the form format storage memory 5 and sets the area.
[0021]
S7, character recognition processing is performed on the set area.
According to the embodiment described above, in the form image processing system in which the paper directions of input forms are mixed, image input is performed with the paper directions aligned, and after identifying the form in the same direction, image rotation is required. In the case of a form, the image can be rotated and the subsequent region setting, character recognition, etc. can be performed, so that the occurrence of skew and the like is reduced, and the image acquisition accuracy is improved and the image acquisition time is shortened. Can be measured.
[0022]
In addition, it is possible to read a mixed form of a B4 vertical form such as a B4 horizontal form and a form having a different paper direction.
FIG. 4 shows a block diagram of an apparatus according to the second embodiment. Since the structure is substantially the same as that of the first embodiment, description thereof is omitted.
[0023]
In FIG. 5, a form 15-A is a form in which ruled lines are printed in a blue color, and a form 16-A is a form in which ruled lines are printed in a red color.
It is possible to improve the recognition performance by dropping out the color of the ruled lines printed in these blue and red colors so that the ruled lines cannot be seen.
However, if the ruled line is dropped out, the characteristic of identifying the form such as the form 15-B and the form 16-B is lost. Therefore, at the time of format registration, when extracting feature information for form identification, both the forms 15 and 16 use the images 15-A and 16-A before color dropout processing.
[0024]
The operation will be described below with reference to FIG.
S 1, the image input processing unit 1 inputs the image data of the processing target form and stores it in the image data storage memory 2. At this time, since the color dropout processing is not executed, the images of the forms 15-A and 16-A are input. (Image input)
S 2, the feature information extraction processing unit 3 extracts form identifying feature information from the image data of the processing target form stored in the image data storage memory 2 and stores it in the feature information storage memory 4. The feature information includes those that can be extracted from only image data such as ruled line features and those that are extracted based on information registered in the form format such as region information. In the latter case, the form format storage memory 5 is also referred to. (Feature information extraction)
S3, the form identification processing unit 6 sequentially extracts form identification feature information of the processing target form registered in advance from the form format storage memory 5, and collates it with the feature information of the image data stored in the image data storage memory 2 By doing so, it is identified which form the image data is. The identification result is stored in the form identification result storage memory 7. If there is a corresponding form, information (form name, ID, etc.) specifying the form is stored. When there is no corresponding form, information indicating no corresponding such as an error code is stored. (Form identification)
S4, if there is a corresponding form, information indicating whether color dropout is necessary before area setting, character recognition, etc. is read out from the form format of the form stored in the form format storage memory 5. That is, when the processing target form is the form 15 shown in FIG. 5, “YES: blue dropout”, and when it is the form 16, “YES: red dropout”.
[0025]
S5, when color dropout is necessary, the color dropout processing unit 11 performs color clustering processing of the image with the color specified in the form format. In the case of the form 15, a blue dropout process is performed, and an image such as an image 15-B is stored in the image data storage memory 12 after color dropout. In the case of the form 16, red-type dropout processing is performed, and an image such as an image 16 -B is stored in the image data storage memory 12 after color dropout.
[0026]
S6, the area setting processing unit 10 takes out information on the position and attributes of the character recognition target area of the specified form from the form format storage memory 5 and sets the area.
S7: Character recognition processing is performed on the set area using the image data after color dropout.
[0027]
According to the embodiment described above, in a form image processing system in which dropout colors are mixed in an input form, an image before color dropout processing is input, form identification is performed using the image, and the result of identification is determined. By performing color dropout processing and performing processing such as area setting and character recognition after that processing, the types of processing target forms can be expanded and the accuracy of character recognition can be improved.
[0028]
【The invention's effect】
According to the present invention described in detail above, the image data of all the multiple types of forms to be read are read, and registered in the form format storage memory in advance as form identifying feature information for identifying each form. By comparing the feature information of the image data of the form input to the above and the previously registered form identification feature information, it is possible to identify the individual input forms. In the case of a form with both vertical and horizontal orientations, it is possible to identify individual input images and rotate the image data that needs to be rotated in the forward direction to correct the direction and set the character recognition target area Have
[0029]
In addition, forms that have mixed color display can be processed by color-dropping out the individual input forms, which can increase the types of forms to be processed and improve the accuracy of character recognition. Have
[Brief description of the drawings]
FIG. 1 is a block diagram showing a first embodiment. FIG. 2 is an explanatory diagram of a form. FIG. 3 is a flowchart showing a processing procedure. FIG. 4 is a block diagram showing a second embodiment. [Explanation of form] [Figure 6] Flow chart showing processing procedure [Explanation of symbols]
DESCRIPTION OF SYMBOLS 1 Image input process part 2 Image data storage memory 3 Feature information extraction process part 4 Feature information storage memory 5 Form format storage memory 6 Form identification process part 7 Form identification result storage memory 8 Image rotation process part 9 Image data storage memory 10 after rotation Area setting processing unit 11 Color dropout processing unit 12 Image data storage memory 13 after color dropout 13 Form 14 Form 15 Form 16 Form

Claims (2)

読み取り対象の複数種類の帳票の画像データを読み取り、各帳票を識別するための帳票識別用特徴情報として帳票サイズがそろうように正方向から回転させた状態での罫線特徴情報を回転方向情報と共に予め帳票フォーマット格納メモリに登録しておき、個々に入力される帳票の上記画像データの特徴情報と上記の予め登録されている帳票識別特徴情報とを照合して帳票識別し、該当する帳票の回転方向情報により画像を回転させて正方向の画像を得て、文字認識等の処理対象領域情報を正方向の画像に対して設定することを特徴とする帳票読み取り方法。Image data of multiple types of forms to be read is read, and ruled line feature information in a state rotated in the forward direction so that the form sizes are aligned as the form identification feature information for identifying each form, together with the rotation direction information in advance. Register in the form format storage memory, identify the form by comparing the feature information of the image data of the individual input form with the pre-registered form identification feature information, and rotate the corresponding form A form reading method characterized in that an image is rotated by information to obtain a forward image, and processing target area information such as character recognition is set for the forward image. 読み取り対象の帳票の画像データを入力し、その画像データを画像メモリに格納する画像入力手段と、
取り扱うすべての帳票の画像データからそれぞれ抽出した帳票識別特徴情報として帳票サイズがそろうように正方向から回転させた状態での罫線特徴情報を回転方向情報と共に予め登録した帳票フォーマット格納メモリと、
入力画像の特徴情報を抽出する特徴情報抽出処理部と、
抽出した特徴情報と上記の予め登録されている帳票識別用特徴情報とを照合して帳票を識別する帳票識別手段と、
入力画像を回転する画像回転処理部からなり、
帳票識別を行って、該当する帳票の回転方向情報により画像を回転させて正方向の画像を得て、文字認識等の処理対象領域情報を正方向の画像に対して設定することを特徴とする帳票読み取りシステム。
Image input means for inputting image data of a form to be read and storing the image data in an image memory;
A form format storage memory in which ruled line feature information in a state rotated from the forward direction so that the form size is aligned as the form identification feature information respectively extracted from the image data of all the handled forms, is registered in advance together with the rotation direction information,
A feature information extraction processing unit for extracting feature information of the input image;
A form identifying means for identifying the form by comparing the extracted feature information with the previously registered form identifying feature information;
It consists of an image rotation processing unit that rotates the input image,
It is characterized by performing form identification, rotating the image according to the rotation direction information of the corresponding form to obtain a forward image, and setting processing target area information such as character recognition for the forward image. Form reading system.
JP2000182735A 2000-06-19 2000-06-19 Form reading method and form reading system Expired - Fee Related JP4544703B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000182735A JP4544703B2 (en) 2000-06-19 2000-06-19 Form reading method and form reading system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000182735A JP4544703B2 (en) 2000-06-19 2000-06-19 Form reading method and form reading system

Publications (2)

Publication Number Publication Date
JP2002007960A JP2002007960A (en) 2002-01-11
JP4544703B2 true JP4544703B2 (en) 2010-09-15

Family

ID=18683437

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000182735A Expired - Fee Related JP4544703B2 (en) 2000-06-19 2000-06-19 Form reading method and form reading system

Country Status (1)

Country Link
JP (1) JP4544703B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009146305A (en) * 2007-12-17 2009-07-02 Oki Electric Ind Co Ltd Business form data processing server, system and method
JP2011070461A (en) * 2009-09-26 2011-04-07 Oki Electric Industry Co Ltd Slip order automatic correction system
CN104281847B (en) * 2013-07-12 2017-10-03 步步高教育电子有限公司 A kind of reading method, device and equipment

Also Published As

Publication number Publication date
JP2002007960A (en) 2002-01-11

Similar Documents

Publication Publication Date Title
CA2192436C (en) System and method for automatic page registration and automatic zone detection during forms processing
US8213717B2 (en) Document processing apparatus, document processing method, recording medium and data signal
US20080177764A1 (en) Document and/or Image Retrieval Method, Program Therefor, Document and/or Image Storage Apparatus, and Retrieval Apparatus
US8818018B2 (en) System and method for enhancing security printing
JPH04229763A (en) Picture processing unit and its method
US7924314B2 (en) Bulk image gathering system and method
EP3462378B1 (en) System and method of training a classifier for determining the category of a document
JP4544703B2 (en) Form reading method and form reading system
JP2001232887A (en) Printer, printing method and computer readable recording medium having printing program recorded thereon
JP3648050B2 (en) Form image classification method, form image registration method, and form image classification apparatus
JP4001446B2 (en) Method, apparatus and computer-readable recording medium for specifying image background color
JP3090070B2 (en) Form identification method and device
US6678427B1 (en) Document identification registration system
WO2020183628A1 (en) Image processing device, image reading device, image processing method, and program
US7110600B1 (en) Document identifying device and method
JPH10207981A (en) Document recognition method
JP2005208934A (en) Document distribution processing device and program
JP3823005B2 (en) Bitmap font creation device and document restoration device
JPH07152856A (en) Optical character reader
JP2908548B2 (en) Recognition method
JP3696152B2 (en) Form identification device and form identification method
JP3065076U (en) Report management system
JP2002109468A (en) Device for character recognition and method of character recognition
JP2004145385A (en) Business form processing system and method
CN113869314A (en) Image information extraction method and system for text direction clustering correction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080715

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080911

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081028

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081127

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20090115

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20090227

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100629

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130709

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4544703

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130709

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130709

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees