JP3762289B2 - Form identification device and form identification method - Google Patents

Form identification device and form identification method Download PDF

Info

Publication number
JP3762289B2
JP3762289B2 JP2001364813A JP2001364813A JP3762289B2 JP 3762289 B2 JP3762289 B2 JP 3762289B2 JP 2001364813 A JP2001364813 A JP 2001364813A JP 2001364813 A JP2001364813 A JP 2001364813A JP 3762289 B2 JP3762289 B2 JP 3762289B2
Authority
JP
Japan
Prior art keywords
identification
image
identifying
input
definition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2001364813A
Other languages
Japanese (ja)
Other versions
JP2003168073A (en
Inventor
和章 横田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2001364813A priority Critical patent/JP3762289B2/en
Priority to US10/305,193 priority patent/US7099508B2/en
Publication of JP2003168073A publication Critical patent/JP2003168073A/en
Application granted granted Critical
Publication of JP3762289B2 publication Critical patent/JP3762289B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Character Input (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、複数種の帳票を扱う文字認識装置に適用して好適な帳票識別装置に係り、特に識別する文字列が固定位置に配置されない複数種の帳票を帳票定義に従って識別する際に適用して好適な帳票識別装置に関する。
【0002】
更に本発明は複数の識別項目による帳票定義に従って帳票を識別する帳票識別方法に関する。
【0003】
【従来の技術】
複数種類の帳票をOCR装置で文字認識したい場合、予め帳票を種類別に分類する帳票識別作業が介在する。この帳票識別作業を人手により行うと多くの時間と労力を要する。そこで従来では、あらかじめ帳票の決まった位置に、帳票種類を見分けるための手がかりとなる文字を印字しておき、この文字を認識することで帳票種類を識別する方法が知られていた。しかしながら、この方法では、あらかじめ帳票設計時点で、各帳票について、識別するための文字列を定位置に配置しておかなければならないという問題がある。
【0004】
そこで、このような不具合を解消するために、処理対象となる複数種の帳票それぞれについて、帳票のサイズ、とじ穴領域、コーナーカット領域、プレ印刷領域などの特徴を集めた辞書(帳票定義)を作成し、この辞書と入力帳票とのマッチングを行なうことで、帳票識別のための文字列を固定位置に配置していない帳票についても帳票の種類を識別可能とした技術が提案された(特願2000−298280)。
【0005】
しかしながら、上記した従来技術に於いては、識別する帳票の種類が増えると、帳票識別処理の速度が低下する。特に、プレ印刷領域文字の識別項目に関して、そのチェックに文字認識処理が介在することから、識別対象となる帳票の種類が多くなると、識別処理速度が著しく低下することから、更に高速な帳票識別が要望されるようになった。
【0006】
【発明が解決しようとする課題】
上述したように、従来では、あらかじめ帳票の決まった位置に、帳票種類を見分けるための手がかりとなる文字を印字しておき、この文字を認識することで帳票種類を識別する方法に於いては、あらかじめ帳票設計時点で、識別するための文字列を定位置に配置しておかなければならないという問題があり、この不具合を解消するために提案された、処理対象となる複数種の帳票それぞれについて、帳票のサイズ、とじ穴領域、コーナーカット領域、プレ印刷領域などの特徴を集めた辞書を用いて帳票識別を行う技術に於いては、識別対象となる帳票の種類が多くなると、識別処理速度が著しく低下することから、更に高速な帳票識別が要望されるようになった。
【0007】
本発明は、上記実情に鑑みなされたもので、複数の識別項目による帳票定義に従って帳票の種類を識別する帳票識別処理に於いて、その処理速度を著しく向上できる帳票識別装置および帳票識別方法を提供することを目的とする。
【0008】
更に、本発明は、処理対象となる複数種の帳票それぞれについて、帳票のサイズ、とじ穴領域、コーナーカット領域、プレ印刷領域などの特徴を集めた辞書(帳票定義)を作成し、この辞書と入力帳票とのマッチングを行うことで、帳票識別のための文字列を固定位置に配置していない帳票についても帳票の種類を識別可能とした帳票識別処理に於いて、空白領域チェックを付加することによって帳票識別の処理速度を著しく向上できる帳票識別装置および帳票識別方法を提供することを目的とする。
【0009】
【課題を解決するための手段】
本発明は、複数の識別項目による帳票定義に従って帳票を識別する帳票識別処理に於いて、識別対象となる帳票それぞれの白紙領域を帳票定義に加え、帳票上の白紙領域をチェックする機能を付加することによって、文字認識処理が必要な処理負担を減らし、帳票識別処理の高速化を図ったことを特徴とする。
【0010】
即ち、本発明は、帳票の種類毎に、文字認識が必要なプレ印字領域と、文字および記号が記録されていない空白領域とをそれぞれ定義した帳票定義と、前記帳票定義を用いて帳票の種類を識別する帳票識別手段とを具備し、前記帳票識別手段は、前記プレ印字領域の定義に従う識別処理以前に、前記空白領域の定義に従う識別処理を行う帳票識別装置を特徴とする。
【0011】
また、本発明は、複数の識別項目による帳票定義に従って帳票を識別する帳票識別方法に於いて、識別対象となる複数種の帳票それぞれの白紙領域を定義した識別項目を含んだ帳票定義に従って帳票を識別することを特徴とする。
【0012】
また、本発明は、文字認識が必要な識別項目を含む複数の識別項目に従って帳票を識別する帳票識別方法に於いて、識別対象となる複数種の帳票それぞれの白紙領域を定義し、前記文字認識が必要な識別項目のチェック以前に、前記白紙領域を定義した識別項目のチェックを行うことを特徴とする。
【0013】
【発明の実施の形態】
以下、図面を参照して本発明の実施形態を説明する。
【0014】
図1は、本発明の実施形態に於ける帳票識別装置を備えたOCR装置の構成を示すブロック図である。
【0015】
図1に於いて、帳票定義装置10はスキャナを備え、帳票(p)の種類毎に帳票定義20を作成する。OCR装置30は上記帳票定義装置10で作成した帳票定義20に基づき帳票(p)の種類を識別して認識し、認識結果40を出力する。この図1に示すハードウェア構成は、従来のOCRシステムと基本的に同一である。本発明に於いては、上記帳票定義20に、識別対象となる帳票それぞれの白紙領域を加え、帳票(p)上の白紙領域をチェックする機能(白紙領域の識別項目)を付加している。なお、図1において、帳票定義装置10とOCR装置30は一体形成しても良い。
【0016】
図2および図3は、それぞれ本発明の実施形態に於ける帳票定義20の構成を説明するための図であり、このうち、図2は、帳票定義装置10の画面構成例を示す図、図3は、帳票定義のフィールド設定内容の一例を示す図である。
【0017】
図2に示す帳票定義装置10の画面構成に於いて、11はスキャナで読み取った帳票(p)の帳票イメージ全体を示し、11a〜11cはそれぞれ帳票(p)上のチェック対象となる、識別項目領域である。このうち、11aはコーナーカット領域、11bはプレ印字領域である。11cはこの発明の実施形態に於いて新たに追加される白紙(空白)領域である。
【0018】
帳票定義装置10に於ける処理では、まず各種類の帳票を1帳票ずつ用意し、スキャナで画像を読み取る操作を行う。次に、上記読み取った各帳票について、それぞれ、図3に示すような定義内容による、複数の識別項目をもつ帳票定義20を作成する。ここでは、帳票識別項目に、識別対象となる複数種の帳票(p)それぞれについて、帳票(用紙)サイズ、コーナーカット領域(11a)、とじ穴領域(図示せず)、プレ印字領域(11b)の各識別項目が定義され、更に、これらの各識別項目に加え、白紙(空白)領域(11c)の識別項目が定義される。尚、ここで扱う帳票(p)上の白紙(空白)領域(11c)は、帳票(p)上に於いて、文字、記号等が何ら記録されていない単色部分(通常は白紙部分)の領域を指す。
【0019】
OCR装置30に於ける処理では、上記帳票定義装置10によって定義された、図3に示す帳票定義20に基づき、帳票(p)を識別して、文字認識する。その処理の流れを図4に示し、図4に於ける帳票識別処理(ステップS2)の処理手順の詳細を図5に示す。この帳票識別処理では、文字認識が必要な、プレ印字領域(11b)の識別項目チェック以前に、上記白紙領域(11c)の識別項目チェックを行っている。
【0020】
ここで上記各図を参照して、本発明の実施形態に於ける帳票識別処理動作について説明する。
【0021】
OCR装置30では、取り扱う帳票(p)の画像をスキャナで読み取り(図4ステップS1)、図3に示すような、白紙領域(11c)の識別項目を含む複数の識別項目をもつ帳票定義に従って帳票(p)を識別し(図4ステップS2)、文字認識を行って(図4ステップS3)、ソータに出力する(図4ステップS4)という一連の作業を行う。この際、複数の出力ポケットのあるソータを接続している場合は、帳票(p)を種類毎に分別することも可能である。識別がエラーになった場合は、該当帳票をリジェクトポケットに出力するなどの処理を行う。
【0022】
この一連の処理過程(図4ステップS1〜S4)のうち、帳票識別処理(図4ステップS2)について以下に詳述する。
【0023】
この帳票識別処理では、読み取った帳票の画像を、上記作成した各帳票の種類毎の1つ1つについて帳票定義20と順次比較し、一致するか否かをすべての項目についてチェックする(図5ステップS21〜ステップS29)。
【0024】
この実施形態では、先ず、「用紙サイズ」が帳票定義20に登録されている帳票サイズと一致するか否かをチェックする(図5ステップS22)。ここで、用紙サイズが一致しなければ次の帳票定義による処理に移行する。
【0025】
一方、一致すれば(指定通りであれば)、次に「コーナーカット」が帳票定義20に登録されているコーナーカット領域の指定通りであるか否かをチェックする(図5ステップS23)。ここで、コーナーカットが指定通りでなければ次の帳票定義による処理に移行する。
【0026】
一方、コーナーカットが指定通りであれば、次に「とじ穴」が帳票定義20に登録されているとじ穴領域の指定通りであるか否かをチェックする(図5ステップS24)。ここで、とじ穴が指定通りでなければ次の帳票定義による処理に移行する。
【0027】
一方、とじ穴が指定通りであれば、次に、「プレ印字」のチェックを行う以前に、本発明の実施形態に於いて付加された、「白紙領域」が指定通りであるか否かをチェックする(図5ステップS25)。ここで、白紙領域が帳票定義20に登録されている白紙領域の指定通りでなければ次の帳票定義による処理に移行する。
【0028】
一方、白紙領域が指定通りであれば、次に、「プレ印字」が帳票定義20に登録されているプレ印字領域の指定通りであるか否かをチェックする(図5ステップS26)。ここで、プレ印字が指定通りでなければ次の帳票定義による処理に移行する。そして、プレ印字が指定通りであるとき、該当帳票に一致すると判定する(図5ステップS27)。
【0029】
この一連の帳票定義に従うチェックを識別対象となるすべての帳票種類(帳票フォーマット)について、帳票定義20の内容(パラメータ)を切換ながら繰り返し実行し(図5ステップS21〜ステップS28)、チェックしたすべての帳票定義について、チェック対象にある帳票が只1種類の帳票定義に従う場合にのみ(即ち一致する帳票定義がただ1種類に限られた場合にのみ)その帳票を識別結果とする(図5ステップS29)。一方、一致する帳票定義が複数または0(該当無し)の場合、その識別はエラー(異常終了)となる。
【0030】
このように、複数の識別項目による帳票定義に従って帳票を識別する帳票識別処理に於いて、識別対象となる帳票それぞれの白紙領域を帳票定義20に加え、帳票(p)上の白紙領域(11c)をチェックする機能を、文字認識を伴う「プレ印字」のチェック前に行うことによって、処理に多くの時間を要する文字認識を伴うプレ印字のチェックに移行する度合い低減して効率のよい帳票識別処理が実行できる。即ち、上記した白紙領域(11c)のチェックは、文字認識によるチェックよりも著しく高速である。従って、この白紙領域(11c)のチェックを行うことで、文字認識を行う必要がある帳票定義の数を格段に減らすことができ、識別性能を損なうことなく全体的な処理速度を大幅に向上することができる。
【0031】
次に、図6を参照して、本発明の他の実施形態について説明する。
【0032】
この図6に示す実施形態では、上記した実施形態に於ける白紙領域(11c)のチェックに於いて、該当白紙領域(11c)に含まれるピクセルが全て白であることを厳密に確認する必要はなく、文字認識を行う帳票定義を削減することができれば良いという観点から、図6(a)に示すように、適当に間引いたピクセル(斜線部分)のみをチェックすることで、より高速に帳票識別処理を実行できる。また、キャッシュ性能が大きく、連続したメモリへのアクセス速度が大きいシステムでは、図6(b)に示すように、一定区間連続したピクセルをハス状にチェックすることで、更に高速化が期待できる。
【0033】
【発明の効果】
以上詳記したように、本発明によれば、複数の識別項目による帳票定義に従って帳票を識別する帳票識別処理に於いて、その処理速度を著しく向上できる。例えば、処理対象となる複数種の帳票それぞれについて、帳票のサイズ、とじ穴領域、コーナーカット領域、文字存在領域、プレ印刷領域などの特徴を集めた辞書(帳票定義)を作成し、この辞書と入力帳票とのマッチングを行うことで、帳票識別のための文字列を固定位置に配置していない帳票についても帳票の種類を識別可能とした帳票識別処理に於いて、その処理速度を著しく向上できる。
【図面の簡単な説明】
【図1】本発明の実施形態に於ける帳票識別装置を備えたOCR装置の構成を示すブロック図。
【図2】上記実施形態に於ける帳票定義20の構成を説明するための帳票定義装置の画面構成例を示す図。
【図3】上記実施形態に於ける帳票定義20の構成を説明するための帳票定義のフィールド設定内容の一例を示す図。
【図4】上記実施形態に於けるOCR装置の処理の流れの概要を示すフローチャート。
【図5】上記図4に於ける帳票識別処理の処理手順を示すフローチャート。
【図6】本発明の他の実施形態を説明するための白紙領域の識別処理例を示す図。
【符号の説明】
10…帳票定義装置
11a…コーナーカット領域
11b…プレ印字領域
11c…白紙領域
20…帳票定義
30…OCR装置
40…認識結果
p…帳票
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a form identification apparatus suitable for application to a character recognition apparatus that handles a plurality of types of forms, and particularly to a case where a plurality of types of forms in which character strings to be identified are not arranged at fixed positions are identified according to a form definition. It is related with a suitable form identification device.
[0002]
Furthermore, the present invention relates to a form identification method for identifying a form in accordance with a form definition with a plurality of identification items.
[0003]
[Prior art]
When it is desired to recognize a plurality of types of forms with the OCR apparatus, a form identification operation for classifying the forms in advance is involved. If this form identification operation is performed manually, a lot of time and labor are required. Therefore, conventionally, a method has been known in which a character that serves as a clue to distinguish the form type is printed at a predetermined position of the form and the form type is identified by recognizing this character. However, this method has a problem in that a character string for identifying each form must be arranged at a fixed position in advance at the time of form design.
[0004]
Therefore, in order to solve such problems, a dictionary (form definition) that collects features such as form size, binding hole area, corner cut area, and pre-print area for each of multiple types of forms to be processed. A technology has been proposed that makes it possible to identify the types of forms even for forms that do not have character strings for form identification placed at fixed positions by creating and matching this dictionary with input forms. 2000-298280).
[0005]
However, in the above-described prior art, as the number of forms to be identified increases, the speed of form identification processing decreases. In particular, because the character recognition process is involved in the check for the pre-printed area character identification items, the number of types of forms to be identified increases, and the identification processing speed decreases significantly. It came to be requested.
[0006]
[Problems to be solved by the invention]
As described above, conventionally, in a method for identifying a form type by recognizing this character by printing a character as a clue to distinguish the form type at a predetermined position of the form in advance, At the time of form design, there is a problem that the character string for identification must be placed in a fixed position in advance, and for each of the multiple types of forms to be processed proposed to solve this problem, In the technology for identifying forms using a dictionary that collects features such as form size, binding hole area, corner cut area, pre-print area, etc., the number of forms to be identified increases. Due to the significant decrease, higher-speed form identification has been demanded.
[0007]
The present invention has been made in view of the above circumstances, and provides a form identification device and a form identification method capable of remarkably improving the processing speed in the form identification process for identifying the type of form in accordance with the form definition based on a plurality of identification items. The purpose is to do.
[0008]
Furthermore, the present invention creates a dictionary (form definition) that collects features such as form size, binding hole area, corner cut area, and pre-print area for each of a plurality of types of forms to be processed. A blank area check is added in the form identification process that makes it possible to identify the type of form even for forms that do not have a character string for form identification placed at a fixed position by matching with the input form. An object of the present invention is to provide a form identification apparatus and a form identification method that can significantly improve the processing speed of form identification.
[0009]
[Means for Solving the Problems]
The present invention adds a function for checking a blank area on a form by adding a blank area of each form to be identified to a form definition in a form identification process for identifying a form according to a form definition by a plurality of identification items. Thus, the processing load that requires character recognition processing is reduced, and the form identification processing is speeded up.
[0010]
That is, the present invention provides, for each form type, a form definition in which a pre-print area that requires character recognition and a blank area in which no characters and symbols are recorded, and a form type using the form definition. The form identifying means is characterized in that the form identifying means performs an identification process according to the definition of the blank area before the identification process according to the definition of the pre-print area .
[0011]
Further, the present invention provides a form identification method for identifying a form according to a form definition based on a plurality of identification items, wherein the form is identified according to a form definition including an identification item that defines a blank area of each of the plurality of types of forms to be identified. It is characterized by identifying.
[0012]
Further, the present invention provides a form identification method for identifying a form according to a plurality of identification items including an identification item that requires character recognition, and defines a blank area for each of a plurality of types of forms to be identified, and the character recognition Before the identification item that needs to be checked, the identification item defining the blank area is checked.
[0013]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[0014]
FIG. 1 is a block diagram showing a configuration of an OCR apparatus provided with a form identification apparatus according to an embodiment of the present invention.
[0015]
In FIG. 1, a form definition device 10 includes a scanner, and creates a form definition 20 for each type of form (p). The OCR device 30 identifies and recognizes the type of the form (p) based on the form definition 20 created by the form definition device 10 and outputs a recognition result 40. The hardware configuration shown in FIG. 1 is basically the same as that of a conventional OCR system. In the present invention, a function for checking the blank area on the form (p) (blank area identification item) is added to the form definition 20 by adding the blank area of each form to be identified. In FIG. 1, the form definition device 10 and the OCR device 30 may be integrally formed.
[0016]
2 and 3 are diagrams for explaining the configuration of the form definition 20 in the embodiment of the present invention. Among these, FIG. 2 is a diagram showing a screen configuration example of the form definition device 10. FIG. 3 is a diagram illustrating an example of field setting contents of the form definition.
[0017]
In the screen configuration of the form definition device 10 shown in FIG. 2, reference numeral 11 denotes the entire form image of the form (p) read by the scanner, and 11a to 11c are identification items to be checked on the form (p). It is an area. Among these, 11a is a corner cut area and 11b is a pre-print area. 11c is a blank (blank) area newly added in the embodiment of the present invention.
[0018]
In the processing in the form definition device 10, first, each type of form is prepared, and an operation of reading an image with a scanner is performed. Next, for each of the read forms, a form definition 20 having a plurality of identification items according to the definition contents as shown in FIG. 3 is created. Here, for each of a plurality of types of forms (p) to be identified, the form identification items include a form (paper) size, a corner cut area (11a), a binding hole area (not shown), and a pre-print area (11b). In addition to these identification items, identification items for the blank (blank) area (11c) are defined. Note that the blank (blank) area (11c) on the form (p) handled here is an area of a single color part (usually a blank part) where no characters, symbols, etc. are recorded on the form (p). Point to.
[0019]
In the processing in the OCR device 30, the form (p) is identified and characters are recognized based on the form definition 20 shown in FIG. FIG. 4 shows the flow of the processing, and FIG. 5 shows the details of the processing procedure of the form identification processing (step S2) in FIG. In this form identification process, the identification item check of the blank area (11c) is performed before the identification item check of the pre-print area (11b) that requires character recognition.
[0020]
Here, the form identification processing operation in the embodiment of the present invention will be described with reference to the respective drawings.
[0021]
In the OCR device 30, the image of the form (p) to be handled is read by a scanner (step S1 in FIG. 4), and the form is defined according to the form definition having a plurality of identification items including identification items of the blank area (11c) as shown in FIG. (P) is identified (step S2 in FIG. 4), character recognition is performed (step S3 in FIG. 4), and output to the sorter (step S4 in FIG. 4) is performed. At this time, if a sorter having a plurality of output pockets is connected, the form (p) can be sorted by type. If the identification results in an error, processing such as outputting the corresponding form to the reject pocket is performed.
[0022]
Of the series of processing steps (steps S1 to S4 in FIG. 4), the form identification process (step S2 in FIG. 4) will be described in detail below.
[0023]
In this form identification process, the read form image is sequentially compared with the form definition 20 for each of the created form types, and all items are checked to see if they match (FIG. 5). Step S21 to Step S29).
[0024]
In this embodiment, first, it is checked whether or not “paper size” matches the form size registered in the form definition 20 (step S22 in FIG. 5). If the paper sizes do not match, the process proceeds to the next form definition process.
[0025]
On the other hand, if they match (as specified), then it is checked whether or not “corner cut” is as specified in the corner cut area registered in the form definition 20 (step S23 in FIG. 5). If the corner cut is not as specified, the process shifts to the next form definition process.
[0026]
On the other hand, if the corner cut is as specified, then it is checked whether or not “binding hole” is as specified in the binding hole area registered in the form definition 20 (step S24 in FIG. 5). Here, if the binding hole is not as specified, the process proceeds to the next form definition process.
[0027]
On the other hand, if the binding hole is as specified, then whether or not the “blank area” added in the embodiment of the present invention is as specified before performing the “pre-print” check. This is checked (step S25 in FIG. 5). Here, if the blank area does not conform to the designation of the blank area registered in the form definition 20, the process proceeds to the next form definition.
[0028]
On the other hand, if the blank area is as specified, it is next checked whether “pre-print” is as specified in the pre-print area registered in the form definition 20 (step S26 in FIG. 5). If pre-printing is not as specified, the process proceeds to the next form definition. Then, when the pre-printing is as specified, it is determined that it matches the corresponding form (step S27 in FIG. 5).
[0029]
The check according to the series of form definitions is repeatedly executed for all form types (form formats) to be identified while switching the contents (parameters) of the form definition 20 (steps S21 to S28 in FIG. 5). As for the form definition, only when the form to be checked complies with one type of form definition (that is, only when there is only one type of matching form definition), that form is set as the identification result (step S29 in FIG. 5). ). On the other hand, when there are a plurality of matching form definitions or 0 (not applicable), the identification is an error (abnormal end).
[0030]
In this way, in the form identification process for identifying a form according to a form definition with a plurality of identification items, the blank area of each form to be identified is added to the form definition 20 and the blank area (11c) on the form (p). By performing the pre-printing check function with character recognition before checking pre-printing, it is possible to reduce the degree of shift to pre-printing check with character recognition, which requires a lot of processing time, and efficient form identification processing Can be executed. That is, the check of the blank area (11c) described above is significantly faster than the check by character recognition. Therefore, by checking the blank area (11c), the number of form definitions that need to be recognized can be remarkably reduced, and the overall processing speed is greatly improved without impairing the identification performance. be able to.
[0031]
Next, another embodiment of the present invention will be described with reference to FIG.
[0032]
In the embodiment shown in FIG. 6, in checking the blank area (11c) in the above-described embodiment, it is necessary to strictly confirm that all the pixels included in the blank area (11c) are white. From the viewpoint that it is only necessary to reduce the form definition to perform character recognition, as shown in FIG. 6A, the form identification is performed at a higher speed by checking only the pixels (shaded portions) appropriately thinned out. Processing can be executed. Further, in a system having a high cache performance and a high access speed to a continuous memory, as shown in FIG. 6B, a higher speed can be expected by checking pixels that are continuous for a certain interval in a lotus shape.
[0033]
【The invention's effect】
As described above in detail, according to the present invention, the processing speed can be remarkably improved in the form identification process for identifying a form in accordance with a form definition by a plurality of identification items. For example, for each of multiple types of forms to be processed, create a dictionary (form definition) that collects features such as form size, binding hole area, corner cut area, character presence area, pre-print area, and this dictionary. By matching with the input form, it is possible to remarkably improve the processing speed in the form identification process that makes it possible to identify the form type even for forms that do not have a character string for identifying the form in a fixed position. .
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating a configuration of an OCR apparatus including a form identification apparatus according to an embodiment of the present invention.
FIG. 2 is a diagram showing a screen configuration example of a form definition device for explaining a configuration of a form definition 20 in the embodiment.
FIG. 3 is a diagram showing an example of field definition contents of a form definition for explaining the configuration of the form definition 20 in the embodiment.
FIG. 4 is a flowchart showing an outline of a processing flow of the OCR device in the embodiment.
FIG. 5 is a flowchart showing a processing procedure for form identification processing in FIG. 4;
FIG. 6 is a diagram showing an example of blank area identification processing for explaining another embodiment of the present invention.
[Explanation of symbols]
10 ... Form definition device 11a ... Corner cut region 11b ... Pre-print region 11c ... Blank region 20 ... Form definition 30 ... OCR device 40 ... Recognition result p ... Form

Claims (6)

帳票の種類毎に定義された識別項目に基づいて複数種類の帳票の中から特定の帳票を識別する帳票識別装置において、
識別対象の帳票の画像を入力する画像入力手段と、
少なくとも帳票を識別するための識別項目として帳票上に文字、記号等が何ら記録されていない単色部分の空白領域を定義した帳票定義を帳票の種類毎に記憶する帳票定義記憶手段と、
前記画像入力手段により入力された帳票の画像と前記帳票定義記憶手段に記憶された帳票定義とに基づいて、前記入力された画像において前記定義された空白領域の有無をピクセルを間引いてチェックし前記入力された画像に前記定義された空白領域が存在するか否かを判別することにより前記画像が入力された帳票の種類を識別する帳票識別手段とを具備することを特徴とする帳票識別装置。
In the form identification device that identifies a specific form from among multiple types of forms based on the identification items defined for each form type,
An image input means for inputting an image of a form to be identified;
A form definition storage means for storing, for each type of form, a form definition that defines a blank area of a single-color part in which no characters, symbols, etc. are recorded on the form as identification items for identifying at least the form;
Based on the form image input by the image input means and the form definition stored in the form definition storage means, the presence or absence of the defined blank area in the input image is checked by thinning out pixels. A form identification device comprising: form identification means for identifying a type of a form in which the image is input by determining whether or not the defined blank area exists in the input image.
帳票の種類毎に定義された識別項目に基づいて複数種類の帳票の中から特定の帳票を識別する帳票識別装置において、
識別対象の帳票の画像を入力する画像入力手段と、
少なくとも帳票を識別するための識別項目として帳票上に文字、記号等が何ら記録されていない単色部分の空白領域とプレ印字領域とが定義された帳票定義を記憶する帳票定義記憶手段と、
前記画像入力手段により入力された帳票の画像と前記帳票定義記憶手段に記憶された帳票定義とに基づいて、前記入力された画像において前記定義されたプレ印字領域で文字を認識することにより帳票の種類を識別をする以前に、前記入力された画像において前記定義された空白領域が存在するか否かを判別することにより前記画像が入力された帳票の種類を識別する帳票識別手段とを具備することを特徴とする帳票識別装置。
In the form identification device that identifies a specific form from among multiple types of forms based on the identification items defined for each form type,
An image input means for inputting an image of a form to be identified;
A form definition storage means for storing a form definition in which a blank area and a pre-printing area in which a single-color part is not recorded on the form as an identification item for identifying at least a form;
Based on the image of the form input by the image input means and the form definition stored in the form definition storage means, the character of the form is recognized by recognizing the character in the defined pre-print area in the input image. Before identifying the type, it comprises form identifying means for identifying the type of the form in which the image is input by determining whether or not the defined blank area exists in the input image. A form identification device characterized by that.
前記帳票識別手段は、前記定義された空白領域の有無をピクセルを間引いて識別することを特徴とする請求項2記載の帳票識別装置。  The form identifying device according to claim 2, wherein the form identifying means identifies the presence or absence of the defined blank area by thinning out pixels. 帳票の種類毎に定義された識別項目に基づいて複数種類の帳票の中から特定の帳票を識別する帳票識別方法において、
識別対象の帳票の画像を入力する画像入力ステップと、
少なくとも帳票を識別するための識別項目として帳票上に文字、記号等が何ら記録されていない単色部分の空白領域を定義した帳票定義を帳票の種類毎に記憶する帳票定義記憶ステップと、
前記画像入力ステップにより入力された帳票の画像と前記記憶された帳票定義とに基づいて、前記入力された画像において前記定義された空白領域の有無をピクセルを間引いてチェックし前記入力された画像に前記帳票定義された空白領域が存在するか否かを判別することにより前記画像が入力された帳票の種類を識別する帳票識別ステップとを具備することを特徴とする帳票識別方法。
In the form identification method for identifying a specific form from among multiple types of forms based on the identification items defined for each form type,
An image input step for inputting an image of the form to be identified;
A form definition storage step for storing, for each type of form, a form definition that defines a blank area of a single-color part in which no characters, symbols, etc. are recorded on the form as identification items for identifying at least the form;
Based on the image of the form input by the image input step and the stored form definition, the input image is checked by thinning out pixels for the defined blank area. A form identification method comprising: a form identification step for identifying a type of a form in which the image is input by determining whether or not the form-defined blank area exists.
帳票の種類毎に定義された識別項目に基づいて複数種類の帳票の中から特定の帳票を識別する帳票識別方法において、
識別対象の帳票の画像を入力する画像入力ステップと、
少なくとも帳票を識別するための識別項目として、帳票上に文字、記号が等が何ら記録されていない単色部分の空白領域とプレ印字領域とが定義された帳票定義を記憶する帳票定義記憶ステップと、
前記入力された帳票の画像と前記記憶された帳票定義とに基づいて、前記入力された画像において前記定義されたプレ印字領域で文字を認識することにより帳票の種類を識別をする以前に、前記入力された画像において前記定義された空白領域が存在するか否かを判別することにより前記画像が入力された帳票の種類を識別する帳票識別ステップとを具備することを特徴とする帳票識別方法
In the form identification method for identifying a specific form from among multiple types of forms based on the identification items defined for each form type,
An image input step for inputting an image of the form to be identified;
A form definition storage step for storing a form definition in which a blank area and a pre-print area in which a single color portion where no characters, symbols, etc. are recorded is defined as at least an identification item for identifying a form,
Based on the image of the input form and the stored form definition, before identifying the type of the form by recognizing characters in the defined pre-print area in the input image, the A form identification method comprising: a form identification step for identifying a type of a form in which the image is input by determining whether or not the defined blank area exists in the input image.
前記帳票識別ステップは、前記定義された空白領域の有無をピクセルを間引いて識別する識別ステップを具備することを特徴とする請求項5記載の帳票識別方法。6. The form identification method according to claim 5 , wherein the form identification step includes an identification step of identifying the presence or absence of the defined blank area by thinning out pixels.
JP2001364813A 2001-11-29 2001-11-29 Form identification device and form identification method Expired - Lifetime JP3762289B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2001364813A JP3762289B2 (en) 2001-11-29 2001-11-29 Form identification device and form identification method
US10/305,193 US7099508B2 (en) 2001-11-29 2002-11-27 Document identification device, document definition method and document identification method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001364813A JP3762289B2 (en) 2001-11-29 2001-11-29 Form identification device and form identification method

Publications (2)

Publication Number Publication Date
JP2003168073A JP2003168073A (en) 2003-06-13
JP3762289B2 true JP3762289B2 (en) 2006-04-05

Family

ID=19174942

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001364813A Expired - Lifetime JP3762289B2 (en) 2001-11-29 2001-11-29 Form identification device and form identification method

Country Status (1)

Country Link
JP (1) JP3762289B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4853313B2 (en) * 2007-01-31 2012-01-11 沖電気工業株式会社 Character recognition device
JP7439435B2 (en) * 2019-09-30 2024-02-28 富士フイルムビジネスイノベーション株式会社 Information processing device and program

Also Published As

Publication number Publication date
JP2003168073A (en) 2003-06-13

Similar Documents

Publication Publication Date Title
US10095947B2 (en) Methods for mobile image capture of vehicle identification numbers in a non-document
US7099508B2 (en) Document identification device, document definition method and document identification method
US4979227A (en) Method for automatic character recognition employing a lexicon having updated character strings
US8508756B2 (en) Image forming apparatus having capability for recognition and extraction of annotations and additionally written portions
Antonacopoulos et al. Document image analysis for World War II personal records
JP3851742B2 (en) Form processing method and apparatus
JP3762289B2 (en) Form identification device and form identification method
JP2002342343A (en) Document managing system
JP3696152B2 (en) Form identification device and form identification method
CN112100978B (en) Typesetting processing method based on electronic book, electronic equipment and storage medium
JP2003030654A (en) Pattern identification device, pattern identification method and program for pattern identification
JP2004005268A (en) Business form identifying device, business form defining method and business form identifying method
JP2005208934A (en) Document distribution processing device and program
JP2746345B2 (en) Post-processing method for character recognition
JPH10269311A (en) Slip processing unit designating method
JP3121401B2 (en) Recognition dictionary and character recognition device
JP2004287981A (en) Business form identification device, business form definition method and business form identification method
JPH0850631A (en) Character recognition device
JPH0950488A (en) Method for reading different size characters coexisting character string
JPH09179935A (en) Character recognition device and control method therefor
JP2002279344A (en) Character recognition device and method, and recording medium
JP3116453B2 (en) English character recognition device
JP2001126030A (en) Pattern recognition method and pattern recognition device
JPH09128484A (en) Character recognizing method
JPS62177686A (en) Optical character reader

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040818

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041019

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041220

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050404

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20050621

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050930

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060112

R151 Written notification of patent or utility model registration

Ref document number: 3762289

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100120

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100120

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110120

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120120

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130120

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140120

Year of fee payment: 8

EXPY Cancellation because of completion of term