JPH10154191A - Business form identification method and device, and medium recording business form identification program - Google Patents

Business form identification method and device, and medium recording business form identification program

Info

Publication number
JPH10154191A
JPH10154191A JP8314665A JP31466596A JPH10154191A JP H10154191 A JPH10154191 A JP H10154191A JP 8314665 A JP8314665 A JP 8314665A JP 31466596 A JP31466596 A JP 31466596A JP H10154191 A JPH10154191 A JP H10154191A
Authority
JP
Japan
Prior art keywords
image
business form
feature amount
calculated
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8314665A
Other languages
Japanese (ja)
Other versions
JP3090070B2 (en
Inventor
Takeshi Kamimura
健 上村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP08314665A priority Critical patent/JP3090070B2/en
Publication of JPH10154191A publication Critical patent/JPH10154191A/en
Application granted granted Critical
Publication of JP3090070B2 publication Critical patent/JP3090070B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To identify the type of a business form at a high speed and with high accuracy from the business form image including no business form-only mark, etc., by deciding the type of the business form based on the error value between the feature value of a part excluding the handwriting area calculated from the handwriting area information registered previously on every business form and the model feature value. SOLUTION: A storage part 2 stores the handwriting area information 2a which shows the handwriting areas of plural types of business forms in the coordinates, etc., and the model feature value 2b with which the feature value are previously registered for plural types of business forms in regard to the direction feature and the edge feature of the part excluding the handwriting areas from a business form image. Then an image input part 1 fetches the business form, and a business form identification part 3 eliminates the background image from the fetched image to obtain only the business form image and calculates the feature value of the part excluding the handwriting areas from the business form image based on the information 2a. Then the error value is calculated between the calculated feature value and the value 2b, and the type of the business form shown in the business form image is decided based on the calculated error value.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、帳票識別方法及び
装置並びに帳票識別プログラムを記録した媒体に係り、
特に、専用の識別コードやマークが印刷されていない帳
票の種類を識別する帳票識別方法及び装置並びに帳票識
別プログラムを記録した媒体に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a form identification method and apparatus, and a medium recording a form identification program.
In particular, the present invention relates to a form identification method and apparatus for identifying the type of a form on which a dedicated identification code or mark is not printed, and a medium recording a form identification program.

【0002】[0002]

【従来の技術】大量の帳票や伝票を取り扱う事務処理の
効率化を図るため、これらを高速に読み取って電子化す
るOCR装置が用いられている。
2. Description of the Related Art In order to increase the efficiency of business processing for handling a large number of forms and slips, an OCR device which reads these at high speed and digitizes them is used.

【0003】OCR装置においては、まず、読み取る文
字図形の記載位置や文字の種類(手書き文字か印刷文字
か,数字のみか漢字も含むか等)といったフォーマット
情報をあらかじめ登録し、読み取り処理の際にこれらの
情報を利用することが、読み取り精度向上に不可欠であ
る。
In an OCR apparatus, first, format information such as a description position of a character figure to be read and a type of a character (whether it is a handwritten character or a printed character, or only a number or a kanji character, etc.) is registered in advance. Use of such information is indispensable for improving reading accuracy.

【0004】同じ種類の帳票を連続して読み取る場合、
通常はフォーマット情報は最初に一度だけ設定すればよ
い。一方、異なる種類の帳票を連続して読み取る場合
は、各帳票毎にフォーマット情報が異なるため、毎回帳
票の種類を識別し、その結果に対応するフォーマット情
報を設定する処理が必要となる。
When continuously reading the same type of form,
Normally, format information only needs to be set once at first. On the other hand, when continuously reading different types of forms, since the format information differs for each form, it is necessary to identify the type of form each time and set the format information corresponding to the result.

【0005】例えば銀行や郵便局の窓口のように、非常
に多種の帳票を逐次読み取る場合に、このような処理が
必要である。
[0005] Such processing is necessary when reading a very wide variety of forms one after another, such as at a bank or post office.

【0006】そこで一般には、帳票の定められた位置に
専用の識別コードやマークを予め印刷しておき、これを
認識した結果によって設定すべきフォーマット情報を決
定する手法が用いられている。
Therefore, generally, a method is used in which a dedicated identification code or mark is printed in advance at a predetermined position on a form, and format information to be set is determined based on the result of recognition of the code.

【0007】この一例として、[ファクシミリOCR装
置による帳票識別方法」と題した特開平04−2704
81号公報がある。これによると、帳票の左側と右側に
専用のマークをあらかじめ記入しておき、帳票画像から
検出された両マークの間隔から識別を行っている。
[0007] As an example of this, Japanese Patent Application Laid-Open No. 04-2704 entitled "Form identification method using facsimile OCR device".
No. 81 publication. According to this, a special mark is previously written on the left and right sides of a form, and identification is performed based on the interval between the two marks detected from the form image.

【0008】しかしながら、全ての帳票に対し専用の識
別コードやマークを印刷できるとは限らないため、帳票
画像そのものから識別する技術も必要である。「帳票識
別装置」と題した特開平07−249099号公報はそ
の一例である。同公報記載の装置では、帳票の罫線構造
に着目し、帳票画像から文字と罫線の分離を行った後、
罫線と背景のみを含む画像において垂直軸への画素投影
分布を求め識別を行っている。
However, since it is not always possible to print a dedicated identification code or mark on all forms, a technique for identifying the form from the form image itself is also required. Japanese Patent Application Laid-Open No. 07-249099 entitled "Form Identification Device" is one example. In the device described in the above publication, focusing on the ruled line structure of a form, after separating characters and ruled lines from a form image,
In an image including only a ruled line and a background, a pixel projection distribution on a vertical axis is obtained and identification is performed.

【0009】ここで、以下の説明では、専用の識別コー
ドやマークが印刷された帳票を「ID帳票」、これらが
印刷されない帳票を「非ID帳票」、と略記する。
In the following description, a form on which a dedicated identification code or mark is printed is abbreviated as an “ID form”, and a form on which these are not printed is abbreviated as a “non-ID form”.

【0010】非ID帳票を画像によって識別する場合、
画像から帳票に固有な情報のみを取り出し、それを識別
に用いる必要がある。ここで、帳票に固有な情報には、
例えば予め印刷された帳票タイトル、罫線、背景模様
や、背景色等が該当する(以下、これらをプレプリント
と称する)。一方、これら以外の情報には、ユーザによ
り記入される氏名、金額やマークシート等の他、印影も
含まれる。
When a non-ID form is identified by an image,
It is necessary to extract only information unique to the form from the image and use it for identification. Here, information unique to the form includes:
For example, a form title, a ruled line, a background pattern, a background color, and the like that have been printed in advance correspond to these (hereinafter, these are referred to as preprints). On the other hand, the information other than these includes the name and the amount entered by the user, the amount, the mark sheet, and the like, as well as the seal imprint.

【0011】[0011]

【発明が解決しようとする課題】上述した特開平07−
249099号公報では、プレプリントの一種である罫
線を用いた識別を行っているが、画像のみの情報から罫
線を抽出する処理に大量な演算を必要とするため、高速
な処理に向かない不都合があった。また、画質が悪く罫
線の途切れを多く含む場合や罫線が記入文字と接触して
いる場合は、罫線抽出に誤りを生じ、帳票の識別を誤る
ことがあった。
SUMMARY OF THE INVENTION The above-mentioned Japanese Patent Application Laid-Open No. 07-
In Japanese Patent No. 249099, identification using ruled lines, which is a kind of preprinting, is performed. However, since a process of extracting ruled lines from information of only an image requires a large amount of computation, it is not suitable for high-speed processing. there were. Further, when the image quality is poor and many breaks of the ruled line are included, or when the ruled line is in contact with the entered characters, an error occurs in the ruled line extraction, and the form may be erroneously identified.

【0012】また、一般に罫線以外の情報、例えば文字
に基づいて識別を行う場合は、ユーザによる記入文字と
プレプリント文字との自動識別が必要になるが、一般に
その判断が困難であるところ、これらを帳票識別に利用
するには、人手によって予めプレプリント文字の領域を
選んで登録する必要があり、これに膨大な手間を要する
という不都合が指摘されている。
In general, when identification is performed based on information other than ruled lines, for example, characters, it is necessary for the user to automatically identify the entered characters and the preprinted characters. It is necessary to manually select and register a preprinted character area in advance in order to use this for form identification, which has been pointed out as a disadvantage that it requires enormous labor.

【0013】[0013]

【発明の目的】本発明は、かかる従来例の有する不都合
を改善し、特に、帳票識別用の専用マーク等を含まない
帳票画像から当該帳票の種類を高速かつ精度良く識別す
ることのできる帳票識別方法及び装置並びに帳票識別プ
ログラムを記録した媒体を提供することを、その目的と
する。
An object of the present invention is to improve the disadvantages of the prior art, and more particularly, to a form identification method capable of quickly and accurately identifying the type of a form from a form image not including a dedicated mark for form identification. It is an object of the present invention to provide a method and apparatus, and a medium recording a form identification program.

【0014】[0014]

【課題を解決するための手段】上記目的を達成するた
め、請求項1記載の発明では、帳票画像を取り込む工程
と、予め帳票毎に登録された手書領域情報に基づいて帳
票画像から手書き領域を除いた部分の特徴量を算出する
工程と、帳票画像から手書き領域を除いた部分の特徴量
と予め帳票毎に登録された模範特徴量との誤差量を算出
する工程と、模範特徴量との誤差量に基づいて帳票画像
に示された帳票の種類を判別する工程とを含む、という
構成を採っている。
In order to achieve the above object, according to the first aspect of the present invention, there is provided a step of taking in a form image and a step of extracting a handwritten area from the form image based on handwritten area information registered in advance for each form. Calculating a feature amount of a portion excluding a portion, a step of calculating an error amount between a feature amount of a portion excluding a handwritten area from the form image and a model feature amount registered in advance for each form, And determining the type of the form shown in the form image based on the error amount of the form.

【0015】請求項2記載の発明では、帳票画像を取り
込む画像入力部と、予め帳票毎に登録された手書領域情
報及び模範特徴量を記憶した記憶部と、手書領域情報に
基づいて帳票画像から手書き領域を除いた部分の特徴量
を算出し,この特徴量と模範特徴量との誤差量を算出
し,この模範特徴量との誤差量に基づいて帳票画像に示
された帳票の種類を判別する帳票識別部とを備えた、と
いう構成を採っている。
According to the second aspect of the present invention, an image input unit for taking in a form image, a storage unit for storing handwritten area information and model feature amounts registered in advance for each form, and a form based on the handwritten area information Calculate the feature amount of the part excluding the handwritten region from the image, calculate the error amount between this feature amount and the model feature amount, and calculate the type of the form shown in the form image based on the error amount with the model feature amount. And a form identification unit that determines the

【0016】請求項3記載の発明は、コンピュータによ
って帳票の種類を識別するプログラムを記録した媒体で
あって、識別プログラムは、コンピュータに帳票画像を
取り込ませ、予め帳票毎に登録された手書領域情報に基
づいて帳票画像から手書き領域を除いた部分の特徴量を
算出させ、この特徴量と予め帳票毎に登録された模範特
徴量との誤差量を算出させ、この模範特徴量との誤差量
に基づいて帳票画像に示された帳票の種類を判別させ
る、という構成を採っている。
According to a third aspect of the present invention, there is provided a medium in which a program for identifying a form type by a computer is recorded, wherein the identification program causes a computer to read a form image, and a handwriting area registered in advance for each form. Based on the information, a feature amount of a portion excluding the handwritten area from the form image is calculated, an error amount between this feature amount and a model feature amount registered in advance for each form is calculated, and an error amount with this model feature amount is calculated. The type of the form shown in the form image is determined based on the form.

【0017】ここで、「帳票」には、伝票などこれに類
する書類が含まれる。
Here, the "form" includes a document such as a slip.

【0018】これらの発明では、帳票画像から手書き領
域を除いた部分の特徴量が算出され、この特徴量と予め
登録された模範特徴量とが比較される。模範特徴量は、
数種類の帳票について予め登録しておき、各模範特徴量
と比較を行った中で誤差量が最小となった模範特徴量の
帳票と同一種と判断する。
According to these inventions, the feature amount of a portion excluding the handwritten area from the form image is calculated, and this feature amount is compared with a model feature amount registered in advance. The model feature is
Several types of forms are registered in advance, and are compared with the respective model feature amounts, and are determined to be the same type as the model feature amount form with the smallest error amount.

【0019】これらにより、前述した目的を達成しよう
とするものである。
With these, the above-mentioned object is to be achieved.

【0020】[0020]

【発明の実施の形態】以下、本発明の一実施形態を図1
乃至図3に基づいて説明する。
DESCRIPTION OF THE PREFERRED EMBODIMENTS One embodiment of the present invention will be described below with reference to FIG.
This will be described with reference to FIG.

【0021】図1に示す帳票識別装置は、帳票画像を取
り込む画像入力部1と、予め帳票毎に登録された手書領
域情報2a及び模範特徴量2bを記憶した記憶部2と、
手書領域情報2aに基づいて帳票画像から手書き領域を
除いた部分の特徴量を算出し,この特徴量と模範特徴量
2bとの誤差量を算出し,この模範特徴量2bとの誤差
量に基づいて帳票画像に示された帳票の種類を判別する
帳票識別部3とを備えている。
The form identification device shown in FIG. 1 includes an image input unit 1 for taking in a form image, a storage unit 2 for storing handwritten area information 2a and model feature amount 2b registered in advance for each form.
Based on the handwriting area information 2a, a feature amount of a portion excluding the handwritten area from the form image is calculated, and an error amount between this feature amount and the model feature amount 2b is calculated. And a form identification unit 3 for determining the type of the form shown in the form image based on the form.

【0022】これを更に詳述すると、本実施形態におい
て画像入力部1は、スキャナである。画像入力部1から
の出力画像は、フルカラー画像、白黒濃淡画像や白黒2
値画像等のいずれの画像であっても良い。以下の説明で
は、帳票画像が白黒濃淡画像として得られるものとす
る。ここで、スキャナの出力には帳票画像と背景画像と
が含まれるが、後述する帳票識別部3の機能により背景
画像が除去され帳票画像だけが処理されるようになって
いる。
More specifically, in this embodiment, the image input unit 1 is a scanner. The output image from the image input unit 1 is a full-color image, a black-and-white
Any image such as a value image may be used. In the following description, it is assumed that the form image is obtained as a monochrome gray-scale image. Here, the form image and the background image are included in the output of the scanner, but the background image is removed by the function of the form identification unit 3 described later, and only the form image is processed.

【0023】記憶部2は、例えばハードディスクドライ
ブである。この記憶部2に格納された手書領域情報2a
は、数種類の帳票についてそれぞれ手書き領域を座標等
で表した情報である。例えば、図3(a)の帳票画像に
対し図3(c)の太線で囲まれた部分が手書き領域であ
り、手書領域情報2aは、この手書き領域の画像上での
位置を記述した情報である。この手書領域情報2aは帳
票の種類別に付された帳票番号を指定することにより当
該帳票の種類毎に選択して読み出せるようになってい
る。一方、模範特徴量2bは、帳票画像から手書き領域
を除いた部分の特徴量を予め複数種類の帳票について登
録した情報である。この各模範特徴量2bと実際に取り
込んだ画像から算出した特徴量とを比較することで帳票
の種類を識別する。
The storage unit 2 is, for example, a hard disk drive. Handwriting area information 2a stored in the storage unit 2
Is information in which the handwritten area is represented by coordinates or the like for several types of forms. For example, a portion surrounded by a thick line in FIG. 3C in the form image in FIG. 3A is a handwritten region, and the handwritten region information 2a is information describing the position of the handwritten region on the image. It is. The handwritten area information 2a can be selected and read for each type of form by designating a form number assigned to each type of form. On the other hand, the model feature value 2b is information in which the feature value of a part of the form image excluding the handwritten area is registered in advance for a plurality of types of forms. The type of the form is identified by comparing each model feature value 2b with a feature value calculated from an actually captured image.

【0024】ここで、特徴量としては、ぼかし特徴、方
向特徴、エッジ特徴、若しくは細線化特徴、又はこれら
の特徴の組合せといった、従来の文字認識を始めとする
パターン認識一般において利用されているものを用いる
ことが可能である。例えば、帳票画像100がカラー画
像であれば、色抽出画像を特徴抽出と組み合わせて利用
できる。
Here, the feature amount used in general pattern recognition such as conventional character recognition, such as a blur feature, a direction feature, an edge feature, or a thinning feature, or a combination of these features is used. Can be used. For example, if the form image 100 is a color image, the color extraction image can be used in combination with the feature extraction.

【0025】帳票識別部3は、マイコンを備え、予め準
備された帳票識別プログラムを実行することにより各種
の機能を実現するようになっている。この帳票識別部3
が実行する処理の詳細は、動作説明に併せて後述する。
また、符号4は、帳票識別部3が処理を実行する際に必
要なデータを保存するメモリを示す。
The form identification unit 3 includes a microcomputer, and realizes various functions by executing a prepared form identification program. This form identification unit 3
Will be described later together with the operation description.
Reference numeral 4 denotes a memory for storing data required when the form identification unit 3 executes a process.

【0026】次に、図2に基づいて本実施形態の全体動
作を説明する。
Next, the overall operation of this embodiment will be described with reference to FIG.

【0027】画像入力部1に帳票がセットされ、帳票識
別部3に画像取り込み要求が入力されると、帳票識別部
3は、画像入力部1を駆動して帳票画像及び背景画像を
取得する(ステップS1)。
When a form is set in the image input unit 1 and an image capture request is input to the form identification unit 3, the form identification unit 3 drives the image input unit 1 to acquire a form image and a background image ( Step S1).

【0028】続いて、帳票識別部3は、帳票画像だけを
残し背景画像を除去する(ステップS2)。この背景除
去のアルゴリズムとしては、例えば画像のシェーディン
グ補正を実行した後に固定2値化処理を実行することに
より、帳票部分と背景部分とを分離して抽出する方法を
用いることができる。
Subsequently, the form identification unit 3 removes the background image while leaving only the form image (step S2). As an algorithm of the background removal, for example, a method of separating and extracting a form portion and a background portion by performing a fixed binarization process after performing shading correction of an image can be used.

【0029】次に、帳票識別部3は、帳票画像全体の特
徴量を算出する(ステップS3)。ここでは、ぼかし特
徴による場合を例示する。取得された帳票画像を図3
(a)に示す画像とすると、帳票識別部3は、図3
(a)の帳票画像を図3(b)に示すように5×4の格
子領域に分割し、各格子領域に含まれる画素の濃度総和
をそれぞれ算出し、これを特徴量とする。この場合、2
0次元のベクトル(各格子領域毎の画素濃度の集合)が
得られる。ここでは、分割数を5×4、次元数を20と
したが、これらの条件は画像の大きさや処理速度、識別
精度をもとに実験的に定めればよい。また、特徴量の算
出の前に、画像の傾き補正や雑音除去といった前処理を
施すことも可能である。
Next, the form identification unit 3 calculates the feature amount of the entire form image (step S3). Here, a case based on the blurring feature will be exemplified. Figure 3 shows the acquired form image
Assuming the image shown in (a), the form identification unit 3
As shown in FIG. 3B, the form image shown in FIG. 3A is divided into 5 × 4 grid areas, and the sum of the densities of the pixels included in each grid area is calculated, and this is used as a feature amount. In this case, 2
A zero-dimensional vector (a set of pixel densities for each grid region) is obtained. Here, the number of divisions is 5 × 4 and the number of dimensions is 20, but these conditions may be determined experimentally based on the image size, processing speed, and identification accuracy. Further, before calculating the feature amount, it is also possible to perform pre-processing such as image inclination correction and noise removal.

【0030】続いて、帳票識別部3は、照合する帳票の
帳票番号を選択する(ステップS4)。帳票番号は、通
し番号で1,2,3,…のように振られており、記憶部
2には、有効な帳票番号の数だけ異なる種類の帳票に対
応した手書領域情報2a及び模範特徴量2bが登録され
ている。そして、帳票番号nを指定すると第nの帳票フ
ォームに対応した手書領域情報2a及び模範特徴量2b
を読み出せるようになっている。帳票識別部3は、カウ
ンタを更新することにより、このステップS4の処理が
到来する度に、帳票番号を一つずつカウントアップし、
以降の処理を実行する。
Next, the form identification unit 3 selects the form number of the form to be compared (step S4). The form numbers are serial numbers such as 1, 2, 3,..., And the storage unit 2 stores the handwritten area information 2a and the model feature amount corresponding to the different types of forms by the number of valid form numbers. 2b is registered. When the form number n is designated, the handwriting area information 2a and the model feature amount 2b corresponding to the n-th form form
Can be read. The form identification unit 3 updates the counter so that the form number is incremented by one each time the process of step S4 arrives,
Execute the following processing.

【0031】帳票番号を設定すると、帳票識別部3は、
これに対応する手書領域情報2aを記憶部2から読み出
し(ステップS5)、ステップS3で算出した帳票画像
の特徴量から帳票番号に対応する手書き領域の特徴量を
削除する。手書領域情報2aには、例えば分割した格子
領域を単位とした手書き領域の位置を記述しておき、こ
の情報から手書き領域以外の領域について1を、手書き
領域について0を与えたベクトルを構成する。例えば
今、帳票画像が図3(c)であれば、このうちの太線で
囲まれた部分が手書き領域であって、この場合、手書領
域情報2aから構成したベクトルは、図3(d)のよう
に0,1の2値で表現される。そして、このベクトル
と、図3(b)に示した帳票画像全体の特徴量のベクト
ルとを掛け合わせることにより、図3(e)に示すよう
な、手書き領域を除いた部分の特徴量が算出される。
When the form number is set, the form identification unit 3
The corresponding handwritten area information 2a is read from the storage unit 2 (step S5), and the feature amount of the handwritten area corresponding to the form number is deleted from the feature amount of the form image calculated in step S3. In the handwriting area information 2a, for example, the position of the handwritten area in units of divided grid areas is described, and from this information, a vector in which 1 is given to an area other than the handwritten area and 0 is given to the handwritten area is configured. . For example, if the form image is now shown in FIG. 3 (c), the part surrounded by the thick line is the handwritten area. In this case, the vector formed from the handwritten area information 2a is the vector shown in FIG. Are represented by binary values of 0 and 1. Then, by multiplying this vector by the vector of the feature amount of the entire form image shown in FIG. 3B, the feature amount of the portion excluding the handwritten area as shown in FIG. Is done.

【0032】ここで、図3(d)のマスク値は0または
1の2値となっているが、これを多値マスクとし、読み
取り領域とそれ以外の領域の各重み付け結果を図3
(e)とすることも可能である。
Here, the mask value in FIG. 3D is a binary value of 0 or 1, and this is used as a multi-valued mask, and the weighting results of the reading area and other areas are shown in FIG.
(E) is also possible.

【0033】また、図3の具体例では、取り込んだ帳票
画像と、設定した帳票番号の帳票とが一致している場合
を示しているが、設定された帳票番号によっては必ずし
も取り込んだ帳票画像と一致する帳票の手書領域情報が
選択されるとは限らず、手書き領域でないプレプリント
部の特徴量が削除される場合もある。このため、設定さ
れる帳票番号(即ち、比較の対象となる帳票種)に応じ
て、ステップS6で算出される特徴量のパターンも異な
るものとなる。
The specific example of FIG. 3 shows a case where the captured form image matches the form of the set form number. However, depending on the set form number, the captured form image is not always The handwritten area information of the matching form is not always selected, and the feature amount of the preprinted part that is not the handwritten area may be deleted. For this reason, the pattern of the feature amount calculated in step S6 differs depending on the set form number (that is, the form type to be compared).

【0034】このようにして、特徴量を算出すると、帳
票識別部3は、帳票番号に対応する模範特徴量2bを記
憶部2から読み出す(ステップS7)。模範特徴量2b
は、上述したステップS1〜S6までの処理を経て算出
されるであろう特徴量の模範的なパターンを複数の帳票
について予め登録したものであって、上述した帳票番号
により管理されている。例えば、図3(a)の帳票に対
しては、図3(e)が模範特徴量として登録されてい
る。
After calculating the characteristic values in this way, the form identification unit 3 reads out the model characteristic values 2b corresponding to the form numbers from the storage unit 2 (step S7). Model feature 2b
Is a pattern in which typical patterns of feature amounts that are to be calculated through the processing of steps S1 to S6 described above are registered in advance for a plurality of forms, and are managed by the form numbers described above. For example, for the form shown in FIG. 3A, FIG. 3E is registered as a model feature amount.

【0035】続いて、帳票識別部3は、ステップS6で
算出した帳票番号に対応する手書き領域を削除した特徴
量と帳票番号に対応する模範特徴量とを照合し、その誤
差量を算出する(ステップS8)。選択されている帳票
番号と取り込んだ帳票画像の種類とが符合しない場合
は、模範特徴量との間に誤差を生ずる。誤差量の表現と
しては、類似度や距離値を用いることが可能である。例
えば、ステップS6で算出した特徴量をベクトルa、模
範特徴量をベクトルbとして、次式により算出される単
純類似度S等を採用することができる。但し、|a|は
ベクトルaのノルムを示すものとする。
Subsequently, the form identification unit 3 collates the characteristic amount obtained by deleting the handwritten area corresponding to the form number calculated in step S6 with the model characteristic amount corresponding to the form number, and calculates an error amount thereof ( Step S8). If the selected form number does not match the type of the imported form image, an error occurs between the selected form number and the model feature amount. As the expression of the error amount, a similarity or a distance value can be used. For example, the feature amount calculated in step S6 is defined as a vector a and the exemplary feature amount is defined as a vector b, and a simple similarity S calculated by the following equation can be adopted. Here, | a | indicates the norm of the vector a.

【0036】 S=(a,b)/(|a|−|b|) ・・・ (1)S = (a, b) / (| a | − | b |) (1)

【0037】一方、距離値により照合を行う場合は、両
ベクトルa,bの次元数をNとし、Nによって正規化し
た距離値Dを用いる必要がある。
On the other hand, when matching is performed using distance values, the number of dimensions of both vectors a and b must be N, and a distance value D normalized by N must be used.

【0038】D=|a−b|/N ・・・ (2)D = | ab | / N (2)

【0039】その理由は、各帳票において除去される手
書き領域が異なるので、模範特徴量のベクトルの次元数
が帳票の種類によって異なるためである。これに対し、
類似度では、ベクトルの次元数Nによる正規化演算が含
まれるので、これを別途考慮しなくても良い。
The reason is that the number of dimensions of the model feature amount vector differs depending on the type of the form, because the handwritten area to be removed in each form differs. In contrast,
Since the degree of similarity includes a normalization operation based on the number of dimensions N of the vector, this need not be separately considered.

【0040】ここで、誤差量を類似度や距離値で表現す
る場合は、正規化された類似度又は距離値を対象の性質
や特徴に応じて実験的に選択されれば良い。また、これ
によらず類似度や距離値以外で表現されても良い。他の
例としては複合類似度や混合類似度等が考えられる。
Here, when expressing the error amount by the similarity or the distance value, the normalized similarity or the distance value may be experimentally selected according to the property or characteristic of the object. Instead of this, it may be expressed by something other than the similarity or the distance value. Other examples include a composite similarity and a mixed similarity.

【0041】帳票識別部3は、このように算出した誤差
量を帳票番号に対応づけてメモリ4に格納した後(ステ
ップS9)、すべての帳票番号について照合を行ったか
否かを判断する(ステップS10)。この結果、すべて
の帳票番号について照合処理が終了していなければ、次
に照合対象とする帳票番号を選択し(ステップS4)、
ステップS5からステップS10までの処理を繰り返し
実行する。一方、すべての帳票番号について照合を終了
した場合は、メモリ4に記憶されている誤差量の中で最
も誤差量が小さい(例えば類似度であれば、類似度が高
い)帳票番号を取り込み画像に示された帳票の種類を示
す識別子として出力する(ステップS11)。
The form identification unit 3 stores the calculated error amount in the memory 4 in association with the form number (step S9), and determines whether or not all form numbers have been collated (step S9). S10). As a result, if the collation processing has not been completed for all the form numbers, the next form number to be collated is selected (step S4).
The processing from step S5 to step S10 is repeatedly executed. On the other hand, when the collation is completed for all the form numbers, the form number having the smallest error amount (for example, if the similarity is high, the similarity is high) among the error amounts stored in the memory 4 is taken into the captured image. It is output as an identifier indicating the type of the indicated form (step S11).

【0042】このように、本実施形態によれば、取り込
み帳票画像から手書き領域を削除した部分の特徴量を模
範特徴量と比較することにより帳票の種類を識別するの
で、手書き領域の記載の状況に影響されずに帳票の種類
を精度良く識別することができる。また、従来例のよう
に画像から罫線等のプレプリント情報を抽出して帳票の
識別を行う場合に比べ、識別の確実性を向上することが
でき、かつ、演算量も少なくて済むため、窓口業務等の
現場において高速な識別処理を行うことができる。更
に、帳票別の手書領域情報は、従来一般にOCRにおけ
る文字認識工程で用いられているため、この既存の情報
を有効に活用することができ、経済的である。
As described above, according to the present embodiment, the type of the form is identified by comparing the characteristic amount of the portion where the handwritten area is deleted from the captured form image with the model characteristic amount. The type of the form can be accurately identified without being affected by the information. In addition, as compared with a case where a form is identified by extracting preprint information such as a ruled line from an image as in the conventional example, the reliability of identification can be improved and the amount of calculation can be reduced. High-speed identification processing can be performed at the job site. Furthermore, since the handwritten area information for each form is conventionally used in the character recognition process in the OCR, this existing information can be effectively used, and is economical.

【0043】ここで、上述した実施形態において、「手
書き領域」は、手書き文字の領域だけでなく、印影等の
ように人為的に施されたイメージの表記領域も含めると
良い。また、帳票の他、伝票等これに類する書類の識別
に利用できることはいうまでもない。帳票識別部が実行
する識別プログラムは記録媒体に記録して取り引きする
ことができる。
Here, in the above-described embodiment, the "handwritten area" may include not only a handwritten character area but also a notation area of an artificially applied image such as an imprint. Needless to say, the present invention can be used for identification of documents such as slips other than forms. The identification program executed by the form identification unit can be recorded on a recording medium and traded.

【0044】[0044]

【発明の効果】本発明は、以上のように構成され機能す
るので、これによると、取り込み帳票画像から手書き領
域を削除した部分の特徴量を模範特徴量と比較すること
により帳票の種類を識別するので、手書き領域の記載の
状況に影響されずに帳票の種類を精度良く識別すること
ができる。また、従来例のように画像から罫線等のプレ
プリント情報を抽出して帳票の識別を行う場合に比べ、
識別の確実性を向上することができ、かつ、演算量も少
なくて済むため、窓口業務等の現場において高速な識別
処理を行うことができる。更に、帳票別の手書領域情報
は、従来一般にOCRの文字認識工程においてフォーマ
ット情報として用いられているため、この既存の情報を
有効に活用することができ、経済的である、という従来
にない優れた帳票識別方法及び装置並びに帳票識別プロ
グラムを記録した媒体を提供することができる。
Since the present invention is constructed and functions as described above, according to this, the type of the form is identified by comparing the feature amount of the portion where the handwritten area is deleted from the captured form image with the model feature amount. Therefore, the type of the form can be identified with high accuracy without being affected by the state of the description of the handwritten area. In addition, as compared with a case where preprint information such as ruled lines is extracted from an image and a form is identified as in a conventional example,
Since the certainty of identification can be improved and the amount of calculation can be reduced, high-speed identification processing can be performed at a site such as a window business. Furthermore, since the handwritten area information for each form is conventionally used as format information in the character recognition process of OCR, this existing information can be effectively used, and it is not economically conventional. An excellent form identification method and apparatus and a medium recording a form identification program can be provided.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の一実施形態を示すブロック図である。FIG. 1 is a block diagram showing an embodiment of the present invention.

【図2】図1に示す実施形態の動作を示すフローチャー
トである。
FIG. 2 is a flowchart showing the operation of the embodiment shown in FIG.

【図3】図1に示す実施形態の動作を説明する説明図で
あり、図3(a)は取り込んだ帳票画像、図3(b)は
帳票画像から抽出した特徴量の例、図3(c)は帳票画
像と手書き領域との関係、図3(d)は手書領域情報か
ら作成したマスク用のベクトル、図3(e)は帳票画像
の特徴量から手書き領域の部分を削除した特徴量をそれ
ぞれ示す。
3A and 3B are explanatory diagrams for explaining the operation of the embodiment shown in FIG. 1. FIG. 3A is an example of a captured form image, FIG. 3B is an example of a feature amount extracted from the form image, and FIG. 3C shows the relationship between the form image and the handwritten region, FIG. 3D shows the vector for the mask created from the handwritten region information, and FIG. 3E shows the characteristic obtained by deleting the handwritten region from the feature amount of the form image. The amounts are indicated respectively.

【符号の説明】[Explanation of symbols]

1 画像入力部 2 記憶部 2a 手書領域情報 2b 模範特徴量 3 帳票識別部 4 メモリ S 帳票種別情報 Reference Signs List 1 image input unit 2 storage unit 2a handwriting area information 2b model feature amount 3 form identification unit 4 memory S form type information

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】 帳票画像を取り込む工程と、予め帳票毎
に登録された手書領域情報に基づいて前記帳票画像から
手書き領域を除いた部分の特徴量を算出する工程と、前
記帳票画像から手書き領域を除いた部分の特徴量と予め
帳票毎に登録された模範特徴量との誤差量を算出する工
程と、前記模範特徴量との誤差量に基づいて前記帳票画
像に示された帳票の種類を判別する工程とを含むことを
特徴とした帳票識別方法。
A step of acquiring a form image; a step of calculating a feature amount of a portion excluding a handwritten area from the form image based on handwritten area information registered in advance for each form; Calculating an error amount between the feature amount of the portion excluding the region and the model feature amount registered in advance for each form; and a type of the form shown in the form image based on the error amount from the model feature amount. Identifying the form.
【請求項2】 帳票画像を取り込む画像入力部と、予め
帳票毎に登録された手書領域情報及び模範特徴量を記憶
した記憶部と、前記手書領域情報に基づいて前記帳票画
像から手書き領域を除いた部分の特徴量を算出し,この
特徴量と前記模範特徴量との誤差量を算出し,この模範
特徴量との誤差量に基づいて前記帳票画像に示された帳
票の種類を判別する帳票識別部とを備えたことを特徴と
した帳票識別装置。
2. An image input unit for taking in a form image, a storage unit for storing handwritten area information and model feature amounts registered in advance for each form, and a handwritten area from the form image based on the handwritten area information. Is calculated, and an error between the feature and the model feature is calculated, and the type of the form shown in the form image is determined based on the error between the model feature and the model feature. A form identification device, comprising:
【請求項3】 コンピュータによって帳票の種類を識別
するプログラムを記録した媒体であって、 前記識別プログラムは、前記コンピュータに帳票画像を
取り込ませ、予め帳票毎に登録された手書領域情報に基
づいて前記帳票画像から手書き領域を除いた部分の特徴
量を算出させ、この特徴量と予め帳票毎に登録された模
範特徴量との誤差量を算出させ、この模範特徴量との誤
差量に基づいて前記帳票画像に示された帳票の種類を判
別させることを特徴とした帳票識別プログラムを記録し
た媒体。
3. A medium in which a program for identifying a type of a form by a computer is recorded, wherein the identification program causes the computer to capture a form image, based on handwritten area information registered in advance for each form. A feature amount of a portion excluding the handwritten area is calculated from the form image, an error amount between this feature amount and a model feature amount registered in advance for each form is calculated, and based on an error amount with the model feature amount. A medium on which a form identification program is recorded, wherein the type of the form shown in the form image is determined.
JP08314665A 1996-11-26 1996-11-26 Form identification method and device Expired - Lifetime JP3090070B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP08314665A JP3090070B2 (en) 1996-11-26 1996-11-26 Form identification method and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP08314665A JP3090070B2 (en) 1996-11-26 1996-11-26 Form identification method and device

Publications (2)

Publication Number Publication Date
JPH10154191A true JPH10154191A (en) 1998-06-09
JP3090070B2 JP3090070B2 (en) 2000-09-18

Family

ID=18056075

Family Applications (1)

Application Number Title Priority Date Filing Date
JP08314665A Expired - Lifetime JP3090070B2 (en) 1996-11-26 1996-11-26 Form identification method and device

Country Status (1)

Country Link
JP (1) JP3090070B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001202466A (en) * 2000-01-18 2001-07-27 Hitachi Ltd Slip type discriminator
JP2007179307A (en) * 2005-12-28 2007-07-12 Hitachi Computer Peripherals Co Ltd Form discriminator
JP2013196611A (en) * 2012-03-22 2013-09-30 Fuji Xerox Co Ltd Business form discrimination device and program
CN109615309A (en) * 2018-09-25 2019-04-12 阿里巴巴集团控股有限公司 A kind of data recording method and device, a kind of calculating equipment and storage medium

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6097479A (en) * 1983-10-31 1985-05-31 Nec Corp Picture processing device
JPS60183688A (en) * 1984-03-02 1985-09-19 Nec Corp Optical character reading system
JPS6180961A (en) * 1984-09-28 1986-04-24 Fuji Xerox Co Ltd Picture signal processing method
JPS63158676A (en) * 1986-12-23 1988-07-01 Matsushita Electric Ind Co Ltd Area extracting device
JPS6464085A (en) * 1987-09-04 1989-03-09 Toshiba Corp Slip format registering device
JPH02123486A (en) * 1988-11-02 1990-05-10 Toshiba Corp Optical character reader
JPH02231691A (en) * 1989-03-04 1990-09-13 Oki Electric Ind Co Ltd Character recognizing device
JPH03126181A (en) * 1989-10-11 1991-05-29 Oki Electric Ind Co Ltd Area dividing method for document image
JPH04160581A (en) * 1990-10-24 1992-06-03 Toshiba Corp Address area detection device
JPH05128306A (en) * 1991-11-08 1993-05-25 Oki Electric Ind Co Ltd Attribute discriminating method for sentence picture
JPH06111057A (en) * 1992-09-25 1994-04-22 Toshiba Corp Optical character reader
JPH06333086A (en) * 1993-03-23 1994-12-02 Toshiba Corp Character reader

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6097479A (en) * 1983-10-31 1985-05-31 Nec Corp Picture processing device
JPS60183688A (en) * 1984-03-02 1985-09-19 Nec Corp Optical character reading system
JPS6180961A (en) * 1984-09-28 1986-04-24 Fuji Xerox Co Ltd Picture signal processing method
JPS63158676A (en) * 1986-12-23 1988-07-01 Matsushita Electric Ind Co Ltd Area extracting device
JPS6464085A (en) * 1987-09-04 1989-03-09 Toshiba Corp Slip format registering device
JPH02123486A (en) * 1988-11-02 1990-05-10 Toshiba Corp Optical character reader
JPH02231691A (en) * 1989-03-04 1990-09-13 Oki Electric Ind Co Ltd Character recognizing device
JPH03126181A (en) * 1989-10-11 1991-05-29 Oki Electric Ind Co Ltd Area dividing method for document image
JPH04160581A (en) * 1990-10-24 1992-06-03 Toshiba Corp Address area detection device
JPH05128306A (en) * 1991-11-08 1993-05-25 Oki Electric Ind Co Ltd Attribute discriminating method for sentence picture
JPH06111057A (en) * 1992-09-25 1994-04-22 Toshiba Corp Optical character reader
JPH06333086A (en) * 1993-03-23 1994-12-02 Toshiba Corp Character reader

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001202466A (en) * 2000-01-18 2001-07-27 Hitachi Ltd Slip type discriminator
JP2007179307A (en) * 2005-12-28 2007-07-12 Hitachi Computer Peripherals Co Ltd Form discriminator
JP2013196611A (en) * 2012-03-22 2013-09-30 Fuji Xerox Co Ltd Business form discrimination device and program
CN109615309A (en) * 2018-09-25 2019-04-12 阿里巴巴集团控股有限公司 A kind of data recording method and device, a kind of calculating equipment and storage medium

Also Published As

Publication number Publication date
JP3090070B2 (en) 2000-09-18

Similar Documents

Publication Publication Date Title
US6778703B1 (en) Form recognition using reference areas
US5410611A (en) Method for identifying word bounding boxes in text
US8494273B2 (en) Adaptive optical character recognition on a document with distorted characters
JP3602596B2 (en) Document filing apparatus and method
JPS6159568A (en) Document understanding system
JP2004139484A (en) Form processing device, program for implementing it, and program for creating form format
JP2000285190A (en) Method and device for identifying slip and storage medium
CN111626145A (en) Simple and effective incomplete form identification and page-crossing splicing method
JP2002015280A (en) Device and method for image recognition, and computer- readable recording medium with recorded image recognizing program
JP3090070B2 (en) Form identification method and device
WO2006080568A1 (en) Character reader, character reading method, and character reading control program used for the character reader
JP4804433B2 (en) Image processing apparatus, image processing method, and image processing program
JPH11272800A (en) Character recognition device
JP3730073B2 (en) Template creation method, apparatus, and recording medium recording template creation program
JP3946043B2 (en) Form identification device and identification method
JP3412441B2 (en) Image processing device
JP3756660B2 (en) Image recognition method, apparatus and recording medium
JP4580520B2 (en) Character recognition method and character recognition apparatus
JP3848792B2 (en) Character string recognition method and recording medium
JP2909132B2 (en) Optical character reader
JPH11184965A (en) Slip identification register device
JP4132234B2 (en) Character recognition method and apparatus, and recording medium on which character recognition program is recorded
JP3919390B2 (en) Character recognition device
JP2004280530A (en) System and method for processing form
JP2643092B2 (en) Method and system for processing non-standard data located outside predefined fields on a document form

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20000620

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070721

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080721

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090721

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100721

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110721

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110721

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120721

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120721

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130721

Year of fee payment: 13

EXPY Cancellation because of completion of term