JP3353215B2 - Form format identification method and apparatus - Google Patents
Form format identification method and apparatusInfo
- Publication number
- JP3353215B2 JP3353215B2 JP11592495A JP11592495A JP3353215B2 JP 3353215 B2 JP3353215 B2 JP 3353215B2 JP 11592495 A JP11592495 A JP 11592495A JP 11592495 A JP11592495 A JP 11592495A JP 3353215 B2 JP3353215 B2 JP 3353215B2
- Authority
- JP
- Japan
- Prior art keywords
- ruled line
- line interval
- interval
- registration
- format
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Document Processing Apparatus (AREA)
- Character Input (AREA)
Description
【0001】[0001]
【産業上の利用分野】本発明は帳票書式識別方法及び装
置に係り、特に、文字イメージデータから文字コードへ
変換するための文字認識方法において入力される2値の
イメージデータより帳票が予め登録されている書式のど
の書式に該当するかを識別するための帳票書式識別方法
及び装置に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a form format identification method and apparatus, and more particularly, to a form format in which a form is registered in advance from binary image data input in a character recognition method for converting character image data into a character code. The present invention relates to a form format identification method and apparatus for identifying which format of a given format corresponds to which format.
【0002】帳票データを読み込んで計算機システムに
入力する方法は、キーボード等から個々にデータを入力
するデータ入力方法と比較して、操作が容易なこと、処
理が高速である等の理由により、印刷されている帳票デ
ータを読み込んで、帳票上のデータを文字認識する文字
認識装置が普及しつつある。また、今日のファクシミリ
装置の低価格化と普及率に着目して、ファクシミリ送信
されたイメージデータを文字認識装置に入力して、各種
帳票に印刷または、記入された文字の認識を行って、認
識データを計算機システムに入力することにより、窓口
業務や事務処理を効率的に処理するシステムが望まれて
いる。2. Description of the Related Art A method of reading form data and inputting the data to a computer system is simpler than a data input method of individually inputting data from a keyboard or the like. 2. Description of the Related Art A character recognizing apparatus which reads out form data and recognizes data on the form as characters is becoming widespread. In addition, paying attention to the price reduction and penetration rate of today's facsimile machines, image data transmitted by facsimile is input to a character recognition device, and printed or printed on various forms. There is a demand for a system that efficiently processes window operations and office work by inputting data into a computer system.
【0003】[0003]
【従来の技術】従来、文字認識装置にイメージデータを
入力する場合には、予め帳票の種別毎にフォーマットを
登録しておくと共に、帳票には、文字認識装置において
認識するためのイメージデータ(帳票)の種別を示す文
字情報やマークを印刷しておく。これを文字認識装置に
入力すると、帳票上の文字情報やマークを読み取って当
該帳票がどの種類の帳票であるかを認識して、計算機シ
ステムに転送し、以後入力される帳票データのフォーマ
ットに併せて入力されるデータを区別する。2. Description of the Related Art Conventionally, when image data is input to a character recognition device, a format is registered in advance for each type of form, and an image data (form) for recognition by the character recognition device is included in the form. Character information and a mark indicating the type are printed. When this is input to the character recognition device, it reads the character information and marks on the form, recognizes the type of the form, transfers it to the computer system, and matches it with the format of the form data to be entered thereafter. Data to be input.
【0004】例えば、帳票名が売上日計表である場合に
は、帳票データの最上部に売上データであることを示す
コード(例えばバーコード等)を印刷しておく。これを
文字認識装置が読み取ることにより、計算機システムは
入力されるデータが売上データであることを認識する。
ここで、文字認識装置に読み取られたデータが“950
919、000123000、000100000、0
00530000、006000000”である場合
に、計算機システムは、“950919”を売上日と
し、“000123000”を第1部門の売上金額、
“000100000”を第2部門の売上金額、“00
0530000”を第3部門の売上金額、“00600
0000”を第4部門の売上金額として取得する。つま
り、計算機システムは、上記の文字認識装置が認識した
一連のデータを以下のように加工して利用する。 売上日95年9月19日 第1部門売上:123,000 円 第2部門売上:100,000 円 第3部門売上:530,000 円 第4部門売上:6,000,000 円 上記のように取得したデータを種々加工して売上集計等
の処理を行う。For example, when the form name is a daily sales schedule, a code (for example, a bar code) indicating that the form is sales data is printed at the top of the form data. By reading this by the character recognition device, the computer system recognizes that the input data is sales data.
Here, the data read by the character recognition device is “950”.
919, 000123000, 000100000, 0
00530000, 006000000 ", the computer system sets“ 950919 ”as the sales date,“ 000123000 ”as the sales amount of the first division,
“00100000” is the sales amount of the second division, “00”
0530000 ”is the sales amount of the third division,“ 00600
0000 "is acquired as the sales amount of the fourth department. That is, the computer system processes and uses a series of data recognized by the above-described character recognition device as follows. 1 division sales: 123,000 yen 2nd division sales: 100,000 yen 3rd division sales: 530,000 yen 4th division sales: 6,000,000 yen The data acquired as described above are processed in various ways to perform sales aggregation and other processing.
【0005】[0005]
【発明が解決しようとする課題】しかしながら、上記従
来の帳票上に帳票の種類を示すマークや記号を印刷する
方法では、文字認識装置に予め帳票の種類を示す情報が
どの位置にあるかを記憶させているが、帳票の種類を示
すマークや記号を帳票自体に印刷しているため、帳票レ
イアウト上の制限や記入者からみて違和感があるという
問題があると共に、ファクシミリ装置の特性により生じ
る伸縮やファクシミリ送付元情報の位置を送信原稿内に
するか、原稿外にするかにより生じるマークや記号欄の
位置ずれに対応できず、帳票識別の誤りやリジェクトさ
れてしまうという問題がある。However, in the above-mentioned conventional method of printing a mark or a symbol indicating the type of a form on a form, the character recognition device previously stores in which position the information indicating the type of the form is located. However, since marks and symbols indicating the type of form are printed on the form itself, there is a problem that there is a sense of incongruity from the viewpoint of the form layout due to restrictions on the form layout and the expansion and contraction caused by the characteristics of the facsimile machine. There is a problem in that the position of the facsimile sender information is set in the transmission original or out of the original, and the position shift of the mark or the symbol column caused by the position cannot be coped with, and there is a problem that the form identification error or rejection occurs.
【0006】本発明は、上記の点に鑑みなされたもの
で、上記従来の問題点を解決し、帳票の種類を示すマー
クや記号の印刷を不要とし、さらに、ファクシミリ装置
により生じるイメージデータの伸縮を許容する帳票書式
を識別するための帳票書式識別情報及び装置を提供する
ことを目的とする。SUMMARY OF THE INVENTION The present invention has been made in view of the above problems, and solves the above-mentioned conventional problems, eliminates the need to print marks or symbols indicating the types of forms, and furthermore, expands and contracts image data generated by a facsimile machine. It is an object of the present invention to provide form format identification information and a device for identifying a form format that allows a form.
【0007】[0007]
【課題を解決するための手段】本発明の帳票書式識別方
法は、1つの登録帳票のイメージデータから、複数の第
1の罫線間隔を求め、 第1の罫線間隔の中から、基準と
なる第1の基準罫線間隔を求め、 第1の罫線間隔を第1
の基準罫線間隔との比率で置き換えて、それぞれ正規化
した第1の罫線間隔正規化値を求め、 第1の罫線間隔正
規化値に基づいて、登録帳票の登録書式情報を作成して
登録書式情報蓄積部に蓄積し、 他の登録帳票に関しても
同様に各登録帳票の登録書式情報を作成して蓄積し、 入
力帳票のイメージデータから、複数の第2の罫線間隔を
求め、 第2の罫線間隔の中から、基準となる第2の基準
罫線間隔を求め、 第2の罫線間隔を第2の基準罫線間隔
との比率で置き換えて、それぞれ正規化した第2の罫線
間隔正規化値を求め、 第2の罫線間隔正規化値に基づい
て、入力帳票の入力書式情報を作成し、 登録書式情報と
入力書式情報とを照合し、入力書式情報に最も適合する
登録書式情報を決定する。Means for Solving the Problems] document format identification method of the present invention, from the image data of one registered form, a plurality of second
The first ruled line interval is determined, and the reference is determined from the first ruled line interval.
Is determined, and the first ruled line interval is set to the first
Normalized by replacing with the ratio of the standard ruled line interval
The normalized first ruled line interval value is obtained, and the first ruled line interval
Based on the normalized value, create registration form information for the registration form
Stored in the registration form information storage unit, and other registration forms
Similarly, create and accumulate registration form information for each registration form, and enter
From the image data of the force report, a plurality of second ruled line intervals
From the second ruled line interval, the second reference
The ruled line interval is determined, and the second ruled line interval is set to the second reference ruled line interval.
The second ruled line normalized by the ratio of
Seek distance normalized value, based on the second ruled line distance normalized value
To create the input form information of the input form ,
Compares with input format information and best matches input format information
Determine the registration form information .
【0008】また、本発明の帳票書式識別方法におい
て、第1の基準罫線間隔は、第1の罫線間隔の中で最も
分布の多い罫線間隔とし、 第2の基準罫線間隔は、第2
の罫線間隔の中で最も分布の多い罫線間隔とする。本発
明の帳票識別装置は、登録帳票のイメージデータから、
複数の第1の罫線間隔を求め、該第1の罫線間隔の中か
ら、基準となる第1の基準罫線間隔を求め、該第1の罫
線間隔を該第1の基準罫線間隔との比率で置き換えて、
それぞれ正規化した第1の罫線間隔正規化値を求め、該
第1の罫線間隔正規化値に基づいて、登録帳票の登録書
式情報を作成して登録書式情報蓄積部に蓄積する書式情
報登録手段と、 入力帳票のイメージデータから、複数の
第2の罫線間隔を求め、該第2の罫線間隔の中から、基
準となる第2の基準罫線間隔を求め、該第2の罫線間隔
を該第2の基準罫線間隔との比率で置き換えて、それぞ
れ正規化した第2の罫線間隔正規化値を求め、該第2の
罫線間隔正規化値に基づいて、該入力帳票の入力書式情
報を作成する入力書式情報生成手段と、 書式情報登録手
段にて登録された複数の登録帳票の登録書式情報と入力
書式情報とを照合し、入力書式情報に最も適合する登録
書式情報を決定する書式識別手段と、を有する。Further , in the form format identification method of the present invention,
Therefore, the first reference ruled line interval is the largest among the first ruled line intervals.
The ruled line interval having a large distribution is set as the second reference ruled line interval.
Is the ruled line interval having the largest distribution among the ruled line intervals . The form identification device of the present invention, from the image data of the registration form,
A plurality of first ruled line intervals are determined, and the first ruled line interval is determined.
Then, a first reference rule line interval serving as a reference is obtained, and the first rule
By replacing the line interval with the ratio of the first reference ruled line interval,
A normalized first ruled line interval normalized value is obtained, and
Registration form of registration form based on first ruled line interval normalized value
Format information that creates formula information and stores it in the registration format information storage
Information registration means and multiple
A second ruled line interval is determined, and a basis is determined from the second ruled line interval.
A reference second reference ruled line interval is obtained, and the second ruled line interval is determined.
Is replaced with the ratio with the second reference ruled line interval.
The normalized second ruled line interval normalized value is calculated, and the second
Based on the ruled line interval normalized value, the input format information of the input form
And the input format information generating means to create a broadcast, formatting information registration hand
Form information and input of multiple registration forms registered in the column
Registration that matches the format information and matches the input format information best
Format identification means for determining format information .
【0009】また、書式情報登録手段は、 第1の基準罫
線間隔を、第1の罫線間隔の中で最も分布の多い罫線間
隔とし、 入力書式情報生成手段は、 第2の基準罫線間隔
を、第2の罫線間隔の中で最も分布の多い罫線間隔とす
る。 また、書式情報登録手段は、 登録帳票のイメージデ
ータの傾斜を補正する第1の傾斜補正手段と、 登録帳票
のイメージデータのX軸方向の黒画素分布が所定の画素
数以上連続している黒画素量を積算する第1の画素数積
算手段と、 第1の画素数積算手段により取得した黒画素
量に基づいて、所定の罫線成立ドット数以上連続してい
る黒画素数を有する線を第1の罫線とする第1の罫線検
出手段と、 前回第1の罫線検出手段で取得した第1の罫
線間隔を求める第1の罫線間隔取得手段と、 第1の罫線
間隔取得手段で取得した第1の罫線間隔のうち、最も罫
線間隔の分布が多い罫線間隔を第1の基準罫線間隔とす
る第1の基準罫線間隔取得手段と、 第1の罫線間隔を第
1の基準罫線間隔との比率で置換して、第1の罫線間隔
正規化値を求める第1の罫線間隔正規化手段と、 第1の
罫線間隔正規化手段により求められた第1の罫線間隔正
規化値に基づいて、登録帳票の登録書式情報として作成
して登録書式情報蓄積部に蓄積する登録手段とを含む。 [0009] The format information registering means may include a first reference rule.
The line interval is set between the rule lines having the largest distribution among the first rule line intervals.
And the input format information generating means includes a second reference ruled line interval.
Is the ruled line interval having the largest distribution among the second ruled line intervals.
You. Further, the format information registering means stores the image data of the registration form.
First inclination correcting means for correcting the inclination of the data, and a registration form
The black pixel distribution in the X-axis direction of the image data of
The first pixel number product that integrates the number of black pixels that are consecutive over the number
Calculating means and the black pixel acquired by the first pixel number integrating means.
Based on the amount, the number of continuous dots exceeds the
A first ruled line detection is performed using a line having the number of black pixels as a first ruled line.
Output means, and the first rule previously obtained by the first ruled line detection means.
A first ruled line interval obtaining means for obtaining a line spacing, a first ruled line
Among the first ruled line intervals acquired by the interval acquiring means,
A ruled line interval having a large line interval distribution is defined as a first reference ruled line interval.
A first reference ruled line interval obtaining unit, a first ruled line spacing first that
Replaced by the ratio with the standard ruled line interval of 1, the first ruled line interval
First ruled line interval normalizing means for obtaining a normalized value ;
The first ruled line interval positive calculated by the ruled line interval normalizing means
Created as registration form information of registration form based on normalized value
And a registration means for storing the information in the registration format information storage unit.
【0010】また、入力書式情報生成手段は、入力帳票
のイメージデータの傾斜を補正する第2の傾斜補正手段
と、入力帳票のイメージデータのX軸の方向の黒画素分
布が所定の画素数以上連続している黒画素量を積算する
第2の画素数積算手段と、第2の画素数積算手段により
取得した黒画素量に基づいて、所定の罫線成立ドット数
以上連続している黒画素数を有する線を罫線とする第2
の罫線検出手段と、第2の罫線検出手段で取得した罫線
の第2の罫線間隔を求める第2の罫線間隔取得手段と、
第2の罫線間隔取得手段で取得した第2の罫線間隔のう
ち、最も罫線の分布が多い罫線間隔を第2の基準罫線間
隔とする第2の基準罫線間隔取得手段と、第2の罫線間
隔を第2の基準罫線間隔との比率で置換して、第2の罫
線間隔正規化値を求める第2の罫線間隔正規化手段と、
第2の罫線間隔正規化手段により求められた第2の罫線
間隔正規化値に基づいて、入力帳票の入力書式情報を作
成する入力書式作成手段とを含む。[0010] The input form information generating means may include an input form.
Second inclination correcting means for correcting the inclination of the image data, and a second pixel for accumulating the amount of black pixels in which the distribution of black pixels in the X-axis direction of the image data of the input form continues for a predetermined number of pixels or more. Based on the black pixel amount obtained by the number accumulating means and the second pixel number accumulating means, a line having the number of continuous black pixels equal to or greater than a predetermined ruled line forming dot number is defined as a second ruled line.
A second ruled line interval obtaining means for obtaining a second ruled line interval of the ruled line obtained by the second ruled line detecting means;
A second ruled line interval acquiring unit that sets a ruled line interval having the largest ruled line distribution to a second reference ruled line interval among the second ruled line interval acquired by the second ruled line interval acquiring unit; Is replaced by a ratio with the second reference ruled line interval to obtain a second ruled line interval normalized value,
Based on the second ruled line distance normalized value obtained by the second ruled line spacing normalizing means, create an input format information of the input form
Input form creation means to be formed .
【0011】また、書式識別手段は、 第1の罫線間隔正
規化値と第2の罫線間隔正規化値を罫線間隔の順に比較
して、一致した回数を一致間隔数として登録書式情報毎
に求め、一致間隔数が大きい登録書式情報を取得する一
致間隔比較手段を含み、 一致間隔比較手段で取得された
登録書式情報の中から、入力書式情報に最も適合する登
録書式情報を決定する。[0011] The format identifying means may include a first ruled line spacing positive.
The normalized value and the normalized value of the second ruled line interval are compared in order of ruled line interval
And the number of matches as the number of matching intervals for each registered format information
To obtain registration format information with a large number of matching intervals
Includes matching interval comparing means, obtained by matching interval comparing means
From the registered form information, the registration that best matches the input form information
Determine record format information .
【0012】また、書式識別手段は、 一致間隔数を求め
る対象であった登録書式情報の第1の罫線間隔数に対す
る、一致間隔数の割合を求め、該割合が所定の値より大
きい登録書式情報を取得する一致割合比較手段を含み、
一致割合比較手段で取得された登録書式情報の中から、
入力書式情報に最も適合する登録書式情報を決定する。 [0012] In addition, the format identification means determines the number of match interval
To the first ruled line interval number of the registered form information
The ratio of the number of matching intervals is calculated, and the ratio is larger than a predetermined value.
Including a match ratio comparing means for obtaining the registration form information;
From the registered form information obtained by the match ratio comparing means,
Determine the registration format information that best matches the input format information.
【0013】[0013]
【作用】本発明は、予め登録する複数の書式を各帳票イ
メージデータの基準となる罫線間隔を求めて、各罫線間
隔を基準罫線間隔との比率で置き換えて正規化した結果
を登録書式情報として装置上に用意し、帳票読み取り時
も登録書式情報作成時と同様に、入力イメージデータの
基準となる罫線間隔を求め、各罫線間隔を基準罫線間隔
との比率で置き換えて正規化した結果を入力書式情報と
する。そして、登録書式情報と入力書式情報とを照合
し、帳票読み取り時の入力イメージデータが登録書式中
のどの書式かを識別する。このように、登録書式情報作
成時及び帳票読み取り時共に基準となる罫線間隔を求
め、各罫線間隔を基準罫線間隔との比率で置き換えて正
規化し、登録書式情報と入力書式情報とを照合して、書
式識別を行うため、帳票の種類を示すマークや記号の印
刷が不要である。また、登録書式情報作成時に各帳票イ
メージデータと帳票読み取り時の入力イメージデータの
間に伸縮があっても罫線に対応して行われるため、入力
イメージデータが登録書式中のどの書式に対応するかを
識別することが可能となる。According to the present invention, the result of normalizing a plurality of formats to be registered in advance by obtaining a ruled line interval serving as a reference of each form image data and replacing each ruled line interval with a reference ruled line interval is used as registered format information. Prepared on the device, find the ruled line spacing that is the basis of the input image data when reading the form as well as when creating the registered format information, and enter the normalized result by replacing each ruled line spacing with the ratio of the reference ruled line spacing Format information. Then, the registered format information and the input format information are collated to identify which of the registered image input image data is used when reading the form. In this way, the reference rule interval is determined at the time of creating the registration format information and at the time of reading the form, and the rule interval is replaced with the ratio of the reference rule interval to normalize, and the registration format information and the input format information are collated. Since the format identification is performed, it is not necessary to print a mark or symbol indicating the type of the form. In addition, even if there is expansion or contraction between each form image data at the time of creating the registration form information and the input image data at the time of reading the form, it is performed according to the ruled line, so which input form data corresponds to which of the registration forms Can be identified.
【0014】[0014]
【実施例】以下、図面と共に、本発明の実施例を詳細に
説明する。図3は、本発明の一実施例の帳票書式識別装
置の構成を示す。同図に示すシステムは、帳票書式識別
装置100、入力イメージデータ200、登録用イメー
ジデータ300より構成される。入力イメージデータ2
00は、ファクシミリ装置等より送信されたイメージデ
ータ等を意味し、このような入力イメージデータ200
が帳票書式識別装置100に入力されることにより、計
算機システム300で利用可能なデータとして識別され
る。また、登録イメージデータ300は、予め登録書式
情報として帳票書式識別装置100に登録しておくため
に用いるデータである。Embodiments of the present invention will be described below in detail with reference to the drawings. FIG. 3 shows the configuration of a form format identification device according to one embodiment of the present invention. The system shown in FIG. 1 includes a form identification device 100, input image data 200, and registration image data 300. Input image data 2
00 denotes image data or the like transmitted from a facsimile apparatus or the like.
Is input to the form identification device 100, and is identified as data usable in the computer system 300. The registration image data 300 is data used for registering in advance in the form format identification device 100 as registration format information.
【0015】同図に示す帳票書式識別装置100は、登
録書式情報蓄積部101、イメージデータ傾斜補正部1
02、X軸方向黒画像分布取得部103、横罫線検出部
105、横罫線間隔算出部107、横罫線間隔まるめ処
理部108、基準横罫線間隔取得部109、横罫線間隔
正規化部110、入力書式情報作成部112、登録書式
情報・入力書式情報一致判定部113及び登録書式情報
作成部201より構成される。なお、X軸方向黒画素分
布取得部103には、横罫線黒画素カウント対象連続量
を示すパラメータycon104が入力され、横罫線検
出部105には、横罫線成立ドット数を示すパラメータ
ybdr106が入力され、また、横罫線間隔正規化部
110には、基準罫線間隔値を示すパラメータintv
111が入力されるものとする。A form format identification device 100 shown in FIG. 1 includes a registered format information storage unit 101, an image data inclination correction unit 1
02, X-axis direction black image distribution acquisition unit 103, horizontal ruled line detection unit 105, horizontal ruled line interval calculation unit 107, horizontal ruled line interval rounding processing unit 108, reference horizontal ruled line interval acquisition unit 109, horizontal ruled line interval normalization unit 110, input It comprises a format information creation unit 112, a registration format information / input format information match determination unit 113, and a registration format information creation unit 201. The parameter ycon 104 indicating the horizontal ruled line black pixel count continuation amount is input to the X-axis direction black pixel distribution acquiring unit 103, and the parameter ybdr 106 indicating the horizontal ruled line formation dot number is input to the horizontal ruled line detecting unit 105. The horizontal ruled line interval normalizing section 110 has a parameter intv indicating a reference ruled line interval value.
It is assumed that 111 is input.
【0016】登録書式情報蓄積部101は、予め、複数
の書式の各帳票イメージデータである登録用イメージデ
ータ300から基準となる罫線間隔を求め、各罫線間隔
を基準罫線間隔との比率で置き換えて正規化した結果を
登録書式情報として登録されている。The registration format information storage unit 101 obtains a reference rule interval from the registration image data 300, which is each form image data in a plurality of formats, and replaces each rule interval with a reference rule interval. The normalized result is registered as registration format information.
【0017】イメージデータ傾斜補正部102は、入力
されたイメージデータを傾斜を補正する。傾斜したイメ
ージデータのままでは、後述する横罫線検出部105
で、本来1本である罫線が畳み込まれて2本罫線として
扱われ、本来の罫線長や罫線間隔が得られず、正確な帳
票書式識別が不可能となるケースも生じる。そこで、特
願平6−249201「帳票入力方法及びその装置」で
示される方法等により、イメージデータの傾斜補正を実
施する。The image data inclination correction unit 102 corrects the inclination of the input image data. If the image data is inclined, the horizontal ruled line detection unit 105 described later
Thus, there is a case where the original ruled line is folded and treated as two ruled lines, the original ruled line length and ruled line interval cannot be obtained, and accurate form format identification becomes impossible. Therefore, the inclination of the image data is corrected by the method described in Japanese Patent Application No. 6-249201, "Form Input Method and Apparatus".
【0018】X軸方向黒画素分布取得部103は、登録
帳票イメージデータのX軸方向の黒画素分布を取得し、
パラメータycon104により入力される横罫線黒画
素カウント対象連続量以上の連続した黒画素量のみを積
算する。ここで、パラメータycon104の値以上の
連続量とするのは、帳票上のガイド文字や記入文字の黒
画素を罫線情報として扱わないためである。An X-axis direction black pixel distribution acquisition unit 103 acquires the X-axis direction black pixel distribution of the registered form image data.
Only the continuous black pixel amount equal to or larger than the horizontal ruled line black pixel count continuous amount input by the parameter ycon104 is integrated. Here, the reason why the continuous amount is equal to or larger than the value of the parameter ycon 104 is that black pixels of guide characters and entered characters on the form are not treated as ruled line information.
【0019】横罫線検出部105は、X軸方向黒画素分
布取得部103で積算したX軸方向の黒画素量が、パラ
メータybdr106で入力される横罫線成立ドット数
以上のもののみを横罫線とする。横罫線間隔算出部10
7は、横罫線検出部105で求めた各横罫線の間隔を求
める。The horizontal ruled line detection unit 105 determines that only the pixels having the number of horizontal ruled line formation dots input by the parameter ybdr 106 that are greater than the number of black pixels in the X-axis direction calculated by the X-axis direction black pixel distribution acquisition unit 103 are regarded as horizontal ruled lines. I do. Horizontal ruled line interval calculator 10
Reference numeral 7 denotes an interval between the horizontal ruled lines obtained by the horizontal ruled line detection unit 105.
【0020】横罫線間隔まるめ処理部108は、多少の
ずれを許容するため、横罫線間隔算出部107の結果を
四捨五入する。基準横罫線間隔取得部109は、横罫線
間隔まるめ処理部108の結果を参照し、分布の最も多
い横罫線間隔を求める。The horizontal ruled line interval rounding processing unit 108 rounds the result of the horizontal ruled line interval calculating unit 107 to allow some deviation. The reference horizontal ruled line interval acquisition unit 109 refers to the result of the horizontal ruled line interval rounding processing unit 108 to determine the horizontal ruled line interval having the largest distribution.
【0021】横罫線間隔正規化部110は、各横罫線間
隔を基準横罫線間隔との比率で置き換える。具体的に
は、基準横罫線間隔をパラメータintv111(基準
罫線間隔値)で指定された値に置換し、横罫線間隔番号
mのまるめ処理結果を intvの指定値×横罫線間隔番号mのまるめ処理結果/基準横罫線間隔値 …(1) により正規化する。The horizontal ruled line interval normalizing section 110 replaces each horizontal ruled line interval with a ratio to a reference horizontal ruled line interval. Specifically, the reference horizontal ruled line interval is replaced with the value specified by the parameter intv111 (reference ruled line interval value), and the rounding result of the horizontal ruled line interval number m is rounded by the specified value of intv × horizontal ruled line interval number m. Result / reference horizontal ruled line interval value Normalized by (1).
【0022】入力書式情報作成部112は、横罫線間隔
正規化部110より得られた横罫線間隔正規化値に基づ
いて書式情報を作成する。登録書式情報・入力書式情報
一致判定部113は、帳票読み取り時の入力イメージデ
ータが登録書式情報蓄積部101内の登録書式情報中の
どの書式と一致するかを判断する。The input format information creation unit 112 determines the horizontal ruled line interval
Format information is created based on the horizontal ruled line interval normalized value obtained by the normalizing unit 110. The registration format information / input format information match determination unit 113 determines which format in the registration format information in the registration format information storage unit 101 matches the input image data when the form is read.
【0023】登録書式情報作成部201は、横罫線間隔
正規化処理部110で作成した横罫線間隔正規化値を登
録書式情報として登録書式情報蓄積部101に登録す
る。次に、帳票書式識別時に参照する登録書式情報作成
方法について説明する。本実施例では、基準となる罫線
間隔を最も分布の多い罫線間隔とする。その理由は、特
定の2本の罫線間隔とすると、ファクシミリ装置の特性
やかすれ等により罫線の増減が生じ、正確な罫線間隔が
得られない場合も発生し、最も分布の多い罫線間隔とす
れば、安定して基準罫線間隔が得られる。The registration format information creation unit 201 registers the normalized horizontal ruled line interval value created by the horizontal ruled line interval normalization processing unit 110 in the registered format information storage unit 101 as registered format information. Next, a description will be given of a registration format information creation method referred to when identifying a form format. In this embodiment, the ruled line interval serving as a reference is set to the ruled line interval having the largest distribution. The reason is that if the interval between two specific ruled lines is set, the number of ruled lines may increase or decrease due to the characteristics of the facsimile machine or blurring, and an accurate ruled line interval may not be obtained. Thus, the standard ruled line interval can be stably obtained.
【0024】図4は、本発明の一実施例の登録書式情報
作成時の動作を示すフローチャートである。 ステップ101) まず、登録書式情報蓄積部101に
登録するための登録用イメージデータが入力される。 ステップ102) イメージデータ傾斜補正部102
は、入力された登録用イメージデータの傾斜角度を判断
して、傾斜がある場合には、当該傾斜を補正する。詳細
な方法は、前述した特願平6−249201等を用いる
ものとする。FIG. 4 is a flow chart showing the operation at the time of creating the registration form information according to one embodiment of the present invention. Step 101) First, registration image data to be registered in the registration format information storage unit 101 is input. Step 102) Image data inclination correction unit 102
Determines the inclination angle of the input image data for registration, and corrects the inclination when there is an inclination. A detailed method uses the above-mentioned Japanese Patent Application No. Hei 6-249201 or the like.
【0025】ステップ103) 横罫線黒画素カウント
対象連続量であるパラメータyconをX軸方向黒画素
分布取得部103に投入する。 ステップ104) X軸方向黒画素分布取得部103
は、投入されたパラメータyconに基づいて登録帳票
イメージデータのX方向の黒画素分布を取得してパラメ
ータ値以上の連続した黒画素量を積算する。Step 103) The parameter ycon, which is the continuous amount of the horizontal ruled line black pixel count, is input to the X-axis direction black pixel distribution acquisition unit 103. Step 104) X-axis direction black pixel distribution acquisition unit 103
Obtains a black pixel distribution in the X direction of the registered form image data based on the input parameter ycon, and integrates a continuous black pixel amount equal to or larger than the parameter value.
【0026】ステップ105) 横罫線成立ドッド数の
パラメータybdrを横罫線検出部105に投入する。 ステップ106) 横罫線検出部105は、ステップ1
04で積算したX軸方向の黒画素量がパラメータybd
r以上のもののみを横罫線とする。なお、横罫線が太線
の場合には、Y軸方向に複数のアドレスを有するが、そ
の場合には連続している範囲を1横罫線とし、Yアドレ
スはその中心とする。 ステップ107) 横罫線間隔算出部107が、横罫線
検出部105によりステップ106で検出された各横罫
線の間隔を求める。Step 105) A parameter ybdr for the number of dots for which the horizontal ruled line is established is input to the horizontal ruled line detection unit 105. Step 106) The horizontal ruled line detection unit 105 determines in step 1
The amount of black pixels in the X-axis direction integrated at 04 is the parameter ybd
Only those that are greater than or equal to r are horizontal ruled lines. When the horizontal ruled line is a thick line, a plurality of addresses are provided in the Y-axis direction. In this case, a continuous range is defined as one horizontal ruled line, and the Y address is set at the center. Step 107) The horizontal ruled line interval calculation unit 107 obtains the interval between each horizontal ruled line detected by the horizontal ruled line detection unit 105 in step 106.
【0027】ステップ108) 横罫線間隔まるめ部1
0が、イメージデータの多少のずれを許容するための横
罫線間隔算出部107の結果を四捨五入する。 ステップ109) 基準横罫線間隔取得部109は、ス
テップ108で四捨五入された横罫線間隔を参照して、
分布の最も多い横罫線間隔を求める。Step 108) Horizontal ruled line interval rounding section 1
0 rounds off the result of the horizontal ruled line interval calculation unit 107 for allowing some deviation of the image data. Step 109) The reference horizontal ruled line interval acquisition unit 109 refers to the horizontal ruled line interval rounded off in step 108, and
Find the horizontal ruled line interval with the largest distribution.
【0028】ステップ110) 基準罫線間隔値のパラ
メータintvを横罫線間隔正規化部110に投入す
る。 ステップ111) 横罫線間隔正規化部110は、各横
罫線間隔をパラメータinfvで与えられた基準横罫線
間隔との比率で置き換える。Step 110) The parameter intv of the reference ruled line interval value is input to the horizontal ruled line interval normalizing section 110. Step 111) The horizontal ruled line interval normalizing unit 110 replaces each horizontal ruled line interval with a ratio to the reference horizontal ruled line interval given by the parameter infv.
【0029】ステップ112) 登録書式情報作成部2
01は、横罫線間隔正規化部110で生成した横罫線間
隔正規化値を登録書式情報蓄積部101に登録する。 ステップ113) ここで、登録帳票イメージデータに
対する処理が全て完了したか否かの判定処理を行う。こ
こで、未処理の登録帳票イメージデータが存在すれば、
ステップ102に移行し、全ての登録帳票イメージデー
タについて登録書式が登録された場合には処理を終了す
る。Step 112) Registration form information creating section 2
In step 01, the horizontal ruled line interval normalized value generated by the horizontal ruled line interval normalizing unit 110 is registered in the registration format information storage unit 101. Step 113) Here, it is determined whether or not all the processes for the registered form image data have been completed. Here, if there is unprocessed registration form image data,
The process proceeds to step 102, and if the registration format has been registered for all the registered form image data, the process ends.
【0030】図5は、本発明の一実施例の登録用イメー
ジデータの登録処理を説明するための図(その1)であ
る。同図において、「御見積書」という登録イメージデ
ータA301があり、当該登録イメージデータの横罫線
302のy1〜y9は、X軸方向黒画素分布取得部10
3によりX軸方向の黒画素分布を取り、横罫線検出部1
05により検出された横罫線である。登録イメージデー
タの横罫線302中のy1=140やy2=200は帳
票の上端を0としたときのY座標である。テーブル30
3は、横罫線間隔番号mに対する横罫線間隔値、横罫線
間隔まるめ値、及び横罫線間隔正規化値であり、各値
は、以下の手順で求める。FIG. 5 is a diagram (part 1) for explaining the registration processing of the registration image data according to the embodiment of the present invention. In the figure, there is registered image data A301 called “Estimate”, and y1 to y9 of the horizontal ruled line 302 of the registered image data are the X-axis direction black pixel distribution acquisition unit 10
3 to obtain the distribution of black pixels in the X-axis direction,
This is a horizontal ruled line detected by reference numeral 05. Y1 = 140 and y2 = 200 in the horizontal ruled line 302 of the registered image data are Y coordinates when the upper end of the form is set to 0. Table 30
Reference numeral 3 denotes a horizontal ruled line interval value, a horizontal ruled line rounding value, and a horizontal ruled line interval normalized value for the horizontal ruled line interval number m, and each value is obtained by the following procedure.
【0031】横罫線間隔番号mは、横罫線mと(m+
1)の間隔を意味する。横罫線間隔値は、横罫線間隔算
出部107により、 y(m+1) − y(m) によりY座標の差を算出する。さらに、横罫線間隔まる
め値は、横罫線間隔まるめ処理部108により横罫線間
隔値を四捨五入して求める。ここで、基準横罫線間隔取
得部109により横罫線間隔分布を求めると、登録イメ
ージデータ301では、まるめ処理結果から60が6
個、20が1個、40が1個であり、最も分布の多い間
隔値は60となる。The horizontal ruled line interval number m is defined by the horizontal ruled line m and (m +
It means the interval of 1). The horizontal ruled line interval value is calculated by the horizontal ruled line interval calculating unit 107 to calculate the difference between the Y coordinates using y (m + 1) −y (m) . Further, the horizontal ruled line interval rounding value is obtained by rounding the horizontal ruled line interval value by the horizontal ruled line interval rounding processing unit 108. Here, when the horizontal ruled line interval distribution is obtained by the reference horizontal ruled line interval obtaining unit 109, 60 is obtained from the rounding processing result by 60 in the registered image data 301.
, 20 is one, and 40 is one, and the interval value with the largest distribution is 60.
【0032】次に、登録書式テーブル303を作成す
る。横罫線間隔正規化部110でまるめ処理結果を上記
の式(1)により正規化する。基準罫線間隔値のパラメ
ータの値をintv=1000としたとき、横罫線間隔
番号1は、 1000×60/60=1000 、横罫線間隔番号2は、 1000×20/60=333 となる。これらの値を、登録書式テーブル303に設定
する。Next, a registration format table 303 is created. The horizontal ruled line interval normalizing unit 110 normalizes the rounding result by the above equation (1). When the parameter value of the reference ruled line interval value is intv = 1000, the horizontal ruled line interval number 1 is 1000 × 60/60 = 1000, and the horizontal ruled line interval number 2 is 1000 × 20/60 = 333. These values are set in the registration format table 303.
【0033】さらに、他の登録イメージデータについて
説明する。図6は、本発明の一実施例の登録イメージデ
ータの登録処理を説明するための図(その2)である。
同図において、「商品送付先リスト」という登録イメー
ジデータB401があり、当該登録イメージデータの横
罫線402のy1〜y6は、X軸方向黒画素分布取得部
103によりX軸方向の黒画素分布を取り、横罫線検出
部105により検出された横罫線である。登録イメージ
データの横罫線302中のy1=139やy2=200
は帳票の上端を0としたときのY座標である。テーブル
303は、横罫線間隔番号mに対する横罫線間隔値、横
罫線間隔まるめ値、及び横罫線間隔正規化値であり、各
値は、上記図5で示した手順と同様の方法で求める。Next, other registered image data will be described. FIG. 6 is a diagram (part 2) for explaining the registration processing of the registered image data according to the embodiment of the present invention.
In the figure, there is registered image data B401 called “product destination list”, and y1 to y6 of the horizontal ruled line 402 of the registered image data indicate black pixel distribution in the X axis direction by the X axis direction black pixel distribution acquisition unit 103. The horizontal ruled line detected by the horizontal ruled line detection unit 105. Y1 = 139 or y2 = 200 in the horizontal ruled line 302 of the registered image data
Is the Y coordinate when the upper end of the form is set to 0. The table 303 includes a horizontal ruled line interval value, a horizontal ruled line rounding value, and a horizontal ruled line interval normalized value for the horizontal ruled line interval number m, and each value is obtained by the same method as the procedure shown in FIG.
【0034】図7は、本発明の一実施例の登録書式情報
蓄積部の登録書式情報の例を示す。同図に示す内容は、
上記の図5及び図6の登録イメージデータA,Bの横罫
線間隔正規化値を各罫線毎に登録している例である。次
に、入力された帳票イメージデータを認識する動作を説
明する。FIG. 7 shows an example of registration format information in the registration format information storage unit according to one embodiment of the present invention. The contents shown in the figure are
This is an example in which the horizontal ruled line interval normalized values of the registered image data A and B in FIGS. 5 and 6 are registered for each ruled line. Next, an operation of recognizing the input form image data will be described.
【0035】図8は、本発明の一実施例の帳票書式の識
別動作のフローチャートである。以下の処理において、
上記の図7に示すような登録書式情報が登録書式情報蓄
積部101に予め登録されているものとする。 ステップ201) 帳票イメージデータ200が書式識
別装置100に入力され、当該帳票イメージデータを読
み込む。FIG. 8 is a flowchart of the operation for identifying a form format according to one embodiment of the present invention. In the following process,
It is assumed that the registration format information as shown in FIG. 7 is registered in the registration format information storage unit 101 in advance. Step 201) The form image data 200 is input to the format identification device 100, and the form image data is read.
【0036】ステップ202) イメージデータ傾斜補
正部102が入力された帳票イメージデータの傾斜を補
正する。 ステップ203) X軸方向黒画素分布取得部103に
より、横罫線黒画素カウント対象連続量に基づいて帳票
イメージデータのX軸方向の黒画素分布を取得する。Step 202) The image data inclination correction section 102 corrects the inclination of the input form image data. Step 203) The X-axis direction black pixel distribution acquisition unit 103 acquires the X-axis direction black pixel distribution of the form image data based on the horizontal ruled line black pixel count continuation amount.
【0037】ステップ204) 横罫線検出部105に
より所定の横罫線成立ドッド数以上のドッド数を有する
横罫線を検出する。 ステップ205) 横罫線間隔算出部107により、ス
テップ204で求められた複数の横罫線間の間隔を求め
る。Step 204) The horizontal ruled line detection unit 105 detects a horizontal ruled line having a number of dots equal to or greater than the predetermined number of established horizontal ruled lines. Step 205) The horizontal ruled line interval calculating unit 107 obtains an interval between the plurality of horizontal ruled lines obtained in Step 204.
【0038】ステップ206) 横罫線まるめ処理部1
08により、ステップ205で求められた横罫線間の間
隔の端数を四捨五入する。 ステップ207) 基準罫線間隔取得部109により、
ステップ206で求められた横罫線間隔値を参照して、
分布の最も多い横罫線間隔を求める。Step 206) Horizontal ruled line rounding processing section 1
In step 08, the fraction of the interval between the horizontal ruled lines obtained in step 205 is rounded off. Step 207) The reference ruled line interval acquisition unit 109
Referring to the horizontal ruled line interval value obtained in step 206,
Find the horizontal ruled line interval with the largest distribution.
【0039】ステップ208) 横罫線間隔正規化部1
10は、所定の基準罫線間隔値に基づいて横罫線間隔を
基準横罫線間隔との比率に置き換える。 ステップ209) 入力イメージデータの横罫線間隔正
規化値を生成し、入力書式情報とする。Step 208) Horizontal ruled line interval normalizing section 1
Reference numeral 10 replaces the horizontal ruled line interval with a ratio to the reference horizontal ruled line interval based on a predetermined reference ruled line interval value. Step 209) A normalized value of the horizontal ruled line interval of the input image data is generated and used as input format information.
【0040】ステップ210) 登録書式情報を登録書
式情報蓄積部101より読み込む。 ステップ211) 登録書式情報蓄積部101内の横罫
線間隔の正規化値と上記のステップ208で算出された
入力イメージデータの横罫線間隔の値とを照合し、どの
登録書式と一致するかを判定する。ここで、該当する登
録書式が無い場合にはステップ213に移行し、合致す
る登録書式がある場合にはステップ212に移行する。
本ステップの詳細な動作は、図9で説明する。Step 210) The registration format information is read from the registration format information storage unit 101. Step 211) The normalized value of the horizontal ruled line interval in the registration format information storage unit 101 is compared with the value of the horizontal ruled line interval of the input image data calculated in step 208 to determine which registered format matches. I do. Here, if there is no corresponding registration format, the process proceeds to step 213. If there is a matching registration format, the process proceeds to step 212.
The detailed operation of this step will be described with reference to FIG.
【0041】ステップ212) 入力イメージデータを
登録書式に基づいて認識処理を行う。 ステップ213) 該当する登録書式がないため、当該
入力イメージデータをリジェクトする。Step 212) A recognition process is performed on the input image data based on the registration format. Step 213) Since there is no corresponding registration format, the input image data is rejected.
【0042】図9は、本発明の一実施例の登録書式情報
と入力書式情報の比較方法を示すフローチャートであ
る。以下の各処理は、上記のステップ211の処理に対
応する。 ステップ301) 登録書式情報蓄積部101の登録書
式番号を初期設定する。即ち、登録書式番号を昇順に照
合していくため、登録書式番号n=1とする。FIG. 9 is a flowchart showing a method for comparing registered format information and input format information according to one embodiment of the present invention. The following processes correspond to the process of step 211 described above. Step 301) The registration format number of the registration format information storage unit 101 is initialized. That is, the registered format numbers are set to n = 1 to collate the registered format numbers in ascending order.
【0043】ステップ302) 登録書式情報中の書式
n番号と入力書式の横罫線間隔一致数用カウンタを初期
設定する(=0)。 ステップ303) 登録書式情報中の書式n番の横罫線
間隔参照用カウンタを初期設定する(p=0)。Step 302) Initialize the counter for the number of coincidences of the horizontal ruled line interval in the format n number and the input format in the registered format information (= 0). Step 303) Initially set a counter for referring to the horizontal ruled line interval of the format n in the registered format information (p = 0).
【0044】ステップ304) 入力書式情報中の書式
n番の横罫線間隔参照用カウンタを初期設定する(q=
0)。 ステップ305) 登録書式情報のカウンタを1インク
リメントする(p=p+1)。Step 304) Initially sets a counter for referring to the horizontal ruled line interval of the format n in the input format information (q =
0). Step 305) Increment the counter of the registration format information by one (p = p + 1).
【0045】ステップ306) 入力書式情報のカウン
タを1インクリメントする(q=q+1)。 ステップ307) 所定の横罫線間隔比率幅をパラメー
タywidとして入力し、横罫線間隔比較処理を行う。
登録書式情報中の書式n番の横罫線間隔p番目の情報
と、入力書式情報の横罫線間隔q番目が等しいか比較す
る。このとき、入力されたパラメータywidの値以内
の誤差がある場合には、許容するものとする。これは、
前述の横罫線間隔まるめ処理部108において、1ドッ
ト差で1の位が切上げまたは切捨てられ、まるめ処理結
果が異なってしまうケースを救済するための処理であ
る。この比較処理において、一致する情報がある場合に
は、ステップ308に移行し、一致する情報が登録書式
情報中にない場合にはステップ309に移行する。Step 306) The counter of the input format information is incremented by 1 (q = q + 1). Step 307) A predetermined horizontal ruled line interval ratio width is input as a parameter ywid, and a horizontal ruled line interval comparison process is performed.
The information of the p-th horizontal ruled line interval of the format n in the registered format information is compared with the q-th horizontal ruled line interval of the input format information. At this time, if there is an error within the value of the input parameter ywid, it is allowed. this is,
This is a process for relieving a case where the above-described horizontal ruled line interval rounding processing unit 108 rounds up or down one place by one dot difference, resulting in a different rounding processing result. In this comparison processing, if there is matching information, the process proceeds to step 308, and if there is no matching information in the registered format information, the process proceeds to step 309.
【0046】ステップ308) 一致間隔数をインクリ
メントして、ステップ309に移行する。 ステップ309) 登録書式情報中の書式n番の横罫線
間隔、または、入力書式情報の横罫線間隔を全て参照し
たかを判定し、参照されていないものがあれば、ステッ
プ305に移行する。またどちらか一方の全てが参照さ
れていればステップ310の処理に移行する。Step 308) The number of matching intervals is incremented, and the routine goes to Step 309. Step 309) It is determined whether or not the horizontal ruled line interval of the format n in the registered format information or the horizontal ruled line interval of the input format information has been completely referenced. If all of them are referenced, the process proceeds to step 310.
【0047】ステップ310) 登録書式情報中の書式
nに対する間隔一致数を記憶する。 ステップ311) 登録書式情報の書式番号をインクリ
メントし、n=n+1とする。 ステップ312) 書式番号が登録書式数に達したかを
判定し、n≦登録書式情報中の書式数であれば、次の登
録書式の横罫線間隔との比較を行うため、ステップ30
2に移行する。n>登録書式情報中の書式数であれば、
ステップ313に移行する。Step 310) The number of interval matches for the format n in the registered format information is stored. Step 311) The format number of the registered format information is incremented to make n = n + 1. Step 312) It is determined whether the format number has reached the number of registered formats, and if n ≦ the number of formats in the registered format information, a comparison is made with the horizontal ruled line interval of the next registered format.
Move to 2. If n> the number of formats in the registered format information,
Move to step 313.
【0048】ステップ313) 間隔一致数最大の得点
とその書式番号を把握する。即ち、各登録帳票に対する
一致間隔数を参照し、最大一致間隔数とその書式番号を
把握する。 ステップ314) 登録書式判定処理として、一致間隔
数の登録書式番号の横罫線間隔数に対する割合と、一致
間隔数の入力書式情報の横罫線間隔数に対する割合を求
め、それらの値がパラメータscrで入力される該当書
式定義情報決定率以上であれば、登録書式であり、当該
登録書式を認識処理で使用する該当書式情報とする。ま
た、書式定義情報決定率以下であれば、未登録書式と判
定する。なお、一致間隔数の登録書式番号の横罫線間隔
数に対する割合と一致間隔数の入力書式情報の横罫線間
隔数に対する割合を求めるのは、以下の理由による。例
えば、登録書式情報中の一書式の上位半分のレイアウト
と一致する帳票イメージデータが入力された場合、一致
間隔数と入力書式情報のみに着目すると100%一致す
るが、一致間隔数と登録書式情報に着目すると50%し
か一致していないにも関わらず、登録書式として認識さ
れるのを防止するためである。Step 313) The score with the maximum number of interval matches and its format number are ascertained. That is, the number of matching intervals for each registered form is referred to, and the maximum number of matching intervals and its format number are grasped. Step 314) As the registration format determination processing, the ratio of the number of matching intervals to the number of horizontal ruled lines in the registration format number and the ratio of the number of matching intervals to the number of horizontal ruled lines in the input format information are obtained, and these values are input by the parameter scr. If the corresponding format definition information determination rate is equal to or higher than the corresponding format definition information, the registered format is used as the corresponding format information to be used in the recognition process. If it is not more than the format definition information determination rate, it is determined to be an unregistered format. The ratio of the number of matching intervals to the number of horizontal ruled lines in the registered format number and the ratio of the number of matching intervals to the number of horizontal ruled lines in the input format information are determined for the following reasons. For example, if form image data that matches the layout of the upper half of one format in the registration format information is input, 100% matches when focusing only on the number of matching intervals and the input format information. This is to prevent recognition as a registration format even if only 50% match.
【0049】次に、本発明の一連の処理を具体例を用い
て説明する。図10は、本発明の一実施例の具体例を説
明するための図(入力イメージデータ・入力書式情報)
である。「御見積書」という入力イメージデータ701
が入力される。当該入力データ701のX軸方向黒画素
分布取得部103によりX軸方向の黒画素分布を取得
し、さらに、横罫線検出部105により横罫線702が
検出される。入力イメージデータ701は、図5に示す
登録データA301と同形式の帳票ではあるが、横罫線
302と702を比較すると明らかなように、横罫線の
値をみるとY軸方向に縮小されている。以下、上記のデ
ータを横罫線間隔算出部107、横罫線間隔まるめ処理
部108、基準横罫線間隔取得部109及び横罫線間隔
正規化部110で順次処理し、基準横罫間隔値における
比率で拡大された罫線間隔となったデータを入力書式情
報作成部112に入力し、入力書式テーブル703を作
成し、図11に示す入力書式情報801が作成される。Next, a series of processes of the present invention will be described using a specific example. FIG. 10 is a view for explaining a specific example of one embodiment of the present invention (input image data / input format information).
It is. Input image data 701 "Estimate"
Is entered. The X-axis direction black pixel distribution acquisition unit 103 of the input data 701 acquires the X-axis direction black pixel distribution, and the horizontal ruled line detection unit 105 detects the horizontal ruled line 702. The input image data 701 is a form in the same format as the registration data A301 shown in FIG. 5, but as apparent from a comparison between the horizontal ruled lines 302 and 702, the values of the horizontal ruled lines are reduced in the Y-axis direction. . Hereinafter, the above data is sequentially processed by the horizontal ruled line interval calculating unit 107, the horizontal ruled line interval rounding processing unit 108, the reference horizontal ruled line interval acquiring unit 109, and the horizontal ruled line interval normalizing unit 110, and is enlarged by the ratio in the reference horizontal ruled line interval value. The data having the ruled line interval is input to the input format information creation unit 112, and an input format table 703 is created, and input format information 801 shown in FIG. 11 is created.
【0050】次に、図7と図11を参照し、入力書式情
報が登録書式情報中のどの書式かを識別する動作につい
て説明する。 (1) 図9に示すフローチャートのステップ301に
おいて、n=1とし、登録書式情報501の登録イメー
ジデータAの情報と入力書式情報801の比較を行う。Next, referring to FIGS. 7 and 11, an operation for identifying which format in the registered format information the input format information is will be described. (1) In step 301 of the flowchart shown in FIG. 9, n = 1 is set, and the information of the registered image data A of the registered format information 501 and the input format information 801 are compared.
【0051】(2) ステップ302からステップ30
6を実行し、ステップ307で最初の横罫線間隔を比較
する。この場合、横罫線間隔が等しい(1000)の
で、ステップ308で一致間隔数をインクリメントし、
ステップ309を行い、次に、ステップ305へと移行
する。(2) Steps 302 to 30
6 is executed, and in step 307, the first horizontal ruled line interval is compared. In this case, since the horizontal ruled line intervals are equal (1000), the number of matching intervals is incremented in step 308, and
Step 309 is performed, and then the process proceeds to step 305.
【0052】(3) 以下、p=q=8まで比較動作が
繰り返され、ステップ310で登録イメージデータAに
対する一致間隔数=8が記憶される。 (4) 次に、ステップ311でn=2となり、ステッ
プ312からステップ302に移行し、登録書式情報5
01の登録イメージデータBと入力書式情報801の比
較が行われる。(3) Thereafter, the comparison operation is repeated until p = q = 8, and at step 310, the number of matching intervals for the registered image data A = 8 is stored. (4) Next, in step 311, n = 2, and the process proceeds from step 312 to step 302, where the registration format information 5
01 is compared with the input format information 801.
【0053】(5) ステップ302からステップ30
6に順次移行されステップ307で最初の横罫線間隔を
比較する。最初の横罫線間隔(1000)は等しいの
で、ステップ308で一致間隔数がインクリメントさ
れ、ステップ309からステップ305に移行し、カウ
ンタのイクリメントを行う。(5) Steps 302 to 30
Then, the process proceeds to step 307, where the first horizontal ruled line interval is compared at step 307. Since the first horizontal ruled line intervals (1000) are equal, the number of matching intervals is incremented in step 308, and the process proceeds from step 309 to step 305, where the counter is incremented.
【0054】(6)ステップ307で、次の横罫線間隔
(入力書式情報=333、登録初期情報=1000)が
比較されるが、一致せず、ステップ310で登録イメー
ジデータBに対する一致間隔数=1が記憶される。 (7) ステップ311で登録書式情報中の第3の登録
イメージデータCとの比較準備が行われるが、図7に示
すように、登録イメージデータCが存在せず、ステップ
312でステップ313に移行する。(6) In step 307, the next horizontal ruled line interval (input format information = 333, registration initial information = 1000) is compared, but they do not match. In step 310, the number of matching intervals for registered image data B = 1 is stored. (7) In step 311, comparison preparation with the third registered image data C in the registered format information is performed. However, as shown in FIG. 7, there is no registered image data C, and the process proceeds to step 313 in step 312. I do.
【0055】(8) ステップ313では、入力イメー
ジデータと登録書式情報の登録イメージデータAとの間
隔一致数が8、登録イメージデータBとの間隔一致数が
1であることから、登録イメージデータAを該当書式候
補とする。 (9) ステップ314で、該当書式定義情報決定率が
パラメータにより指定された値以上かを判定する。例え
ば、scr=0.9であるとすれば、 一致間隔数/登録イメージデータAの横罫線間隔数=8/8=1 一致間隔数/入力イメージデータの横罫線間隔数=8/8=1 となり、共にscrの値以上であるので、入力イメージ
データの書式は登録書式情報蓄積部101の登録イメー
ジデータAの書式であると判定する。(8) In step 313, since the number of interval matches between the input image data and the registered image data A of the registration format information is 8 and the number of interval matches between the registered image data B is 1, the registered image data A Is the applicable format candidate. (9) In step 314, it is determined whether the format definition information determination rate is equal to or greater than the value specified by the parameter. For example, if scr = 0.9, the number of matching intervals / the number of horizontal ruled lines in the registered image data A = 8/8 = 1 The number of matching intervals / the number of horizontal ruled lines in the input image data = 8/8 = 1 Since both are equal to or greater than the value of scr, it is determined that the format of the input image data is the format of the registered image data A of the registered format information storage unit 101.
【0056】なお、図9に示すフローチャートにおい
て、ステップ307で登録書式情報中の書式n番の横罫
線間隔p番目と、入力書式情報の罫線間隔q番目が等し
いかの比較を行い、等しくなければ、ステップ310の
処理へスキップしているが、他の方法として、図12に
示す処理に継続する方法もある。つまり、登録書式情報
あるいは、入力書式情報の横罫線が、ファクシミリ送信
時にかすれにより失われるか、または、ファクシミリ装
置の特性等により、追加されてしまうことを考慮しての
処理であり、横罫線が2本以上の増減がある場合には、
全体的に悪質なイメージデータ品質と推定し、未知書式
として処理するが、1本の増減の場合には、継続して処
理を行う。In the flowchart shown in FIG. 9, at step 307, a comparison is made as to whether the p-th horizontal ruled line interval of the format n in the registered format information and the q-th ruled line interval of the input format information are equal. , Is skipped to the processing of step 310, but there is another method of continuing the processing shown in FIG. That is, the horizontal ruled line of the registered format information or the input format information is a process taking into account that the horizontal ruled line is lost due to fading at the time of facsimile transmission, or added due to the characteristics of the facsimile apparatus. If there is more than one change,
It is estimated that the quality of the image data is bad as a whole, and the data is processed as an unknown format.
【0057】図12は、本発明の一実施例の横罫線間隔
比較方法の拡張機能による処理を示すフローチャートで
ある。 ステップ401) ステップ307から継続して、横罫
線間隔の大小比較を行う。登録書式情報側の横罫線間隔
が入力書式情報側の横罫線間隔より大きいかを判定し、
大きい場合には、ステップ402に移行し、小さい場合
には、ステップ404に移行する。FIG. 12 is a flowchart showing processing by the extended function of the horizontal ruled line interval comparison method according to one embodiment of the present invention. Step 401) Continuing from step 307, a comparison is made between horizontal ruled line intervals. Judge whether the horizontal ruled line interval on the registered format information side is larger than the horizontal ruled line interval on the input format information side,
If it is larger, the process proceeds to step 402. If it is smaller, the process proceeds to step 404.
【0058】ステップ402) 登録書式情報の書式n
番用の横罫線間隔参照用カウンタPをインクリメントす
る。これにより、登録書式情報側に失われた罫線があっ
たかを判断できる。 ステップ403) 入力書式情報の横罫線間隔参照用カ
ウンタqを2を加える。これにより、入力書式情報側に
追加された罫線があったかを判断できる。ステップ40
6に移行する。Step 402) Format n of registration format information
The counter P for counting the number of horizontal ruled lines is incremented. As a result, it is possible to determine whether there is a ruled line lost on the registered format information side. Step 403) Add 2 to the horizontal ruled line interval reference counter q of the input format information. This makes it possible to determine whether or not there is a ruled line added to the input format information. Step 40
Move to 6.
【0059】ステップ404) 登録書式情報側の横罫
線間隔が入力書式情報側の横罫線間隔より小さい場合
は、登録書式情報側の横罫線間隔参照用カウンタpに2
を加える。 ステップ405) 入力書式情報側の横罫線間隔参照用
カウンタqに1をくわえ、ステップ406に移行する。Step 404) If the horizontal ruled line interval on the registered format information side is smaller than the horizontal ruled line interval on the input format information side, 2 is added to the horizontal ruled line interval reference counter p on the registered format information side.
Add. Step 405) Add 1 to the horizontal ruled line interval reference counter q on the input format information side, and proceed to step 406.
【0060】ステップ406) 本ステップは、図9の
ステップ307と同様に、登録書式情報中の書式n番の
横罫線間隔p番目と、入力書式定義側の横罫線間隔q番
目が等しいのか比較し、パラメータywid(横罫線間
隔比較幅)で示される許容値を持たせて比較を行う。こ
れは、ステップ307と同様に、横罫線間隔まるめ処理
部108の処理で1ドット差で切上げ、あるいは、切捨
てられ、まるめ処理結果が異なってしまうケースを救済
するための処理である。本ステップの比較結果が等しけ
れば、ステップ308の処理に移行し、等しくなけれ
ば、2本以上の罫線の増減があると判断して、それ移行
の罫線間隔の比較を中断し、ステップ310に移行す
る。Step 406) In this step, as in step 307 in FIG. 9, the p-th horizontal ruled line interval of the format n in the registered format information is compared with the q-th horizontal ruled line interval on the input format definition side. The comparison is performed with an allowable value indicated by a parameter ywid (horizontal ruled line interval comparison width). As in step 307, this is a process for relieving a case in which the horizontal ruled line interval rounding processing unit 108 rounds up or down by one dot in the processing of the horizontal ruled line rounding processing unit 108, resulting in a different rounding processing result. If the comparison results in this step are equal, the process proceeds to step 308; otherwise, it is determined that there is an increase or decrease in two or more ruled lines. I do.
【0061】上記の実施例では、横罫線間隔の比較のみ
で帳票読み取り時の入力イメージデータが登録書式情報
中のどの書式かを決定しているが、登録書式数が多い、
あるいは、似通った書式がある場合には、縦罫線間隔も
正規化して比較する方法も存在する。In the above embodiment, the format of the input image data at the time of form reading in the registered format information is determined only by comparing the horizontal ruled line interval.
Alternatively, when there is a similar format, there is also a method of normalizing the vertical ruled line interval and performing comparison.
【0062】なお、本発明は、上記の実施例に限定され
ることなく、特許請求の範囲内で種々、変更・応用が可
能である。The present invention is not limited to the above embodiment, but can be variously modified and applied within the scope of the claims.
【0063】[0063]
【発明の効果】上述のように、本発明の帳票書式識別方
法及び装置によれば、以下のような効果を奏する。 (1) 従来、複数種類の帳票を対象とする文字読み取
り装置では、帳票の特定位置に記号やマークを印刷ある
いは記入する等して、どの帳票かを識別していたが、本
発明では、横罫線間隔を比較することにより、書式識別
を行うので、記号やマークが不要となり、帳票レイアウ
ト上の制限や記入者からみての違和感がなくなる。As described above, according to the form format identification method and apparatus of the present invention, the following effects can be obtained. (1) Conventionally, in a character reading apparatus for a plurality of types of forms, a form or a mark is printed or written at a specific position of the form to identify which form. Since the format identification is performed by comparing the ruled line intervals, symbols and marks are not required, and restrictions on the form layout and uncomfortable feeling from the entry person are eliminated.
【0064】(2) 登録書式情報作成時に使用したイ
メージデータの横罫線間隔と、帳票読み取り時の入力イ
メージデータの横罫線間隔を正規化して比較しているの
で、ファクシミリ装置の特性等により発生する入力イメ
ージデータ、あるいは、拡大/縮小コピー時に発生する
イメージデータの一様伸縮が存在しても書式識別が可能
である。(2) Since the horizontal ruled line interval of the image data used at the time of creating the registration format information and the horizontal ruled line interval of the input image data at the time of reading the form are normalized and compared, it occurs due to the characteristics of the facsimile apparatus. Even if there is uniform expansion / contraction of input image data or image data generated at the time of enlargement / reduction copy, format identification is possible.
【0065】(3) また、登録書式情報作成時に、使
用したイメージデータの横罫線間隔と、帳票読み取り時
の入力イメージデータの横罫線間隔を正規化して比較し
ているので、ファクシミリ送信元情報を原稿内とするか
原稿外とするかにより発生する横罫線の絶対アドレスの
相違が存在しても書式識別が可能になるという顕著な効
果を奏する。(3) Since the horizontal rule interval of the used image data and the horizontal rule interval of the input image data at the time of reading the form are normalized and compared at the time of creating the registration format information, the facsimile transmission source information is Even if there is a difference in the absolute address of the horizontal ruled line generated depending on whether the document is inside or outside the document, there is a remarkable effect that format identification becomes possible.
【図1】本発明の原理を説明するための図である。FIG. 1 is a diagram for explaining the principle of the present invention.
【図2】本発明の原理構成図である。FIG. 2 is a principle configuration diagram of the present invention.
【図3】本発明の一実施例の帳票書式識別装置の構成図
である。FIG. 3 is a configuration diagram of a form format identification device according to an embodiment of the present invention.
【図4】本発明の一実施例の登録書式情報作成時の動作
を示すフローチャートである。FIG. 4 is a flowchart showing an operation when creating registration form information according to an embodiment of the present invention.
【図5】本発明の一実施例の登録用イメージデータの登
録処理を説明するための図(その1)である。FIG. 5 is a diagram (part 1) for describing a registration process of registration image data according to an embodiment of the present invention;
【図6】本発明の一実施例の登録用イメージデータの登
録処理を説明するための図(その2)である。FIG. 6 is a diagram (part 2) for describing a registration process of registration image data according to an embodiment of the present invention;
【図7】本発明の一実施例の登録書式情報蓄積部の登録
書式情報の例を示す図である。FIG. 7 is a diagram illustrating an example of registered format information of a registered format information storage unit according to an embodiment of the present invention.
【図8】本発明の一実施例の帳票書式の識別動作のフロ
ーチャートである。FIG. 8 is a flowchart of a form format identification operation according to an embodiment of the present invention.
【図9】本発明の一実施例の登録書式情報と入力書式情
報の比較方法を示すフローチャートである。FIG. 9 is a flowchart illustrating a method of comparing registered format information and input format information according to an embodiment of the present invention.
【図10】本発明の一実施例の具体例を説明するための
図(入力イメージデータ・入力書式テーブル)である。FIG. 10 is a diagram (input image data / input format table) for describing a specific example of one embodiment of the present invention.
【図11】本発明の一実施例の入力書式情報を示す図で
ある。FIG. 11 is a diagram showing input format information according to an embodiment of the present invention.
【図12】本発明の一実施例の横罫線間隔比較方法の拡
張機能による処理を示す図である。FIG. 12 is a diagram showing processing by an extended function of the horizontal ruled line interval comparison method according to one embodiment of the present invention.
10 書式登録手段 20 入力書式情報 30 書式識別手段 101 登録書式情報蓄積部 102 イメージデータ傾斜補正部 103 X軸方向黒画素分布取得部 105 横罫線検出部 107 横罫線間隔算出部 108 横罫線間隔まるめ処理部 109 基準横罫線間隔取得部 110 横罫線間隔正規化部 112 入力書式情報作成部 113 登録書式情報・入力書式情報一致判定部 200 入力イメージデータ 201 登録書式情報作成部 300 登録用イメージデータ 301,401 登録データ 302,402 横罫線 303,403 登録書式テーブル 501 登録書式情報 701 入力イメージデータ 702 横罫線 703 入力書式テーブル 801 入力書式情報 DESCRIPTION OF SYMBOLS 10 Format registration means 20 Input format information 30 Format identification means 101 Registration format information accumulation part 102 Image data inclination correction part 103 X-axis direction black pixel distribution acquisition part 105 Horizontal ruled line detecting part 107 Horizontal ruled line interval calculating part 108 Horizontal ruled line rounding processing Unit 109 reference horizontal ruled line interval acquisition unit 110 horizontal ruled line interval normalizing unit 112 input format information creating unit 113 registration format information / input format information match determination unit 200 input image data 201 registration format information creating unit 300 registration image data 301, 401 Registration data 302, 402 Horizontal ruled lines 303, 403 Registration format table 501 Registered format information 701 Input image data 702 Horizontal ruled line 703 Input format table 801 Input format information
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI G06F 19/00 G06F 19/00 300E (72)発明者 松村 季樹 東京都千代田区内幸町1丁目1番6号 日本電信電話株式会社内 (56)参考文献 特開 平8−195843(JP,A) 特開 平7−282193(JP,A) 特開 平1−283682(JP,A) 特開 平5−290269(JP,A) 特開 昭63−155386(JP,A) 特開 昭62−200484(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06K 9/00 - 9/82 G06F 17/21 G06F 17/50 G06F 19/00 ──────────────────────────────────────────────────続 き Continued on the front page (51) Int.Cl. 7 Identification symbol FI G06F 19/00 G06F 19/00 300E (72) Inventor Kiki Matsumura 1-6-1 Uchisaiwaicho, Chiyoda-ku, Tokyo Nippon Telegraph and Telephone Stocks In-company (56) References JP-A-08-95843 (JP, A) JP-A-7-282193 (JP, A) JP-A-1-283682 (JP, A) JP-A 5-290269 (JP, A) JP-A-63-155386 (JP, A) JP-A-62-200484 (JP, A) (58) Fields investigated (Int. Cl. 7 , DB name) G06K 9/00-9/82 G06F 17 / 21 G06F 17/50 G06F 19/00
Claims (8)
複数の第1の罫線間隔を求め、 前記第1の罫線間隔の中から、基準となる第1の基準罫
線間隔を求め、 前記第1の罫線間隔を前記第1の基準罫線間隔との比率
で置き換えて、それぞれ正規化した第1の罫線間隔正規
化値を求め、 前記第1の罫線間隔正規化値に基づいて、前記登録帳票
の登録書式情報を作成して登録書式情報蓄積部に蓄積
し、 他の登録帳票に関しても同様に各登録帳票の登録書式情
報を作成して蓄積し、 入力帳票のイメージデータから、複数の第2の罫線間隔
を求め、 前記第2の罫線間隔の中から、基準となる第2の基準罫
線間隔を求め、 前記第2の罫線間隔を前記第2の基準罫線間隔との比率
で置き換えて、それぞれ正規化した第2の罫線間隔正規
化値を求め、 前記第2の罫線間隔正規化値に基づいて、前記入力帳票
の入力書式情報を作成し、 前記登録書式情報と前記入力書式情報とを照合し、前記
入力書式情報に最も適合する登録書式情報を決定するこ
とを特徴とする帳票書式識別方法。 (1)From the image data of one registration form,
Calculating a plurality of first ruled line intervals; A first reference rule serving as a reference from among the first rule line intervals.
Find the line spacing, Ratio of the first ruled line interval to the first reference ruled line interval
To replace the first ruled line spacing regularized
Calculated value, The registration form based on the first ruled line interval normalized value
Create registration form information and store it in the registration form information storage
And Similarly, for other registration forms, the registration form information of each registration form
Create and accumulate reports From the image data of the input form, a plurality of second ruled line intervals
, From the second ruled line intervals, a second reference rule as a reference
Find the line spacing, The ratio of the second ruled line interval to the second reference ruled line interval
, And the normalized second ruled line spacing
Calculated value, The input form based on the second ruled line interval normalized value;
Create input format information for Compare the registered form information with the input form information,
Determine the registration form information that best matches the input form information.
And a form format identification method.
罫線間隔の中で最も分布の多い罫線間隔とし、 前記第2の基準罫線間隔は、前記第2の罫線間隔の中で
最も分布の多い罫線間隔とする請求項1記載の帳票書式
識別方法。 (2)The first reference ruled line interval is the first
The ruled line interval with the largest distribution among the ruled line intervals is The second reference ruled line interval is set at a value within the second ruled line interval.
2. The form format according to claim 1, wherein the ruled line interval having the largest distribution is used.
Identification method.
第1の罫線間隔を求め、該第1の罫線間隔の中から、基
準となる第1の基準罫線間隔を求め、該第1の罫線間隔
を該第1の基準罫線間隔との比率で置き換えて、それぞ
れ正規化した第1の罫線間隔正規化値を求め、該第1の
罫線間隔正規化値に基づいて、前記登録帳票の登録書式
情報を作成して登録書式情報蓄積部に蓄積する書式情報
登録手段と、 入力帳票のイメージデータから、複数の第2の罫線間隔
を求め、該第2の罫線間隔の中から、基準となる第2の
基準罫線間隔を求め、該第2の罫線間隔を該第 2の基準
罫線間隔との比率で置き換えて、それぞれ正規化した第
2の罫線間隔正規化値を求め、該第2の罫線間隔正規化
値に基づいて、該入力帳票の入力書式情報を作成する入
力書式情報生成手段と、前記書式情報登録手段にて登録された複数の登録帳票の
前記登録書式情報と前記入力書式情報とを照合し、前記
入力書式情報に最も適合する登録書式情報を決定する書
式識別手段と、 を有することを特徴とする帳票書式識別
装置。3. A method according to claim 3 , wherein a plurality of image data of the registration form is used.
A first ruled line interval is determined, and a base rule is determined from the first ruled line interval.
A first standard ruled line interval to be a reference is obtained, and the first ruled line interval is determined.
Is replaced by the ratio with the first reference ruled line interval.
A normalized first ruled line interval normalized value is obtained, and the first
Based on the ruled line spacing normalized value, the registration form of the registration form
Format information registering means for creating information and accumulating it in a registration format information accumulating unit; and a plurality of second ruled line intervals from image data of an input form.
From the second ruled line interval, and a second reference
A reference ruled line interval is determined, and the second ruled line interval is determined by the second reference line interval.
Replaced by the ratio with the ruled line interval,
2. A second ruled line interval normalized value is obtained, and the second ruled line interval normalized value is calculated.
Input form information generating means for creating input form information of the input form based on the value, and a plurality of registered forms registered by the form information registering means.
Compare the registered form information with the input form information,
A document that determines the registration format information that best matches the input format information
Document format identification apparatus, comprising: the formula identification means.
最も分布の多い罫線間隔とし、 前記入力書式情報生成手段は、 前記第2の基準罫線間隔を、前記第2の罫線間隔の中で
最も分布の多い罫線間隔とする請求項3記載の帳票書式
識別装置。 (4)The format information registration means, The first reference ruled line interval is set within the first ruled line interval.
The ruled line interval with the largest distribution is The input format information generating means includes: The second reference ruled line interval is set within the second ruled line interval.
4. The form format according to claim 3, wherein the ruled line interval having the largest distribution is used.
Identification device.
傾斜補正手段と、 前記登録帳票のイメージデータのX軸方向の黒画素分布
が所定の画素数以上連続している黒画素量を積算する第
1の画素数積算手段と、 前記第1の画素数積算手段により取得した前記黒画素量
に基づいて、所定の罫線成立ドット数以上連続している
黒画素数を有する線を第1の罫線とする第1の罫線検出
手段と、 前回第1の罫線検出手段で取得した前記第1の罫線間隔
を求める第1の罫線間隔取得手段と、 前記第1の罫線間隔取得手段で取得した前記第1の罫線
間隔のうち、最も罫線間隔の分布が多い罫線間隔を第1
の基準罫線間隔とする第1の基準罫線間隔取得手段と、 前記第1の罫線間隔を前記第1の基準罫線間隔との比率
で置換して、第1の罫線間隔正規化値を求める第1の罫
線間隔正規化手段と、 前記第1の罫線間隔正規化手段により求められた前記第
1の罫線間隔正規化値に基づいて、前記登録帳票の登録
書式情報として作成して登録書式情報蓄積部に蓄積する
登録手段とを含む請求項3記載の帳票書式識別装置。 (5)The format information registration means, A first method for correcting the inclination of the image data of the registration form
Inclination correction means, Black pixel distribution in the X-axis direction of the image data of the registration form
Is the sum of the amount of black pixels in which
1 pixel number integrating means; The black pixel amount obtained by the first pixel number integrating means
Is greater than or equal to a predetermined number of dots where ruled lines are established.
First ruled line detection using a line having the number of black pixels as a first ruled line
Means, The first ruled line interval previously obtained by the first ruled line detecting means
First ruled line interval obtaining means for obtaining The first ruled line acquired by the first ruled line interval acquiring means;
Of the intervals, the ruled line interval with the largest ruled line interval distribution is the first
A first reference ruled line interval obtaining means for setting a reference ruled line interval; Ratio of the first ruled line interval to the first reference ruled line interval
To obtain the first ruled line interval normalized value.
Line spacing normalizing means; The first ruled line interval normalizing means;
Registration of the registration form based on the ruled line interval normalized value of 1
Create as format information and store it in the registered format information storage unit
4. The form format identification device according to claim 3, further comprising registration means.
傾斜補正手段と、 前記入力帳票のイメージデータのX軸の方向の黒画素分
布が所定の画素数以上連続している黒画素量を積算する
第2の画素数積算手段と、 前記第2の画素数積算手段により取得した前記黒画素量
に基づいて、所定の罫線成立ドット数以上連続している
黒画素数を有する線を罫線とする第2の罫線検出手段
と、 前記第2の罫線検出手段で取得した罫線の第2の罫線間
隔を求める第2の罫線間隔取得手段と、 前記第2の罫線間隔取得手段で取得した第2の罫線間隔
のうち、最も罫線の分布が多い罫線間隔を第2の基準罫
線間隔とする第2の基準罫線間隔取得手段と、 前記第2の罫線間隔を前記第2の基準罫線間隔との比率
で置換して、第2の罫線間隔正規化値を求める第2の罫
線間隔正規化手段と、 前記第2の罫線間隔正規化手段により求められた前記第
2の罫線間隔正規化値に基づいて、前記入力帳票の入力
書式情報を作成する入力書式作成手段とを含む請求項3
記載の帳票書式識別装置。 6.The input format information generating means includes: A second method for correcting the inclination of the image data of the input form
Inclination correction means, Black pixels in the X-axis direction of the image data of the input form
Integrate the amount of black pixels where the cloth is continuous for more than a predetermined number of pixels
Second pixel number integrating means; The black pixel amount obtained by the second pixel number integrating means
Is greater than or equal to a predetermined number of dots where ruled lines are established.
Second ruled line detecting means using a line having the number of black pixels as a ruled line
When, Between the second ruled lines of the ruled lines acquired by the second ruled line detecting means;
Second ruled line interval obtaining means for obtaining an interval; The second ruled line interval acquired by the second ruled line interval acquiring means
Of the ruled lines with the largest ruled line distribution,
A second reference ruled line interval obtaining means for setting a line interval; The ratio of the second ruled line interval to the second reference ruled line interval
To obtain a second ruled line space normalized value.
Line spacing normalizing means; The second ruled line interval normalizing means
Input of the input form based on the normalized ruled line interval value of 2
4. An input format creating means for creating format information.
Form format identification device.
化値を罫線間隔の順に比較して、一致した回数を一致間
隔数として前記登録書式情報毎に求め、前記一致間隔数
が大きい登録書式情報を取得する一致間隔比較手段を含
み、 前記一致間隔比較手段で取得された前記登録書式情報の
中から、前記入力書式情報に最も適合する登録書式情報
を決定する請求項3記載の帳票書式識別装置。 7.The format identification means, The first ruled line spacing normalized value and the second ruled line spacing normalized value
Values are compared in the order of ruled line intervals, and the number of matches
The interval number is obtained for each of the registration format information, and the matching interval number is obtained.
Includes matching interval comparison means to obtain registration format information with large
See Of the registration form information acquired by the matching interval comparing means.
From among the registered form information that best matches the input form information
4. The form format identification device according to claim 3, wherein the form format is determined.
1の罫線間隔数に対する、前記一致間隔数の割合を求
め、該割合が所定の値より大きい登録書式情報を取得す
る一致割合比較手段を含み、 前記一致割合比較手段で取得された前記登録書式情報の
中から、前記入力書式情報に最も適合する登録書式情報
を決定する請求項7記載の帳票書式識別装置。 Claim 8.The format identification means, Of the registration form information for which the number of matching intervals was determined
The ratio of the number of matching intervals to the number of ruled line intervals of 1 is calculated.
To obtain registration format information whose ratio is greater than a predetermined value.
Including a matching ratio comparing means, Of the registration form information obtained by the matching ratio comparing means.
From among the registered form information that best matches the input form information
8. The form format identification device according to claim 7, wherein the form format is determined.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11592495A JP3353215B2 (en) | 1995-05-15 | 1995-05-15 | Form format identification method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11592495A JP3353215B2 (en) | 1995-05-15 | 1995-05-15 | Form format identification method and apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08315068A JPH08315068A (en) | 1996-11-29 |
JP3353215B2 true JP3353215B2 (en) | 2002-12-03 |
Family
ID=14674573
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11592495A Expired - Lifetime JP3353215B2 (en) | 1995-05-15 | 1995-05-15 | Form format identification method and apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3353215B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002324236A (en) | 2001-04-25 | 2002-11-08 | Hitachi Ltd | Method for discriminating document and method for registering document |
US20050080693A1 (en) * | 2003-10-14 | 2005-04-14 | Foss Sheldon H. | Point-of-sale customer identification system |
CN103136544A (en) * | 2011-11-30 | 2013-06-05 | 夏普株式会社 | Image judging device |
-
1995
- 1995-05-15 JP JP11592495A patent/JP3353215B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH08315068A (en) | 1996-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7349576B2 (en) | Method, device and computer program for recognition of a handwritten character | |
US7580571B2 (en) | Method and apparatus for detecting an orientation of characters in a document image | |
US7657091B2 (en) | Method for automatic removal of text from a signature area | |
US5696841A (en) | Image processing method and apparatus for extracting vertically and horizontally written text | |
EP0810542A2 (en) | Bitmap comparison apparatus and method | |
CN111814673A (en) | Method, device and equipment for correcting text detection bounding box and storage medium | |
US20050089248A1 (en) | Adjustment method of a machine-readable form model and a filled form scanned image thereof in the presence of distortion | |
JP3353215B2 (en) | Form format identification method and apparatus | |
EP0877335B1 (en) | Character recognition method, character recognition apparatus | |
JP2003109007A (en) | Device, method and program for classifying slip form and image collating device | |
EP0476873B1 (en) | Method of and apparatus for separating image regions | |
US5408540A (en) | Character slant recognition in a word image | |
JPH07249099A (en) | Discriminating device for slip | |
US7386160B2 (en) | System and method for determining image resolution using MICR characters | |
JP3276554B2 (en) | Format recognition device and character reader | |
WO2001026024A1 (en) | Document identifying device and method | |
JP3356819B2 (en) | Mark recognition device | |
JP3116622B2 (en) | Printed line detection method | |
JP2994932B2 (en) | Handwritten character recognition device | |
JP3919390B2 (en) | Character recognition device | |
JP3564987B2 (en) | Optical character reader | |
CN111161247A (en) | Detection method for variable code reading character quality verification | |
JPH0581471A (en) | Method for deciding aray direction of character in image | |
JPH0749924A (en) | Handwritten character recognizing device | |
JPH06301817A (en) | Character recognition device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20070927 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080927 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080927 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090927 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090927 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100927 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100927 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110927 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120927 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130927 Year of fee payment: 11 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |