JPH0962780A - Reading format position correction method for optical character reader - Google Patents

Reading format position correction method for optical character reader

Info

Publication number
JPH0962780A
JPH0962780A JP7219235A JP21923595A JPH0962780A JP H0962780 A JPH0962780 A JP H0962780A JP 7219235 A JP7219235 A JP 7219235A JP 21923595 A JP21923595 A JP 21923595A JP H0962780 A JPH0962780 A JP H0962780A
Authority
JP
Japan
Prior art keywords
format
reading
image
format information
registered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7219235A
Other languages
Japanese (ja)
Inventor
Yasushi Kuwabara
康 桑原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP7219235A priority Critical patent/JPH0962780A/en
Publication of JPH0962780A publication Critical patent/JPH0962780A/en
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

PROBLEM TO BE SOLVED: To read the characters even when the reading area of a business form is shifted from the standard format information. SOLUTION: The registered standard format information is registered in a storage 13. A format register device fetches the format image of an object business form into a work memory 12-1 of a personal computer 12 via an image reader 11. The format register device also reads out the registered format data corresponding to the object business form and sends them to the memory 12-1. Then a peripheral area surrounding the reading position of the format image is set around the reading position of an OCR that is extracted out of the format image, and a normal OCR reading position is secured for the object business form by the projection performed in the peripheral area. Then the registered format information is displaced with the format information corresponding to the normal reading position, so that the position to be read is corrected.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、この発明は光学式
文字読取装置( 以下、OCRという) で帳票中の記載項
目を読取る際の、読取位置を補正する光学式文字読取装
置の読取フォーマット位置補正方法に関するものであ
る。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a reading format position of an optical character reading device for correcting a reading position when reading an item described in a form with an optical character reading device (hereinafter referred to as OCR). The present invention relates to a correction method.

【0002】[0002]

【従来の技術】図2は、従来のOCRの読取方法を説明
する図である。読取対象となる文字の書かれた帳票1に
対し、OCR3は読取情報( 以下、フォーマット情報と
いう) を登録したフォーマット情報ファイル2を参照し
て読取処理を行う。フォーマット情報ファイル2には、
帳票1に記載された読取対象となる文字の位置及び属性
( 活字,手書き,ANK,漢字等) などのデータが、各
項目毎に格納されている。これらフォーマット情報によ
って、光電変換された画像イメージにおける読取対象の
文字イメージの位置及び属性が特定され、OCR3は、
それに沿って文字認識を行なうことができる。そのた
め、フォーマット情報ファイル2は、OCR3の読取対
象とする帳票種類の全てに対応するフォーマット情報を
持つ必要がある。帳票とフォーマット情報との対応は各
帳票の共通の位置に設けたシートIDによって行なわれ
る。即ち、OCR3では、先ず、全ての帳票に共通の位
置に設けらたシートID( 通常2〜5桁の帳票固有の数
字) を読取る。次に、OCR3はこのシートIDに基づ
き、複数のフォーマット情報が格納されているフォーマ
ット情報ファイル2から対象帳票のフォーマット情報を
検索し、その検索されたフォーマット情報に基づき、読
取りを行なう。このフォーマット情報を登録する際に
は、帳票内の各読取り項目の位置を定規等で測定し、そ
の値及び読取対象となる文字の属性をパーソナルコンピ
ュータ等のツールを用いて、フォーマット情報ファイル
2に格納することで作成している。
2. Description of the Related Art FIG. 2 is a diagram for explaining a conventional OCR reading method. The OCR 3 refers to the format information file 2 in which the read information (hereinafter, referred to as format information) is registered for the form 1 in which the character to be read is written, and performs the reading process. Format information file 2 contains
Position and attributes of characters to be read on form 1
Data such as (printed characters, handwriting, ANK, kanji, etc.) is stored for each item. The position and attribute of the character image to be read in the photoelectrically converted image image are specified by the format information, and the OCR 3
Character recognition can be performed along with it. Therefore, the format information file 2 needs to have the format information corresponding to all the form types to be read by the OCR 3. Correspondence between the form and the format information is performed by a sheet ID provided at a common position of each form. That is, in the OCR 3, first, the sheet ID (usually a 2 to 5 digit unique number for the form) provided at a position common to all the forms is read. Next, the OCR 3 retrieves the format information of the target form from the format information file 2 in which a plurality of format information is stored based on this sheet ID, and reads based on the retrieved format information. When registering this format information, the position of each reading item in the form is measured with a ruler and the value and the attribute of the character to be read are stored in the format information file 2 using a tool such as a personal computer. It is created by storing.

【0003】[0003]

【発明が解決しようとする課題】しかしながら、従来の
OCRの読取方法では、次のような課題があった。1種
類の帳票に対し1種類のフォーマット情報が必要という
読取り方法において、例えば全国的に帳票の標準フォー
マットが決められている場合がある。ところが、帳票を
使用する各機関もしくはその帳票を作成する装置を該各
機関に提供しているメーカーで、独自の帳票を作成して
いるケースもある。このようなケースでは、OCR3で
の読取り位置が若干異なり、読取り不良が発生する。読
取り不良を防止するためには、読取対象帳票のフォーマ
ット情報を1 件ずつチェックし、標準のフォーマットか
らのずれに対して補正を行なう必要があった。しかも、
この補正は、標準フォーマットで作成された帳票と対象
帳票との差を目視で発見するために、修正漏れのでる可
能性もあった。また、帳票の改定が定期的に行われる
と、その都度、改定したデータをフォーマット情報ファ
イル2に格納しなければならない。即ち、多くの作業量
が発生するという問題もあった。
However, the conventional OCR reading method has the following problems. In a reading method in which one type of format information is required for one type of form, for example, there is a case where a standard format of the form is determined nationwide. However, in some cases, each institution that uses a form or a maker that provides each institution with a device that creates the form creates its own form. In such a case, the reading position of the OCR 3 is slightly different and a reading failure occurs. In order to prevent reading errors, it was necessary to check the format information of the target documents to be read one by one and correct the deviation from the standard format. Moreover,
This correction may fail to be corrected because the difference between the form created in the standard format and the target form is visually detected. When the form is revised regularly, the revised data must be stored in the format information file 2 each time. That is, there is also a problem that a large amount of work is required.

【0004】[0004]

【課題を解決するための手段】第1の発明は、前記課題
を解決するために、OCRで帳票中の記載項目を読取る
際に用いられる帳票種類毎のフォーマット情報を登録す
るフォーマット情報登録装置において、次のようなOC
Rの読取フォーマット位置補正方法を講じている。即
ち、第1の発明のOCRの読取フォーマット位置補正方
法においては、対象帳票のフォーマットイメージを取込
み、前記フォーマット情報登録装置に登録済の前記対象
帳票のフォーマット情報から抽出したOCRの読取位置
を中心にして、前記フォーマットイメージ上における前
記OCRの読取位置を囲む周囲領域を設定する。そし
て、前記フォーマットイメージに対して前記周囲領域内
のX軸方向とY軸方向の射影を行って前記対象帳票にお
ける正規の前記読取位置を求め、前記登録済みフォーマ
ット情報をその正規の読取位置に対応するフォーマット
情報に置換することで前記OCRの読取るべき位置を補
正するようにしている。
In order to solve the above problems, a first aspect of the present invention is a format information registration apparatus for registering format information for each form type used when reading an entry item in a form with an OCR. , The following OC
A read format position correction method for R is taken. That is, in the OCR read format position correction method of the first aspect of the invention, the OCR read position centered on the OCR read position captured from the format image of the target form registered in the format information registration device is acquired. Then, a peripheral area surrounding the reading position of the OCR on the format image is set. Then, the format image is projected in the X-axis direction and the Y-axis direction in the surrounding area to obtain the regular reading position in the target form, and the registered format information is associated with the regular reading position. The position to be read by the OCR is corrected by replacing it with the format information.

【0005】第2の発明は、登録された帳票種類毎のフ
ォーマット情報を用いて対象帳票中の記載項目を読取る
OCRにおいて、次のようなOCRの読取フォーマット
位置補正方法を講じている。即ち、第2の発明のOCR
の読取フォーマット位置補正方法においては、前記対象
帳票のフォーマットイメージを取込み、前記対象帳票に
対する登録済みの前記フォーマット情報から抽出した前
記OCRの読取位置を中心にして、前記フォーマットイ
メージ上における該読取位置を囲む周囲領域を設定す
る。そして、前記フォーマットイメージの前記周囲領域
内のX軸方向とY軸方向の射影を行って前記対象帳票に
おける正規の前記読取位置を求め、前記登録済みフォー
マット情報に代えてその正規の読取位置に対応するフォ
ーマット情報を用いることで前記記載項目に対するOC
Rの読取位置を補正するようにしている。
A second aspect of the present invention employs the following OCR read format position correction method in the OCR for reading the description items in the target form by using the format information for each registered form type. That is, the OCR of the second invention
In the reading format position correction method, the reading position on the format image is taken centering on the reading position of the OCR extracted from the registered format information for the target form by taking in the format image of the target form. Set the surrounding area. Then, projection of the format image in the X-axis direction and the Y-axis direction in the peripheral area is performed to obtain the regular reading position on the target form, and the regular reading position is replaced with the registered format information. By using the format information
The reading position of R is corrected.

【0006】第1の発明はフォーマット情報登録装置に
対する発明であり、該第1の発明によれば、以上のよう
にOCRの読取フォーマット位置補正方法を構成したの
で、対象帳票のフォーマットイメージがフォーマット情
報登録装置に取込まれ、登録済の対象帳票のフォーマッ
ト情報から抽出したOCRの読取位置を中心にして、フ
ォーマットイメージ上における読取位置を囲む周囲領域
が設定される。そして、取込んだフォーマットイメージ
に対してその周囲領域内のX軸方向とY軸方向の射影を
行うことで、対象帳票における正規の読取位置が求めら
れる。即ち、登録済みのフォーマット情報と実際の読取
位置とがずれていた場合にも、実際に即した読取位置が
精度よく検出される。登録済みフォーマット情報をその
正規の読取位置に対応するフォーマット情報に置換する
ことで、OCRの読取るべき位置が補正される。第2の
発明はOCRに対する発明であり、該第2の発明によれ
ば、OCRに対象帳票のフォーマットイメージが取込ま
れ、対象帳票に対する登録済みのフォーマット情報から
抽出したOCRの読取位置を中心にして、フォーマット
イメージ上における読取位置を囲む周囲領域が設定され
る。そして、そのフォーマットイメージに対して周囲領
域内のX軸方向とY軸方向の射影を行う。これにより、
対象帳票における正規の読取位置が求められる。登録済
みフォーマット情報に代えてその正規の読取位置に対応
するフォーマット情報を用いることで、記載項目に対す
るOCRの読取位置が補正される。従って、前記課題を
解決できるのである。
A first aspect of the present invention relates to a format information registration device. According to the first aspect of the present invention, since the OCR read format position correction method is configured as described above, the format image of the target form is the format information. A peripheral area surrounding the reading position on the format image is set around the reading position of the OCR that is taken in by the registration device and extracted from the format information of the registered target form. Then, by performing projection in the X-axis direction and the Y-axis direction in the surrounding area on the captured format image, the regular reading position on the target form can be obtained. That is, even when the registered format information and the actual reading position are deviated, the actual reading position is accurately detected. By replacing the registered format information with the format information corresponding to the regular reading position, the position to be read by the OCR is corrected. The second invention is an invention for OCR. According to the second invention, the format image of the target form is captured in the OCR, and the OCR reading position extracted from the registered format information for the target form is centered. Thus, a peripheral area surrounding the reading position on the format image is set. Then, the format image is projected in the X-axis direction and the Y-axis direction in the surrounding area. This allows
A regular reading position on the target form is obtained. By using the format information corresponding to the regular reading position instead of the registered format information, the reading position of the OCR for the described item is corrected. Therefore, the above problem can be solved.

【0007】[0007]

【発明の実施の形態】第1の実施形態 図1は、本発明の第1の実施形態を示すフォーマット登
録装置の構成ブロック図である。このフォーマット登録
装置は、帳票のフォーマットイメージを画像として読取
るイメージリーダ11と、パーソナルコンピュータ12
と、フォーマット情報の登録されている記憶装置13と
を備えている。パーソナルコンピュータ12は作業用メ
モリ12−1を有し、イメージリーダ11からのフォー
マットのイメージの画像が、その作業用メモリ12−1
にデータとして入力されるようになっている。次に、図
1のフォーマット登録装置動作を説明する。イメージリ
ーダ11により、修正を行なおうとする帳票のフォーマ
ットイメージのイメージ画像が読取られ、そのデータが
光電変換されてパーソナルコンピュータ12の作業用メ
モリ12−1に格納される。このイメージ画像のデータ
は、メモリ12−1内にビット単位に格納される。帳票
の白紙の部分は“0”、罫線や文字の部分は“1”とし
て、格納される。次に、パーソナルコンピュータ12
は、フォーマット情報が格納されている記憶装置13か
ら、該帳票に対応するフォーマットデータを読出す。
BEST MODE FOR CARRYING OUT THE INVENTION First Embodiment FIG. 1 is a configuration block diagram of a format registration device showing a first embodiment of the present invention. The format registration device includes an image reader 11 that reads a format image of a form as an image, and a personal computer 12.
And a storage device 13 in which format information is registered. The personal computer 12 has a working memory 12-1, and the image of the format image from the image reader 11 is stored in the working memory 12-1.
It is designed to be input as data in. Next, the operation of the format registration device in FIG. 1 will be described. The image image of the format image of the form to be corrected is read by the image reader 11, and the data is photoelectrically converted and stored in the working memory 12-1 of the personal computer 12. The data of this image image is stored in the memory 12-1 in bit units. The blank part of the form is stored as "0", and the ruled line and character parts are stored as "1". Next, the personal computer 12
Reads out the format data corresponding to the form from the storage device 13 in which the format information is stored.

【0008】図3は、フォーマット情報の概念の一部を
示す図である。図3には、罫線で囲まれた読取り対象と
なる読取領域(フィールド位置)が項目毎に示されてい
る。項目1の読取領域は、帳票の上辺からの寸法がY1
mm、左辺からの寸法がX1 mm、領域の高さがΔY1 mm、
及び領域の幅がΔX1 mmのフォーマットデータとして、
記憶装置13に格納されている。また、項目2の読取領
域は、帳票の上辺からの寸法がY2 mm、左辺からの寸法
がX2 mm、領域の高さがΔY2 mm、及び領域の幅がΔX
2 mmのフォーマットデータとして、記憶装置13に格納
されている。即ち、これらのフォーマットデータがフォ
ーマット情報として、記憶装置13に登録されているも
のとする。これらのフォーマットデータにより、作業用
メモリ12−1に展開されている帳票イメージにおける
該当する読取り領域が、特定される。この特定方法は、
フォーマットデータの寸法を、イメージリーダの解像度
に応じて、メモリ内のドット数に換算することで容易に
求めることができる。
FIG. 3 is a diagram showing a part of the concept of format information. In FIG. 3, a reading area (field position) to be read, which is surrounded by ruled lines, is shown for each item. The reading area of item 1 has a dimension of Y 1 from the top side of the form.
mm, dimension from left side is X 1 mm, area height is ΔY 1 mm,
And as the format data with the width of the area ΔX 1 mm,
It is stored in the storage device 13. The reading area of item 2 is Y 2 mm in size from the top side of the form, X 2 mm in size from the left side, the height of the area is ΔY 2 mm, and the width of the area is ΔX.
It is stored in the storage device 13 as 2 mm format data. That is, it is assumed that these format data are registered in the storage device 13 as format information. Based on these format data, the corresponding reading area in the form image developed in the work memory 12-1 is specified. This identification method is
The size of the format data can be easily calculated by converting it into the number of dots in the memory according to the resolution of the image reader.

【0009】図4は、図3中の読取項目1 に対応する帳
票のイメージとフォーマットデータを示す図である。図
4のように、実線枠で示された帳票20上の読取り領域
Aと、破線枠で示されたフォーマットデータの特定する
領域Bとにずれがある場合、このままでは正しいOCR
の読取りができず、フォーマットデータを補正する必要
がある。図5は、図1のフォーマットデータの補正方法
を示す図である。図5には、実線で示された帳票の実際
の読取領域枠21と、破線で示されたフォーマットデー
タから得られた読取領域枠22の位置とが、示されてい
る。まず、破線の周囲の左右方向にαずつ、上下方向に
βずつ広げた領域を設定する。つまり、一点破線で示さ
れた領域23を設定する。このα,βは、帳票中の読取
対象となるすべての項目の領域において、領域枠のずれ
を吸収できるように、あらかじめ求められているものと
する。次に、作業用メモリ12−1を用いて、一点破線
の領域23内でX軸及びY軸の各方向についての黒点数
の射影を行なう。Y軸方向の射影結果24は、X座標を
固定にした時のY座標の領域23内の上辺から下辺まで
に含まれている黒点を計数したものであり、X軸方向の
射影結果25は、Y座標を固定にした時のX座標の領域
23内の左辺から右辺までに含まれている黒点を計数し
たものとなる。
FIG. 4 is a diagram showing an image and format data of a form corresponding to the read item 1 in FIG. As shown in FIG. 4, when there is a gap between the reading area A on the form 20 indicated by the solid line frame and the area B specified by the format data indicated by the broken line frame, the OCR is correct as it is.
Cannot be read and format data must be corrected. FIG. 5 is a diagram showing a method of correcting the format data of FIG. FIG. 5 shows the actual reading area frame 21 of the form shown by the solid line and the position of the reading area frame 22 obtained from the format data shown by the broken line. First, an area around the broken line is set by α in the horizontal direction and β in the vertical direction. That is, the area 23 indicated by the dashed line is set. It is assumed that these α and β are obtained in advance so that the deviation of the area frame can be absorbed in the areas of all the items to be read in the form. Next, the work memory 12-1 is used to project the number of black dots in each of the X-axis and Y-axis directions within the area 23 indicated by a dashed line. The projection result 24 in the Y-axis direction is a count of black dots included from the upper side to the lower side in the area 23 of the Y-coordinate when the X-coordinate is fixed, and the projection result 25 in the X-axis direction is This is a count of black points included from the left side to the right side in the area 23 of the X coordinate when the Y coordinate is fixed.

【0010】各射影結果24,25には、黒点数が他の
領域より飛び抜けて多い部分がそれぞれ2か所ずつあ
る。黒点数の飛び抜けて多い部分が、実際の帳票上の読
み取り領域21の罫線部分に相当する。この射影から求
められた罫線の位置は本帳票イメージの上辺および左辺
からドット数で求められるため、これを、データを取得
したイメージリーダの解像度で計算すると、実際の帳票
上の寸法として、それぞれX*1,Y*1,ΔX*1,ΔY*1
の値が求められる。即ち、各X*1,Y*1,ΔX*1,ΔY
*1は、実際に即して補正された値となる。この求められ
た各寸法値X*1,Y*1,ΔX*1,ΔY*1を、新たなフォ
ーマットデータとして、当初記憶装置13に登録されて
いた各値X1 ,Y1 ,ΔX1 ,ΔY1 と置換すること
で、帳票に則したフォーマットデーダが更新される。こ
の繰り返しを帳票の全読取り領域に対して行なうこと
で、フォーマット情報の更新が可能になる。以上のよう
に、第2の実施形態によれば、既に登録済のフォーマッ
ト情報を基基づき、対象帳票のイメージデータに対して
作業用メモリ12−1を利用し、実際に即したOCRの
フォーマット情報の補正を行っている。そのため、補正
作業を間違いなくかつ極めて効率良く行なうことが可能
になっている。また、本実施形態では、フォーマット登
録装置だけで、フォーマット情報の補正を実現している
ので、OCR本体になんら影響を与えることがないとい
うメリットもある。
In each of the projection results 24 and 25, there are two portions where the number of black spots is far greater than that of other areas. The portion where the number of black dots is by far the largest corresponds to the ruled line portion of the reading area 21 on the actual form. Since the position of the ruled line obtained from this projection is obtained by the number of dots from the upper and left sides of this form image, if this is calculated with the resolution of the image reader that acquired the data, the actual size of the form will be calculated as X. * 1 , Y * 1 , ΔX * 1 , ΔY * 1
Is obtained. That is, each X * 1 , Y * 1 , ΔX * 1 , ΔY
* 1 is the value that is corrected according to the actual situation. Each obtained dimension X * 1, Y * 1, ΔX * 1, ΔY * 1 a, as a new format data, each have been registered in the initial storage device 13 values X 1, Y 1, ΔX 1 , By replacing with ΔY 1 , the format data according to the form is updated. By repeating this process for all the reading areas of the form, the format information can be updated. As described above, according to the second embodiment, based on the already registered format information, the working memory 12-1 is used for the image data of the target form, and the OCR format information that actually matches Is being corrected. Therefore, it is possible to perform the correction work without error and extremely efficiently. Further, in this embodiment, since the format information is corrected only by the format registration device, there is an advantage that the OCR main body is not affected at all.

【0011】第2の実施形態 図6は、本発明の第2の実施形態を示すOCRの構成ブ
ロック図である。このOCRは、帳票のフォーマットイ
メージを画像として読取るイメージ入力部31と、読取
制御部32と、フォーマット情報の登録されている記憶
装置33とを備えている。読取制御部32には、作業用
メモリ32−1が設けられ、イメージ入力部31からの
フォーマットのイメージの画像が、その作業用メモリ3
2−1にデータとして入力されるようになっている。次
に、図6のフォーマット登録装置動作を説明する。イメ
ージ入力部31により、読取対象の帳票のイメージ画像
が読取られ、そのデータが光電変換されて読取制御部3
2の作業用メモリ32−1に格納される。このイメージ
画像のデータは、メモリ32−1内にビット単位に格納
される。帳票の白紙の部分は“0”、罫線や文字の部分
は“1”として、格納される。次に、読取制御部32
は、フォーマット情報が格納されている記憶装置33か
ら、該帳票に対応するフォーマットデータを読出す。
Second Embodiment FIG. 6 is a block diagram of the OCR showing the second embodiment of the present invention. The OCR includes an image input unit 31 that reads the format image of the form as an image, a read control unit 32, and a storage device 33 in which the format information is registered. The read control unit 32 is provided with a working memory 32-1 and the image of the image in the format from the image input unit 31 is stored in the working memory 3-1.
2-1 is input as data. Next, the operation of the format registration device in FIG. 6 will be described. The image input unit 31 reads an image image of the form to be read, the data is photoelectrically converted, and the reading control unit 3
2 is stored in the work memory 32-1. The data of this image image is stored in the memory 32-1 in bit units. The blank part of the form is stored as "0", and the ruled line and character parts are stored as "1". Next, the reading control unit 32
Reads out the format data corresponding to the form from the storage device 33 in which the format information is stored.

【0012】図7は、図6におけるフォーマット情報の
概念の一部を示す図である。図7には、罫線で囲まれた
読取り対象となる読取領域が項目毎に示されている。項
目1の読取領域は、帳票の上辺からの寸法がY11mm、左
辺からの寸法がX11mm、領域の高さがΔY11mm、及び領
域の幅がΔX11mmのフォーマットデータとして、記憶装
置33に格納されている。また、項目2の読取領域は、
帳票の上辺からの寸法がY12mm、左辺からの寸法がX12
mm、領域の高さがΔY12mm、及び領域の幅がΔX12mmの
フォーマットデータとして、記憶装置33に格納されて
いる。即ち、これらのフォーマットデータがフォーマッ
ト情報として、記憶装置13に登録されているものとす
る。これらのフォーマットデータから、作業用メモリ3
2−1に展開されている帳票イメージにおける該当する
読取り領域が、特定される。この特定方法は、フォーマ
ットデータの寸法を、イメージ入力部の解像度に応じて
メモリ32−1内のドット数に換算することで容易に特
定される。
FIG. 7 is a diagram showing a part of the concept of the format information in FIG. In FIG. 7, the reading area to be read surrounded by ruled lines is shown for each item. The reading area of item 1 is stored as format data in which the size from the top side of the form is Y 11 mm, the size from the left side is X 11 mm, the height of the area is ΔY 11 mm, and the width of the area is ΔX 11 mm. It is stored in the device 33. The reading area for item 2 is
The dimension from the top side of the form is Y 12 mm, the dimension from the left side is X 12
mm, the height of the area is ΔY 12 mm, and the width of the area is ΔX 12 mm, which is stored in the storage device 33. That is, it is assumed that these format data are registered in the storage device 13 as format information. From these format data, the working memory 3
The corresponding reading area in the form image developed in 2-1 is specified. This specifying method is easily specified by converting the size of the format data into the number of dots in the memory 32-1 according to the resolution of the image input unit.

【0013】図8は、図7中の読取項目1 に対応する帳
票のイメージとフォーマットデータを示す図である。図
8のように、実線枠で示された帳票40上の読取り領域
Cと、破線枠で示されたフォーマットデータの特定する
領域Dとにずれがある場合、このままでは正しいOCR
の読取りができず、フォーマットデータの補正が必要と
なる。図9は、図6によるフォーマットデータの補正方
法を示す図である。図9には、実線で示された帳票の実
際の読取領域枠41と、破線で示されたフォーマットデ
ータから得られた読取領域枠42の位置とが、示されて
いる。まず、破線の周囲の左右方向にα1 ずつ、上下方
向にβ1 ずつ広げた領域を設定する。つまり、一点破線
で示された領域43を設定する。このα1 ,β1 は、帳
票中の読取対象となるすべての項目の領域において、領
域枠のずれを吸収できるように、あらかじめ求められて
いるものとする。次に、作業用メモリ32−1を用い
て、一点破線の領域43内でX軸及びY軸の各方向につ
いての黒点数の射影を行なう。Y軸方向の射影結果44
は、X座標を固定にした時のY座標の領域43内の上辺
から下辺までに含まれている黒点を計数したものであ
り、X軸方向の射影結果45は、Y座標を固定にした時
のX座標の領域43内の左辺から右辺までに含まれてい
る黒点を計数したものとなる。
FIG. 8 is a diagram showing an image of a form and format data corresponding to the read item 1 in FIG. As shown in FIG. 8, when there is a deviation between the reading area C on the form 40 indicated by the solid line frame and the area D specified by the format data indicated by the broken line frame, the OCR is correct as it is.
Cannot be read, and format data must be corrected. FIG. 9 is a diagram showing a method of correcting the format data according to FIG. FIG. 9 shows the actual reading area frame 41 of the form shown by the solid line and the position of the reading area frame 42 obtained from the format data shown by the broken line. First, an area around the broken line is set to be widened by α 1 in the horizontal direction and β 1 in the vertical direction. That is, the area 43 indicated by the dashed line is set. It is assumed that α 1 and β 1 are obtained in advance so that the shift of the area frame can be absorbed in the areas of all the items to be read in the form. Next, the work memory 32-1 is used to project the number of black points in each of the X-axis and Y-axis directions within the area 43 indicated by a dashed line. Projection result in Y-axis direction 44
Is a count of black dots included from the upper side to the lower side in the Y coordinate area 43 when the X coordinate is fixed, and the projection result 45 in the X axis direction is when the Y coordinate is fixed. The number of black dots included in the left side to the right side of the X-coordinate area 43 is counted.

【0014】各射影結果44,45には、黒点数が他の
領域より飛び抜けて多い部分がそれぞれ2か所ずつあ
る。黒点数の飛び抜けて多い部分が、実際の帳票上の読
み取り領域41の罫線部分に相当する。この射影から求
められた罫線の位置は本帳票イメージの上辺および左辺
からドット数で求められるため、これを、データを取得
したイメージ入力部31の解像度で計算すると、実際の
帳票上の寸法として、それぞれX*11 ,Y*11 ,ΔX
*11 ,ΔY*11 の値が求められる。即ち、各X*11,Y
*11 ,ΔX*11 ,ΔY*11 は、実際に即して補正された
値である。この求められた各寸法値X*11 ,Y*11 ,Δ
*11 ,ΔY*11 を、新たなフォーマットデータとし
て、当初記憶装置33に登録されていた各値X11
11,ΔX11,ΔY11の代わりに使用して読取を行なう
ことで、読取項目を正確に読取ることが可能になる。こ
の繰り返しを帳票の全読取り領域に対して行なうこと
で、全読取領域に対するOCRの正しい読取が可能にな
る。
In each of the projection results 44 and 45, there are two portions where the number of black spots is far greater than that of other areas. The portion where the number of black dots is by far the largest corresponds to the ruled line portion of the reading area 41 on the actual form. Since the position of the ruled line obtained from this projection is obtained by the number of dots from the upper and left sides of this form image, if this is calculated by the resolution of the image input unit 31 that acquired the data, it will be the actual size on the form. X * 11 , Y * 11 , ΔX
The values of * 11 and ΔY * 11 are obtained. That is, each X * 11 , Y
* 11 , ΔX * 11 , and ΔY * 11 are values that are actually corrected. Each of the obtained dimension values X * 11 , Y * 11 , Δ
X * 11, [Delta] Y * 11, as new format data, the values have been registered in the initial storage device 33 X 11,
By using the reading instead of Y 11 , ΔX 11 , and ΔY 11 , the reading item can be read accurately. By repeating this process for all the reading areas of the form, it is possible to correctly read the OCR for all the reading areas.

【0015】以上のように、第2の実施形態によれば、
既に登録済のフォーマット情報を参照し、作業用メモリ
32−1を利用して対象帳票のイメージデータに対する
実際に即したフォーマット情報の補正を行い、補正した
フォーマット情報を用いてOCRが読取りを行なうよう
になっているので、実際の帳票の読取領域に、若干のず
れがあっても、正しい読取を行うことができる。なお、
本発明は上記実施形態に限定されず、種々の変形が可能
である。例えば、第1の実施形態において、専用のイメ
ージセンサ11を使用しているが、OCRに帳票のイメ
ージを取込む機能と、パーソナルコンピュータ12に対
し、取込んだイメージデータを送信する機能を有するも
のであれば、OCRと兼用することも可能である。ま
た、第2の実施形態では、1帳票種類毎にフォーマット
データを持つことを前提としているが、全帳票における
ずれの範囲が補正の範囲に入っていれば、全帳票に対し
て1種類の帳票のフォーマットデータを共通に用いて補
正することができる。この場合、フォーマット情報を登
録する記憶装置33を、極めて小規模にすることができ
る。
As described above, according to the second embodiment,
By referring to the already-registered format information, the working memory 32-1 is used to correct the format information in accordance with the image data of the target form, and the OCR reads using the corrected format information. Therefore, even if there is a slight deviation in the actual reading area of the form, correct reading can be performed. In addition,
The present invention is not limited to the above embodiment, and various modifications can be made. For example, in the first embodiment, the dedicated image sensor 11 is used, but it has a function of capturing the image of the form in the OCR and a function of transmitting the captured image data to the personal computer 12. In that case, it can be used also as the OCR. In addition, in the second embodiment, it is premised that there is format data for each form type, but if the range of deviation in all forms is within the correction range, one form for all forms It is possible to perform correction by commonly using the format data of. In this case, the storage device 33 for registering the format information can be made extremely small.

【0016】[0016]

【発明の効果】以上詳細に説明したように、第1の発明
によれば、フォーマット情報登録装置において、対象帳
票のフォーマットイメージを取込み、登録ずみのフォー
マット情報から抽出した読取位置を中心にして、フォー
マットイメージ上における読取位置を囲む周囲領域を設
定し、その周囲領域内の射影で正規の読取位置を求め、
登録済みフォーマット情報をその正規の読取位置に対応
するフォーマット情報に置換するので、光学式文字読取
装置の読取るべき位置の補正が、補正作業の間違いなく
かつ極めて効率よく行われる。よって、実際の帳票の読
取領域に、若干のずれがあっても、正しい読取を行うこ
とができる。また、フォーマット登録装置だけで、フォ
ーマット情報の補正を実現しているので、OCR本体に
なんら影響を与えることがないというメリットもある。
第2の発明によれば、OCRに対象帳票のフォーマット
イメージを取込み、登録済みのフォーマット情報から抽
出した読取位置を中心にして、フォーマットイメージ上
における読取位置を囲む周囲領域を設定し、その周囲領
域内の射影を行い、対象帳票における正規の読取位置を
求め、登録済みフォーマット情報に代えてその正規の読
取位置に対応するフォーマット情報を用いることで記載
項目に対する読取位置を補正するようにしているので、
実際の帳票の読取領域に、若干のずれがあっても、正し
い読取を行うことができる。
As described in detail above, according to the first aspect of the invention, in the format information registration device, the format image of the target form is taken in and the reading position extracted from the registered format information is centered, Set the surrounding area surrounding the reading position on the format image, find the regular reading position by projection in the surrounding area,
Since the registered format information is replaced with the format information corresponding to the regular reading position, the correction of the position to be read by the optical character reading device can be performed without error in the correction work and extremely efficiently. Therefore, even if there is a slight deviation in the actual reading area of the form, correct reading can be performed. Further, since the format information is corrected only by the format registration device, there is an advantage that the OCR body is not affected at all.
According to the second aspect of the invention, the format image of the target form is captured in the OCR, and the surrounding area surrounding the reading position on the format image is set around the reading position extracted from the registered format information. In order to correct the reading position for the described item by performing the projection of the inside, obtaining the regular reading position in the target form, and using the format information corresponding to the regular reading position instead of the registered format information. ,
Correct reading can be performed even if there is a slight deviation in the actual reading area of the form.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の第1の実施形態を示すフォーマット登
録装置の構成ブロック図である。
FIG. 1 is a configuration block diagram of a format registration device showing a first embodiment of the present invention.

【図2】従来のOCRの読取方法を説明する図である。FIG. 2 is a diagram illustrating a conventional OCR reading method.

【図3】フォーマット情報の概念の一部を示す図であ
る。
FIG. 3 is a diagram showing a part of the concept of format information.

【図4】図3中の読取項目1 に対応する帳票のイメージ
とフォーマットデータを示す図である。
FIG. 4 is a diagram showing an image and format data of a form corresponding to read item 1 in FIG.

【図5】図1のフォーマットデータの補正方法を示す図
である。
5 is a diagram showing a method of correcting the format data of FIG.

【図6】本発明の第2の実施形態を示すOCRの構成ブ
ロック図である。
FIG. 6 is a configuration block diagram of an OCR showing a second embodiment of the present invention.

【図7】図6におけるフォーマット情報の概念の一部を
示す図である。
7 is a diagram showing a part of the concept of format information in FIG.

【図8】図7中の読取項目1 に対応する帳票のイメージ
とフォーマットデータを示す図である。
FIG. 8 is a diagram showing an image and format data of a form corresponding to read item 1 in FIG.

【図9】図6によるフォーマットデータの補正方法を示
す図である。
9 is a diagram showing a method for correcting format data according to FIG.

【符号の説明】[Explanation of symbols]

11 イメージリーダ 12 パーソナルコンピュータ 13,33 記憶装置 31 イメージ入力部 32 読取制御部 20,40 帳票 11 Image Reader 12 Personal Computer 13,33 Storage Device 31 Image Input Unit 32 Reading Control Unit 20,40 Form

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】 帳票中の記載項目を光学式文字読取装置
で読取る際に用いられる帳票種類毎のフォーマット情報
を登録するフォーマット情報登録装置において、 対象帳票のフォーマットイメージを取込み、 前記フォーマット情報登録装置に登録済の前記対象帳票
のフォーマット情報から抽出した光学式文字読取装置の
読取位置を中心にして、前記フォーマットイメージ上に
おける前記光学式文字読取装置の読取位置を囲む周囲領
域を設定し、 前記フォーマットイメージに対して前記周囲領域内のX
軸方向とY軸方向の射影を行い、前記対象帳票における
正規の前記読取位置を求め、前記登録済みフォーマット
情報をその正規の読取位置に対応するフォーマット情報
に置換することで前記光学式文字読取装置の読取るべき
位置を補正することを特徴とする光学式文字読取装置の
読取フォーマット位置補正方法。
1. A format information registration device for registering format information for each form type, which is used when an item to be written in a form is read by an optical character reading device, wherein a format image of a target form is taken in, and the format information registration device is used. Centering the reading position of the optical character reading device extracted from the format information of the target form registered in, the surrounding area surrounding the reading position of the optical character reading device on the format image is set, X in the surrounding area for the image
The optical character reading device by performing projection in the axial direction and the Y-axis direction to obtain the regular reading position in the target form and replacing the registered format information with the format information corresponding to the regular reading position. A method for correcting a read format position of an optical character reading device, which comprises correcting a position to be read by the device.
【請求項2】 登録された帳票種類毎のフォーマット情
報を用いて対象帳票中の記載項目を読取る光学式文字読
取装置において、 前記対象帳票のフォーマットイメージを取込み、 前記対象帳票に対する登録済みの前記フォーマット情報
から抽出した前記光学式文字読取装置の読取位置を中心
にして、前記フォーマットイメージ上における該読取位
置を囲む周囲領域を設定し、 前記フォーマットイメージに対して前記周囲領域内のX
軸方向とY軸方向の射影を行い、前記対象帳票における
正規の前記読取位置を求め、前記登録済みフォーマット
情報に代えてその正規の読取位置に対応するフォーマッ
ト情報を用いることで前記記載項目に対する光学式文字
読取装置の読取位置を補正することを特徴とする光学式
文字読取装置の読取フォーマット位置補正方法。
2. An optical character reading device for reading items described in a target form by using format information for each registered form type, wherein a format image of the target form is taken in and the registered format for the target form is read. A surrounding area surrounding the reading position on the format image is set around the reading position of the optical character reading device extracted from the information, and X in the surrounding area is set with respect to the format image.
By performing projection in the axial direction and the Y-axis direction to obtain the regular reading position in the target form, and using the format information corresponding to the regular reading position instead of the registered format information, A method for correcting a read format position of an optical character reading device, which comprises correcting the reading position of a character reading device.
JP7219235A 1995-08-28 1995-08-28 Reading format position correction method for optical character reader Pending JPH0962780A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7219235A JPH0962780A (en) 1995-08-28 1995-08-28 Reading format position correction method for optical character reader

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7219235A JPH0962780A (en) 1995-08-28 1995-08-28 Reading format position correction method for optical character reader

Publications (1)

Publication Number Publication Date
JPH0962780A true JPH0962780A (en) 1997-03-07

Family

ID=16732334

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7219235A Pending JPH0962780A (en) 1995-08-28 1995-08-28 Reading format position correction method for optical character reader

Country Status (1)

Country Link
JP (1) JPH0962780A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6618504B1 (en) 1996-11-15 2003-09-09 Toho Business Management Center Business management system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6618504B1 (en) 1996-11-15 2003-09-09 Toho Business Management Center Business management system

Similar Documents

Publication Publication Date Title
CA1160347A (en) Method for recognizing a machine encoded character
US20050185858A1 (en) Image processing method and apparatus and storage medium
JP2003018393A (en) Image processing system
JPH10301701A (en) Device for inputting handwritten data and program storing medium for the same
JPH0962780A (en) Reading format position correction method for optical character reader
JPS638889A (en) Information processor
JPH08329187A (en) Document reader
WO1991002327A1 (en) Digital data reader of digital data recording sheet
JP3299066B2 (en) Pattern inspection apparatus and method
JPH096865A (en) Method and device for generating format information
JP2824372B2 (en) Report recognition device
US20220245957A1 (en) Image processing apparatus, image processing method, and storage medium
JP2784502B2 (en) Method and apparatus for recording and reading two-dimensional data on digital data recording paper.
JPH09185675A (en) Format analytic method
JPS61220075A (en) Rejected character processing system for character recognition system
JP2001126025A (en) For ocr format parameter generation method
JPH0696272A (en) Business form format definition body generating device
JP4081074B2 (en) Form processing apparatus, form processing method, and form processing program
JPH08202818A (en) Format information processor
JPH08315068A (en) Method and device for identifying document format
JPH11250179A (en) Character reocognition device and its method
JP3356819B2 (en) Mark recognition device
JPH07306911A (en) Ocr reading result correcting device
JPH06332968A (en) Drawing input management method
JPH1159345A (en) Safety check certificate reading device in vehicle data processing system

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040715

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041012

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050517