JPH1173472A - Format information registering method and ocr system - Google Patents

Format information registering method and ocr system

Info

Publication number
JPH1173472A
JPH1173472A JP9249614A JP24961497A JPH1173472A JP H1173472 A JPH1173472 A JP H1173472A JP 9249614 A JP9249614 A JP 9249614A JP 24961497 A JP24961497 A JP 24961497A JP H1173472 A JPH1173472 A JP H1173472A
Authority
JP
Japan
Prior art keywords
information
area
recognition
item
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9249614A
Other languages
Japanese (ja)
Other versions
JP3394694B2 (en
Inventor
Kiyoshi Ishihara
清志 石原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP24961497A priority Critical patent/JP3394694B2/en
Publication of JPH1173472A publication Critical patent/JPH1173472A/en
Application granted granted Critical
Publication of JP3394694B2 publication Critical patent/JP3394694B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

PROBLEM TO BE SOLVED: To lighten the burden of the registration of format information on an operator by providing an item search part which generates the formation information representing the coordinate information on a recognition area position corresponding to each item name by referring to a key item data base and layout information. SOLUTION: The key item DB 5 and layout information 4 are used to detect coordinate information on an area into which an item name 'address' is entered by referring to the layout information 4. It is judged that two areas positioned below the area are areas wherein information corresponding to the address is entered. Consequently, when the item name is 'address' as to a document having a sheet ID of 110, the coordinates of two stages of the areas below found with the layout information 4 are recorded as position information in the format information 6. This process can be performed by adding a specific judging process to the existent function that the OCR system has. Then those processes can be performed automatically, so the burden on the operator is lightened.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、帳票上に記録され
た文字やマークを読み取る場合に、予め読み取り対象と
なる帳票のフォーマット情報を取得して登録するため
の、フォーマット情報登録方法及びOCRシステムに関
する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a format information registration method and an OCR system for acquiring and registering format information of a form to be read in advance when reading characters and marks recorded on the form. About.

【0002】[0002]

【従来の技術】各種の商取引や事務管理に使用される帳
票に記入された情報をコンピュータに入力して活用する
ために、OCRシステムが利用される。このシステムで
は、帳票のイメージを読み取り、指定された箇所に記入
された文字を切り出して認識し、文字コード化して情報
処理用のデータとする。こうしたシステムでは、読み取
り対象となる帳票上の文字や図形等の情報が記入される
べき位置を、予めフォーマット情報として登録しておく
必要がある。2種類以上の帳票を混在させ、それぞれ必
要な情報を読み取り、認識する場合には、各帳票毎にフ
ォーマット情報を登録しておく必要がある。このような
フォーマット情報の登録作業は、オペレータが専用のエ
ディタ等を用いて手作業でコンピュータに入力するよう
にしていた。
2. Description of the Related Art An OCR system is used for inputting information entered in forms used for various kinds of business transactions and office management into a computer and utilizing the information. In this system, an image of a form is read, a character written in a specified location is cut out and recognized, and converted into a character code to obtain data for information processing. In such a system, the position where information such as characters and figures on the form to be read is to be written needs to be registered in advance as format information. When two or more forms are mixed and necessary information is read and recognized, it is necessary to register format information for each form. An operator manually inputs such format information into the computer using a dedicated editor or the like.

【0003】[0003]

【発明が解決しようとする課題】ところで、上記のよう
な従来の技術には次のような解決すべき課題があった。
読み取り対象となる帳票の種類が数多くなると、オペレ
ータによるフォーマット情報登録作業が煩雑になる。ま
た、帳票が複雑な構成をしているような場合にも、オペ
レータの登録作業に大きな負荷がかかる。また、同一の
項目を記入するための帳票であっても、その記入位置が
わずかに異なるような帳票が何種類かあると、これらの
帳票について全て所定の登録作業を行う必要があり、オ
ペレータの大きな負担になっていた。
However, the above-mentioned prior art has the following problems to be solved.
If there are many types of forms to be read, the format information registration work by the operator becomes complicated. Further, even when the form has a complicated configuration, a heavy load is imposed on the registration work of the operator. In addition, even if a form is to be filled in with the same items, if there are several kinds of forms in which the entry positions are slightly different, it is necessary to perform predetermined registration work on all these forms, and It was a heavy burden.

【0004】[0004]

【課題を解決するための手段】本発明は以上の点を解決
するため次の構成を採用する。 〈構成1〉任意の情報を記入した帳票のイメージを読み
取る画像入力部と、上記情報を認識して文字コード化す
る認識部と、上記帳票に記入される項目名と、その項目
に関する情報が記入されて文字認識をするための認識領
域と項目名との位置関係と、認識領域位置の個数とを表
示したキー項目データベースと、上記画像入力部で読み
取った、帳票のイメージ中に含まれる罫線で囲まれた領
域の座標情報と、その領域に記入された文字の認識結果
を表示したレイアウト情報とを生成するレイアウト解析
部と、上記キー項目データベースとレイアウト情報とを
参照することにより、項目名毎に、対応する認識領域位
置の座標情報を表示したフォーマット情報を生成する項
目探索部を備えたことを特徴とするOCRシステム。
The present invention employs the following structure to solve the above problems. <Structure 1> An image input unit for reading an image of a form in which arbitrary information is entered, a recognition unit for recognizing the information and converting it into a character code, and an item name to be entered in the form and information about the item are entered. The key item database that displays the positional relationship between the recognition area and the item name for character recognition and the number of recognition area positions, and the ruled lines included in the image of the form read by the image input unit. By referring to the key item database and the layout information, the layout analysis unit generates coordinate information of the enclosed region and layout information displaying the recognition result of the character written in the region. An OCR system, further comprising an item search unit for generating format information displaying coordinate information of a corresponding recognition area position.

【0005】〈構成2〉任意の情報を記入した帳票のイ
メージを読み取って、上記情報を認識して文字コード化
するために、予め当該帳票の情報記入位置を表示するフ
ォーマット情報を生成する場合に、上記帳票に記入され
る項目名と、その項目に関する情報が記入されて文字認
識をするための認識領域と項目名との位置関係と、認識
領域位置の個数とを表示したキー項目データベースを予
め用意し、上記帳票のイメージを読み取って、その帳票
のイメージ中に含まれる罫線で囲まれた領域の座標情報
と、その領域に記入された文字の認識結果を表示したレ
イアウト情報とを生成し、上記キー項目データベースと
レイアウト情報とを参照することにより、項目名毎に、
対応する認識領域位置の座標情報を表示したフォーマッ
ト情報を生成することを特徴とするフォーマット情報登
録方法。
<Structure 2> In order to read an image of a form on which arbitrary information is entered, recognize the information, and convert it into a character code, format information for displaying the information entry position of the form is generated in advance. In advance, a key item database that displays the item names to be entered in the form, the positional relationship between the recognition area and the item names in which information on the items is written and character recognition is performed, and the number of recognition area positions is stored in advance. Prepare, read the image of the form, generate the coordinate information of the area surrounded by the ruled line included in the image of the form, and the layout information displaying the recognition result of the character written in the area, By referring to the key item database and the layout information, for each item name,
A format information registration method characterized by generating format information displaying coordinate information of a corresponding recognition area position.

【0006】〈構成3〉任意の情報を記入した帳票のイ
メージを読み取って、上記情報を認識して文字コード化
するために、予め当該帳票の情報記入位置を表示するフ
ォーマット情報を生成する場合に、上記帳票に記入され
る階層構造の項目名と、階層構造から見て最下位の階層
にある項目に関する情報が記入されて文字認識をするた
めの認識領域と項目名との位置関係と、認識領域位置の
個数とを表示したキー項目データベースを予め用意し、
上記帳票のイメージを読み取って、その帳票のイメージ
中に含まれる罫線で囲まれた領域の座標情報と、その領
域に記入された文字の認識結果を表示したレイアウト情
報とを生成し、上記キー項目データベースとレイアウト
情報とを参照することにより、上記階層構造の項目名毎
に、対応する認識領域位置の座標情報を表示したフォー
マット情報を生成することを特徴とするフォーマット情
報登録方法。
<Structure 3> In order to read an image of a form on which arbitrary information is entered, recognize the information and convert it to a character code, format information for displaying the information entry position of the form is generated in advance. And the positional relationship between the item name of the hierarchical structure to be entered in the form, the recognition area in which information on the item at the lowest level in the hierarchical structure is written and character recognition, and the item name, Prepare a key item database that displays the number of area positions and
The image of the form is read, and coordinate information of an area surrounded by a ruled line included in the image of the form and layout information displaying a recognition result of a character written in the area are generated, and the key item is generated. A format information registration method characterized by generating format information displaying coordinate information of a corresponding recognition area position for each item name of the hierarchical structure by referring to a database and layout information.

【0007】〈構成4〉任意の情報を記入した帳票のイ
メージを読み取って、上記情報を認識して文字コード化
するために、予め当該帳票の情報記入位置を表示するフ
ォーマット情報を生成する場合に、上記帳票に記入され
る項目名と、その項目に関する情報が記入されて文字認
識をするための認識領域と項目名との位置関係と、認識
領域位置の個数と、認識領域に予め記入されている一定
のイメージ情報を表示したキー項目データベースを予め
用意し、上記帳票のイメージを読み取って、その帳票の
イメージ中に含まれる罫線で囲まれた領域の座標情報
と、その領域に記入された文字の認識結果を表示したレ
イアウト情報とを生成し、上記キー項目データベースと
レイアウト情報とを参照し、かつ、項目名に対応する認
識領域と判断した領域中に予め記入されているイメージ
と上記イメージ情報とを照合することにより、項目名毎
に、対応する認識領域位置の座標情報を表示したフォー
マット情報を生成することを特徴とするフォーマット情
報登録方法。
<Structure 4> In order to read an image of a form on which arbitrary information is entered, recognize the information and convert it to a character code, the format information for displaying the information entry position of the form in advance is generated. The item name to be entered in the form, the positional relationship between the recognition area and the item name in which information about the item is written and character recognition is performed, the number of recognition area positions, and the information is pre-filled in the recognition area. A key item database displaying certain image information is prepared in advance, the image of the form is read, the coordinate information of the area surrounded by the ruled line included in the image of the form, and the character written in the area The layout information displaying the recognition result of the item is generated, the key item database and the layout information are referred to, and the area determined as the recognition area corresponding to the item name is generated. Advance by collating the image and the image information are entered, for each item name, format information registration method and generates format information displaying the coordinate information of the corresponding recognition region located in.

【0008】〈構成5〉任意の情報を記入した帳票のイ
メージを読み取って、上記情報を認識して文字コード化
するために、予め当該帳票の情報記入位置を表示するフ
ォーマット情報を生成する場合に、上記帳票に記入され
る項目名と、その項目に関する情報が記入されて文字認
識をするための認識領域に予め記入されている一定のイ
メージ情報を表示したキー項目データベースを予め用意
し、上記帳票のイメージを読み取って、その帳票のイメ
ージ中に含まれる罫線で囲まれた領域の座標情報と、そ
の領域に記入された文字の認識結果を表示したレイアウ
ト情報とを生成し、上記レイアウト情報に表示された領
域中に予め記入されているイメージと上記イメージ情報
とを照合することにより、対応する項目名を判定し、項
目名毎に、対応する認識領域位置の座標情報を表示した
フォーマット情報を生成することを特徴とするフォーマ
ット情報登録方法。
<Structure 5> In order to read an image of a form in which arbitrary information is entered, recognize the information and convert it to a character code, format information for displaying the information entry position of the form in advance is required. A key item database is prepared in advance, in which an item name to be entered in the form and information about the item are entered and a certain image information which is previously entered in a recognition area for character recognition is prepared. And generates the coordinate information of the area surrounded by the ruled line included in the image of the form and the layout information displaying the recognition result of the character written in the area, and displays the information in the layout information. The corresponding item name is determined by comparing the image information pre-filled in the designated area with the image information, and the corresponding item name is determined for each item name. Format information registration method and generates format information displaying the coordinate information of the recognition area position.

【0009】〈構成6〉任意の情報を記入した帳票のイ
メージを読み取って、上記情報を認識して文字コード化
するために、予め当該帳票の情報記入位置を表示するフ
ォーマット情報を生成する場合に、上記帳票に記入され
る項目名と、その項目に関する情報が記入されて文字認
識をするための認識領域に予め記入されている一定の文
字情報を表示したキー項目データベースを予め用意し、
上記帳票のイメージを読み取って、その帳票のイメージ
中に含まれる罫線で囲まれた領域の座標情報と、その領
域に記入された文字の認識結果を表示したレイアウト情
報とを生成し、上記レイアウト情報に表示された領域中
に予め記入されている文字と上記文字情報とを照合する
ことにより、対応する項目名を判定し、項目名毎に、対
応する認識領域位置の座標情報を表示したフォーマット
情報を生成することを特徴とするフォーマット情報登録
方法。
<Structure 6> In order to read an image of a form in which arbitrary information is entered, recognize the information and convert it to a character code, the format information for displaying the information entry position of the form is generated in advance. An item name to be entered in the form, and a key item database in which predetermined character information is displayed in advance in a recognition area in which information relating to the item is entered and character recognition is performed.
The image of the form is read, and coordinate information of an area surrounded by a ruled line included in the image of the form and layout information displaying a recognition result of a character written in the area are generated, and the layout information is generated. The format information that displays the coordinate information of the corresponding recognition area position by determining the corresponding item name by comparing the character information previously written in the area displayed in the area with the character information, and for each item name A format information registration method characterized by generating a format information.

【0010】〈構成7〉構成6に記載の方法において、
キー項目データベースには、領域中に予め記入されてい
る文字を照合するための認識辞書が格納されていること
を特徴とするフォーマット情報登録方法。
<Structure 7> In the method according to Structure 6,
A method for registering format information, characterized in that a recognition dictionary for collating characters previously written in an area is stored in a key item database.

【0011】〈構成8〉任意の情報を記入した帳票のイ
メージを読み取って、上記情報を認識して文字コード化
するために、予め当該帳票の情報記入位置を表示するフ
ォーマット情報を生成する場合に、上記帳票に記入され
る項目名と、その項目に関する情報が記入されて文字認
識をするための認識領域と項目名との位置関係と、認識
領域位置の個数と、上記項目に関する情報が記入されて
文字認識をするための認識領域に予め記入されている一
定の情報を表示したキー項目データベースを予め用意
し、上記帳票のイメージを読み取って、その帳票のイメ
ージ中に含まれる罫線で囲まれた領域の座標情報と、そ
の領域に記入された文字の認識結果を表示したレイアウ
ト情報とを生成し、上記キー項目データベースとレイア
ウト情報とを参照することにより、項目名毎に、対応す
る認識領域位置の座標情報を表示するとともに、上記認
識領域中に予め記入されている情報と上記キー項目デー
タベース中の一定の情報とが一致した場合に、その判定
の確からしさを示す重みづけ情報を表示したフォーマッ
ト情報を生成することを特徴とするフォーマット情報登
録方法。
<Structure 8> In order to read an image of a form on which arbitrary information is entered, recognize the information and convert it to a character code, the format information for displaying the information entry position of the form in advance is generated. The item name to be entered in the form, information on the item is entered, the positional relationship between the recognition area and the item name for character recognition, the number of recognition area positions, and information on the item are entered. A key item database displaying certain information previously written in a recognition area for character recognition is prepared in advance, the image of the form is read, and the image is surrounded by a ruled line included in the image of the form. The coordinate information of the area and the layout information displaying the recognition result of the character written in the area are generated, and the key item database and the layout information are referred to. By this, for each item name, the coordinate information of the corresponding recognition area position is displayed, and when the information pre-filled in the recognition area matches certain information in the key item database, the A format information registration method characterized by generating format information displaying weighting information indicating the likelihood of a determination.

【0012】〈構成9〉任意の情報を記入した帳票のイ
メージを読み取って、上記情報を認識して文字コード化
するために、予め当該帳票の情報記入位置を表示するフ
ォーマット情報を生成する場合に、上記帳票に記入され
る項目名と、その項目に関する情報が記入されて文字認
識をするための認識領域に予め記入された識別情報とを
表示したキー項目データベースを予め用意し、上記帳票
のイメージを読み取って、その帳票のイメージ中に含ま
れる罫線で囲まれた領域の座標情報と、その領域に記入
された文字と上記識別情報の認識結果を表示したレイア
ウト情報とを生成し、上記キー項目データベースとレイ
アウト情報とを参照することにより、識別情報をもとに
して、その識別情報を記入した欄と項目名とを対応付
け、項目名毎に、対応する認識領域位置の座標情報を表
示したフォーマット情報を生成することを特徴とするフ
ォーマット情報登録方法。
<Structure 9> In order to read an image of a form in which arbitrary information is entered, recognize the information and convert it to a character code, the format information for displaying the information entry position of the form in advance is generated. An item name to be entered in the form and a key item database in which information on the item is entered and identification information previously entered in a recognition area for character recognition are prepared in advance, and an image of the form is prepared. To generate the coordinate information of the area surrounded by the ruled line included in the image of the form, and the layout information displaying the characters written in the area and the recognition result of the identification information, and generating the key item By referring to the database and the layout information, the column in which the identification information is entered is associated with the item name based on the identification information. Format information registration method characterized by generating display the format information coordinate information of the recognition area position.

【0013】[0013]

【発明の実施の形態】以下、本発明の実施の形態を具体
例を用いて説明する。 〈具体例〉図1は、本発明によるフォーマット情報登録
方法の説明図である。本発明においては、図に示すよう
な帳票1のイメージを読み取って、OCRシステムで使
用するフォーマット情報6を自動的に生成する。この図
には、その手順を概略的に図示した。帳票1は、例えば
その左上隅にシートID2を記入した構成のものであ
る。このシートID2は、帳票1の種別を表す各帳票毎
に固有の記号である。
DESCRIPTION OF THE PREFERRED EMBODIMENTS Embodiments of the present invention will be described below using specific examples. <Specific Example> FIG. 1 is an explanatory diagram of a format information registration method according to the present invention. In the present invention, an image of the form 1 as shown in the figure is read, and the format information 6 used in the OCR system is automatically generated. In this figure, the procedure is schematically illustrated. The form 1 has, for example, a configuration in which a sheet ID 2 is entered in the upper left corner. The sheet ID 2 is a unique symbol for each form representing the type of the form 1.

【0014】この帳票には、例えば住所や氏名等を記入
する欄が設けられている。こうした記入欄は図に示すよ
うに罫線3で囲まれている。一般のOCRシステムに
は、帳票1のイメージを読み取ったとき、その中に記入
された罫線で囲まれた領域を認識し、その領域の座標情
報を得る機能がある。その領域内部に記入された文字の
切出し処理を行うためである。フォーマット情報登録処
理の際にも、この機能を利用する。
This form is provided with a column for entering, for example, an address or a name. These entry fields are surrounded by ruled lines 3 as shown in the figure. A general OCR system has a function of recognizing an area surrounded by ruled lines written therein when an image of the form 1 is read, and obtaining coordinate information of the area. This is to perform a process of extracting characters written in the area. This function is also used in the format information registration process.

【0015】即ち、この機能によって、図に示すような
レイアウト情報4を得る。このレイアウト情報4は、例
えば図に示す帳票1の住所を記入する欄の場合に、その
罫線3で囲まれた3つの枠の左上隅と右下隅の座標を求
める。ここでは3組の座標情報が求めてある。また、こ
うして罫線で囲まれた3つの領域を検出すると、続いて
各領域の内部に記入された文字の認識処理を行う。これ
も一般のOCR装置に設けられた機能である。
That is, the layout information 4 as shown in the figure is obtained by this function. The layout information 4 obtains the coordinates of the upper left corner and the lower right corner of the three frames surrounded by the ruled line 3 in the case of, for example, a column for entering the address of the form 1 shown in the figure. Here, three sets of coordinate information are obtained. Further, when the three regions surrounded by the ruled lines are detected in this way, recognition processing of characters written inside each region is subsequently performed. This is also a function provided in a general OCR device.

【0016】帳票1に実際にOCRで取り込むべき情報
が記入されていない状態では、ここには丁度項目名の部
分のみ必要な文字が記入されており、その他の欄は空白
になっている。従って、図に示すようなレイアウト情報
4が得られる。もちろん、このフォーマット情報生成処
理に支障がない限り、その他の欄に適当な文字が記入さ
れていても良い。
In the state where the information to be actually taken in by the OCR is not entered in the form 1, the necessary characters are entered here only in the item name portion, and the other columns are blank. Therefore, layout information 4 as shown in the figure is obtained. Of course, as long as this format information generation processing is not hindered, appropriate characters may be entered in other columns.

【0017】ここで、帳票1のフォーマット情報を自動
的に生成するために、予めキー項目DB(以下データベ
ースを全てDBと表示する)5を用意する。このキー項
目DB5は、図に示すように帳票1に記入されるべき項
目名と、その項目名に対応する情報が記入される領域即
ち認識領域の位置とその個数とを対応付けて記憶し、そ
の内容を表示した情報群である。例えば、図に示す帳票
1の場合、住所という項目が存在すると、その項目名の
下側に2個並んで情報を記入すべき欄が存在する。キー
項目DB5は、このような項目名と情報を記入するべき
欄の位置と個数等の情報を表示する。
Here, in order to automatically generate the format information of the form 1, a key item DB (hereinafter, all databases are referred to as DB) 5 is prepared in advance. The key item DB 5 stores an item name to be entered in the form 1, an area in which information corresponding to the item name is entered, that is, the position of the recognition area and the number thereof, as shown in FIG. This is an information group displaying the contents. For example, in the case of the form 1 shown in the figure, if there is an item called address, there are two columns in which information is to be entered side by side below the item name. The key item DB 5 displays information such as the position and the number of columns in which such item names and information are to be entered.

【0018】なお、この場合の位置というのは、座標で
表示された位置情報とは異なる。項目名の欄からみてど
の方角に認識領域があるかということを示す項目名と認
識領域との位置関係を示す情報である。以下の説明では
これを単に位置として話を進める。このような情報は、
帳票毎に簡単に作成できる。コンピュータに入力するの
も容易である。本発明ではこの情報を利用して、項目毎
に正確な認識領域のイメージ切り出し位置座標を表示し
た、フォーマット情報を自動的に生成する。
Note that the position in this case is different from the position information indicated by coordinates. This is information indicating the positional relationship between the item name indicating which direction the recognition area is located in the field of the item name and the recognition area. In the following description, this is simply referred to as a position. Such information
It can be easily created for each report. It is easy to input to a computer. The present invention uses this information to automatically generate format information that displays the exact image cutout position coordinates of the recognition area for each item.

【0019】ここでまず、このようなキー項目DB5と
レイアウト情報4とを利用して、住所という項目名を記
入した領域の座標情報をレイアウト情報4を参照して検
出する。そして、その領域の下側に位置する2個の領域
を住所に対応する情報が記入される領域と判断する。そ
の結果、図に示すように、フォーマット情報6には、シ
ートIDが110という帳票1について、その項目名が
住所の場合、位置情報はレイアウト情報4で求めた下の
2段の領域の座標が記録される。このような処理はOC
Rシステムの持つ既存の機能に所定の判断処理を付け加
えることによって実行できる。そして、これらの処理は
自動的に実行できるため、オペレータの負担が軽減され
る。なお、こうして得られたフォーマット情報は、その
後オペレータによって点検され、最終的な修正等が加え
られた形で登録されることになる。
First, using such a key item DB 5 and the layout information 4, coordinate information of an area in which an item name such as an address is entered is detected with reference to the layout information 4. Then, two areas located below the area are determined to be areas in which information corresponding to the address is written. As a result, as shown in the figure, in the format information 6, if the item name is an address for the form 1 with the sheet ID of 110, the position information is the coordinates of the lower two-level area obtained from the layout information 4. Be recorded. Such processing is OC
This can be performed by adding a predetermined judgment process to the existing functions of the R system. Since these processes can be automatically executed, the burden on the operator is reduced. The format information obtained in this way is checked by the operator thereafter, and registered in a form in which final correction and the like are added.

【0020】以下、本発明の具体例をそれぞれブロック
図やフローチャート等を用いて順番に説明する。図2
は、本発明によるOCRシステムのブロック図である。
以下に説明する本発明の各具体例を実施するために、例
えばこの図に示すような構成のOCRシステムが採用さ
れる。図のシステムは、バスライン10に、画像入力部
11、画像メモリ12、認識部13、制御部14、項目
探索部15、レイアウト解析部16、レイアウト情報メ
モリ17、キー項目DB18、フォーマット情報DB1
9、フォーマット識別部20、認識結果DB21、入力
部22、表示部23を接続したものである。
Hereinafter, specific examples of the present invention will be sequentially described with reference to block diagrams, flowcharts, and the like. FIG.
1 is a block diagram of an OCR system according to the present invention.
In order to implement each embodiment of the present invention described below, for example, an OCR system having a configuration as shown in FIG. In the system shown in the figure, an image input unit 11, an image memory 12, a recognition unit 13, a control unit 14, an item search unit 15, a layout analysis unit 16, a layout information memory 17, a key item DB 18, a format information DB 1
9, a format identification unit 20, a recognition result DB 21, an input unit 22, and a display unit 23 are connected.

【0021】画像入力部11はイメージスキャナ等によ
り構成され、帳票に記入された文字や図形等を2値デー
タに変換する処理を行う部分である。画像メモリ12
は、こうして得られた画像データをその後の処理のため
に記憶しておく装置である。レイアウト解析部16は、
画像メモリ12に格納された画像データから先に説明し
たように罫線で囲まれた領域を抽出し、切り出された領
域の座標情報をレイアウト情報メモリ17に格納する機
能を持つ部分である。
The image input section 11 is composed of an image scanner or the like, and is a section for performing a process of converting characters, figures, and the like entered on a form into binary data. Image memory 12
Is an apparatus for storing the image data thus obtained for subsequent processing. The layout analysis unit 16
As described above, this section has a function of extracting an area surrounded by ruled lines from the image data stored in the image memory 12 and storing coordinate information of the extracted area in the layout information memory 17.

【0022】認識部13は、レイアウト情報メモリ17
やフォーマット情報DB19に格納された各領域の座標
情報を参照して、画像メモリ12に格納された画像デー
タの対応する領域に記入された文字列を認識し、文字コ
ードに変換する部分である。その認識結果は、レイアウ
ト情報メモリ17や認識結果DB21に格納される。
The recognition unit 13 has a layout information memory 17
A part that recognizes a character string written in a corresponding area of the image data stored in the image memory 12 with reference to the coordinate information of each area stored in the format information DB 19 and converts the character string into a character code. The recognition result is stored in the layout information memory 17 or the recognition result DB 21.

【0023】レイアウト情報メモリ17は、レイアウト
解析部16によって抽出された領域の座標情報と、認識
部13によって認識された文字列とを格納する部分であ
る。キー項目DB18は、既に説明したように、項目名
や認識領域位置、個数等の情報を格納しておく部分であ
る。項目探索部15は、レイアウト情報メモリ17に格
納された領域の座標情報と文字列とを、キー項目DB1
8に格納された情報で探索し、検索した結果をフォーマ
ット情報DB19に格納する機能を持つ。この部分が既
に説明したフォーマット情報自動生成を実行する部分で
ある。
The layout information memory 17 is a section for storing the coordinate information of the area extracted by the layout analysis section 16 and the character string recognized by the recognition section 13. As described above, the key item DB 18 is a part for storing information such as an item name, a recognition area position, and a number. The item search unit 15 compares the coordinate information of the area and the character string stored in the layout information memory 17 with the key item DB1.
8 has a function of searching for information stored in the format information DB 8 and storing the searched result in the format information DB 19. This is the part for executing the format information automatic generation described above.

【0024】フォーマット情報DB19は、既に説明し
たような構造を持ち、項目探索部15によって探索され
た結果をシートID、項目名、位置情報という形で表示
する部分である。フォーマット識別部20は、画像メモ
リ12に格納された画像データ上のシートIDを読み取
り、フォーマット情報DB19を、読み取ったIDで検
索し、画像データのフォーマットを識別する機能を持
つ。認識結果DB21は、認識部13が出力した文字デ
ータを格納する。これがその後コンピュータ等に取り込
まれ、各種の情報処理に利用されることになる。
The format information DB 19 has a structure as described above, and is a part for displaying a result searched by the item search unit 15 in the form of a sheet ID, an item name, and position information. The format identification unit 20 has a function of reading a sheet ID on the image data stored in the image memory 12, searching the format information DB 19 with the read ID, and identifying the format of the image data. The recognition result DB 21 stores the character data output by the recognition unit 13. This is then taken into a computer or the like and used for various information processing.

【0025】制御部14は、このシステム全体を制御す
る機能を持つ。入力部22はオペレータからの入力を受
け付ける機能を持ち、キーボードやマウス等の機器から
構成される。表示部23はオペレータに対して情報を表
示するディスプレイ等の機器から構成される。
The control section 14 has a function of controlling the entire system. The input unit 22 has a function of receiving an input from an operator, and includes devices such as a keyboard and a mouse. The display unit 23 includes devices such as a display for displaying information to the operator.

【0026】図3には、システムの主要動作フローチャ
ートを示す。システムは、この図に示すように、フォー
マット情報登録処理(ステップS1)と読取処理(ステ
ップS2)とを実行する。フォーマット情報登録処理
は、実際の帳票を読み取りする前に、読取対象となる無
記入の帳票を既に説明した要領で処理し、フォーマット
情報を登録する処理である。即ち、予め一定の形式で印
刷された各種の帳票のフォーマット情報をこの処理によ
ってシートIDに対応付けてフォーマット情報DB19
に登録する。既に説明したように、この帳票は情報を記
入済みのものであっても構わない。
FIG. 3 shows a main operation flowchart of the system. The system executes a format information registration process (step S1) and a reading process (step S2) as shown in FIG. The format information registration process is a process of processing a blank form to be read as described above and reading the format information before reading the actual form. That is, the format information of various forms printed in a predetermined format in advance is associated with the sheet ID by this processing, and the format information DB 19
Register with. As described above, this form may be one in which information has been entered.

【0027】読取処理は、実際の情報を記入した帳票を
読み取り、必要な情報を認識して、その認識結果を得る
処理である。この場合、帳票のシートIDを認識し、フ
ォーマット情報19から対応するフォーマット情報を取
り出し、フォーマット情報に登録された箇所の文字認識
を行って必要な情報を得る。こうして文字認識した結果
は文字コード化されて、認識結果DB21に格納され
る。
The reading process is a process of reading a form on which actual information is written, recognizing necessary information, and obtaining a result of the recognition. In this case, the sheet ID of the form is recognized, the corresponding format information is extracted from the format information 19, and the character registered in the format information is recognized to obtain necessary information. The result of the character recognition is converted into a character code and stored in the recognition result DB 21.

【0028】図4には、上記フォーマット情報登録処理
の動作フローチャートを示す。図のステップS1−1で
は、画像入力処理Aが行われる。これは、図1に示した
帳票のイメージを読み取る処理である。この帳票1には
必要な項目名等が印刷されているが、まだその他の情報
は無記入のままである。ステップS1−2において、図
1に示したようなレイアウト情報4を得るためのレイア
ウト解析処理が実行される。そして、ステップS1−3
において、認識した座標情報を元に各領域中に記入され
た文字の認識処理Aが行われる。ここでは、帳票1に既
に印刷されている項目名等の認識が行われる。そして、
ステップS1−4において、項目探索処理が実行され
る。これは、図1に示したキー項目DB5とレイアウト
情報4を利用してフォーマット情報6を自動的に得る処
理である。
FIG. 4 shows an operation flowchart of the format information registration process. In step S1-1 in the figure, image input processing A is performed. This is a process of reading the image of the form shown in FIG. The required item names and the like are printed on this form 1, but other information is still not entered. In step S1-2, a layout analysis process for obtaining the layout information 4 as shown in FIG. 1 is performed. Then, step S1-3
In, recognition processing A of a character written in each area is performed based on the recognized coordinate information. Here, the recognition of the item names etc. already printed on the form 1 is performed. And
In step S1-4, an item search process is performed. This is a process for automatically obtaining the format information 6 using the key item DB 5 and the layout information 4 shown in FIG.

【0029】その後、ステップS1−5において、探索
結果修正処理が実行される。即ち、自動的に得られたフ
ォーマット情報を図2に示した表示部23に表示してオ
ペレータによる修正や検査を受ける。これによって、完
成したフォーマット情報が図2に示したフォーマット情
報DB19に再登録される。この図4のステップS1−
2〜ステップS1−4に至る各処理が、以下にそれぞれ
の具体例として説明されている。
Thereafter, in step S1-5, a search result correction process is executed. That is, the automatically obtained format information is displayed on the display unit 23 shown in FIG. Thereby, the completed format information is re-registered in the format information DB 19 shown in FIG. Step S1--FIG.
The processes from 2 to S1-4 will be described below as specific examples.

【0030】図5には、読取処理の動作フローチャート
を示す。この動作は、フォーマット情報が登録された
後、実際に各種の情報が記入された帳票のイメージを読
み取り、文字認識を行う処理である。この部分の動作は
従来の装置と全く同様であり、ここでその説明を行い、
以下の具体例においては、フォーマット情報の登録処理
ついてのみ言及することにする。
FIG. 5 shows an operation flowchart of the reading process. This operation is a process in which, after the format information is registered, an image of a form on which various types of information are actually written is read and character recognition is performed. The operation of this part is exactly the same as that of the conventional device.
In the following specific example, only the registration processing of the format information will be described.

【0031】まず、図5のステップS2−1において、
各種の情報が記入された画像データを読み取る画像入力
処理Bが行われる。そして、ステップS2−2におい
て、フォーマット情報を参照し、シートIDに対応する
フォーマット情報を取り出して帳票の種類を識別する。
その後、ステップS2−3において、フォーマット情報
で指定された各領域の座標情報を参照し、その領域に記
入されあるいは印字された文字列を認識して文字コード
に変換する。その結果は、図2で説明した認識結果DB
21に格納される。
First, in step S2-1 in FIG.
Image input processing B for reading image data in which various information is written is performed. In step S2-2, the format information is referred to, the format information corresponding to the sheet ID is extracted, and the type of the form is identified.
Then, in step S2-3, the coordinate information of each area specified by the format information is referred to, and a character string written or printed in the area is recognized and converted into a character code. The result is the recognition result DB described in FIG.
21.

【0032】そして、ステップS2−4において、オペ
レータが認識結果を表示部23に表示し、内容の検査と
修正を行う。こうして修正等の処理が終了すると、その
後認識結果DB21が更新され、他の情報処理装置等に
その結果が転送される。
Then, in step S2-4, the operator displays the recognition result on the display unit 23, and inspects and corrects the content. When the processing such as correction is completed, the recognition result DB 21 is updated thereafter, and the result is transferred to another information processing device or the like.

【0033】以下、上記フォーマット情報登録処理の様
々な実施態様を具体例により順に説明する。 〈具体例1〉図6には、この具体例を含む以下の全ての
具体例において生成するフォーマット情報DBの内容説
明図を示す。この図に示すように、フォーマット情報6
は、シートIDと項目名と位置情報により構成される。
シートIDは、帳票の種類を識別するための文字や記号
で、項目名は帳票上に記入されるべき項目を特定する名
称である。位置情報は、帳票のイメージ上の各罫線で囲
まれた領域の座標情報から構成される。これは、図1を
用いて既に説明した通りである。図の帳票1には、図1
を用いて説明したようなシートIDやその他の項目が表
示されている。各項目には、この図に示すように、項目
名を印刷した領域をK1,K2と表示し、その項目に対
応して情報が記入される領域をJ1,J2,J3と表示
した。
Hereinafter, various embodiments of the format information registration processing will be described in order with specific examples. <Specific Example 1> FIG. 6 is a diagram for explaining the contents of the format information DB generated in all the following specific examples including this specific example. As shown in FIG.
Is composed of a sheet ID, an item name, and position information.
The sheet ID is a character or a symbol for identifying the type of a form, and the item name is a name for specifying an item to be entered on the form. The position information is constituted by coordinate information of an area surrounded by each ruled line on the image of the form. This is as described with reference to FIG. The form 1 shown in FIG.
The sheet ID and other items described with reference to FIG. For each item, as shown in this figure, areas where the item names are printed are indicated as K1 and K2, and areas where information is written corresponding to the items are indicated as J1, J2 and J3.

【0034】図7には、具体例1のキー項目DBの内容
説明図を示す。具体例1においては、例えばこの図に示
すような項目DBが使用される。この項目DB5は、既
に説明したように、項目名と認識領域位置とその個数に
よって構成される。図の右側に示すように、帳票上に記
入される項目が、例えば住所あるいは氏名であるとす
る。
FIG. 7 is a diagram for explaining the contents of the key item DB of the first embodiment. In the specific example 1, for example, an item DB as shown in this figure is used. As described above, the item DB 5 includes an item name, a recognition area position, and the number thereof. As shown on the right side of the figure, it is assumed that an item to be entered on a form is, for example, an address or a name.

【0035】この場合に、住所という項目名K1の下側
に2個の罫線に囲まれた領域J1,J2が存在する。こ
こに住所が記入される。そこで、図のキー項目DB5に
は、住所という項目名の認識領域位置は住所とある欄の
下側であって、その個数が“2”という内容となってい
る。また、氏名という項目K2については、その右側の
罫線に囲まれた領域J3に氏名が実際に記入される。従
って、キー項目DB5には、項目名を氏名とし、その認
識領域位置を右として、個数を“1”というように表現
している。
In this case, there are areas J1 and J2 surrounded by two ruled lines below the item name K1 of the address. The address is entered here. Therefore, in the key item DB5 in the figure, the recognition area position of the item name of the address is below the column with the address, and the number is "2". For the item K2 of the name, the name is actually written in an area J3 surrounded by a ruled line on the right side. Therefore, in the key item DB5, the item name is represented by the name, the recognition area position is set to the right, and the number is expressed as "1".

【0036】上記のように、キー項目DBとレイアウト
情報4を利用したフォーマット情報登録動作を図8を用
いて説明する。図8は、具体例1の動作フローチャート
である。まず、ステップS10において、カウンタ1に
“1”が代入され、RecNumにキー項目DBのレコード数
が代入される。なお、1レコードというのはキー項目D
Bの項目名1つに対応する認識領域位置や個数等の1組
の情報である。ステップS20は、全てのキー項目DB
のレコードについて処理が終了したかを判断する部分で
ある。
The format information registration operation using the key item DB and the layout information 4 as described above will be described with reference to FIG. FIG. 8 is an operation flowchart of the first embodiment. First, in step S10, "1" is substituted for the counter 1, and the record number of the key item DB is substituted for RecNum. One record is a key item D
This is a set of information such as the recognition area position and the number corresponding to one item name of B. Step S20 is for all key item DBs.
It is a part for determining whether the processing has been completed for the record of.

【0037】ステップS30では、最初にキー項目DB
の1番目のレコードを読み出す。即ち、図7に示した例
では、項目名が住所、認識領域位置が下、個数が“2”
というレコードが読み出される。そして、ステップS4
0において、項目名を用いてレイアウト情報メモリを検
索する。ステップS50で、対応する領域が得られた場
合、ステップS60に進み、位置情報でレイアウト情報
メモリを検索する。
In step S30, first, the key item DB
The first record of is read. That is, in the example shown in FIG. 7, the item name is the address, the recognition area position is down, and the number is “2”.
Is read. Then, step S4
At 0, the layout information memory is searched using the item name. When the corresponding area is obtained in step S50, the process proceeds to step S60, and the layout information memory is searched by the position information.

【0038】即ち、図1に示したようなレイアウト情報
4がある場合、項目名でレイアウト情報メモリを検索す
ると、認識結果が住所という項目名が検索結果として得
られたとする。この場合、ステップS60において、こ
れに対応する座標情報を求める。そして、キー項目DB
の認識領域位置がその下側という表示になっているか
ら、その座標情報中からその下側の領域を求める。
That is, when there is the layout information 4 as shown in FIG. 1, it is assumed that when the layout information memory is searched by the item name, the item name of which the recognition result is the address is obtained as the search result. In this case, in step S60, corresponding coordinate information is obtained. And key item DB
Is displayed on the lower side of the recognition area, the lower area is obtained from the coordinate information.

【0039】ステップS70において、下側の領域があ
ると判断されると、ステップS80に進み、個数で表示
された数だけその領域の座標情報を得て、フォーマット
情報6を得る。このフォーマット情報は、図2に示した
フォーマット情報DB19に登録する。もし、必要個数
に満たない場合にはあるだけ登録する。不足している場
合には、後でオペレータの修正等によって追加される。
If it is determined in step S70 that there is a lower area, the flow advances to step S80 to obtain the coordinate information of the area by the number indicated by the number and obtain the format information 6. This format information is registered in the format information DB 19 shown in FIG. If the number is less than the required number, register as many as possible. If there is a shortage, it is added later by correction of the operator.

【0040】ステップS90では、カウンタがインクリ
メントされる。これによって、ステップS30〜ステッ
プS90の処理がキー項目DBのレコード数だけ繰り返
される。以上のようにして、フォーマット情報が生成さ
れる。
In step S90, the counter is incremented. As a result, the processes in steps S30 to S90 are repeated for the number of records in the key item DB. As described above, the format information is generated.

【0041】〈具体例1の効果〉帳票に記入される項目
名と認識領域位置とその個数とを表示したキー項目デー
タベースを予め用意し、帳票のイメージ中に含まれる罫
線で囲まれた領域の座標情報と、その領域に記入された
文字の認識結果を得て、キー項目DBを参照することに
より、自動的にフォーマット情報を得るので、記入項目
が同じでも、その記入位置がわずかに変更されたような
帳票については、極めて容易に自動的にフォーマット情
報の登録が可能となる。また、自動生成の結果が多少不
完全であっても、オペレータが簡単な修正作業をするだ
けで完全なものにすることができるから、オペレータの
負担軽減効果は高い。
<Effects of Specific Example 1> A key item database displaying the names of items to be entered in the form, the positions of the recognition areas, and the number thereof is prepared in advance, and the area of the area surrounded by the ruled line included in the image of the form is prepared. The coordinate information and the recognition result of the character entered in the area are obtained, and the format information is automatically obtained by referring to the key item DB. Therefore, even if the entry is the same, the entry position is slightly changed. For such forms, format information can be registered very easily and automatically. Further, even if the result of the automatic generation is somewhat incomplete, it can be completed by simple correction work by the operator, so that the effect of reducing the burden on the operator is high.

【0042】〈具体例2〉図9には、具体例2のキー項
目DBの内容説明図を示す。この図のキー項目DBに
も、項目名と認識領域位置と個数とが表示される。ここ
で、図9の右側に示すように、氏名という項目名を印刷
した領域K3があるとする。このとき、氏名に関する情
報は姓と名という項目名を印刷した領域K4,K5の下
に区分して記入される。氏名に関する情報が記入される
領域を領域J4,J5としている。
<Embodiment 2> FIG. 9 is a view for explaining the contents of the key item DB of the embodiment 2. The item name, the recognition area position, and the number are also displayed in the key item DB of FIG. Here, as shown on the right side of FIG. 9, it is assumed that there is an area K3 in which an item name “name” is printed. At this time, the information relating to the name is entered separately under the areas K4 and K5 where the item names of last name and first name are printed. Areas in which information relating to names are written are areas J4 and J5.

【0043】こうしたケースでは、氏名と姓、氏名と名
が、それぞれいわゆる階層構造を持つことから、これら
を組み合わせたものをそれぞれ項目名リストに表示し
た。従って、氏名の姓という項目名の下側には名字を入
れる領域が存在するという情報がこのキー項目DBに表
示されることになる。この関係を階層関係と呼ぶ。その
他の領域についても全く同様の扱いがされる。この例の
場合には、項目名を階層の上位からカンマで区切って表
示している。従って、何段階かの階層がある場合には、
いくつかのカンマで区切られた項目名が連結され項目名
リストに表示されることになる。
In such a case, since the name and surname and the name and name each have a so-called hierarchical structure, a combination of these is displayed in the item name list. Therefore, information indicating that there is an area for putting a surname below the item name of the last name of the name is displayed in the key item DB. This relationship is called a hierarchical relationship. The same is applied to other areas. In the case of this example, the item names are displayed separated from each other by commas from the top of the hierarchy. Therefore, if there are several levels,
Some comma separated item names will be concatenated and displayed in the item name list.

【0044】図10には、具体例2の動作フローチャー
トを示す。この図に示すステップS10,S20,S3
0,S60,S70,S80,S90の処理は、既に具
体例1の図8を用いて説明した処理と同一である。従っ
て、具体例2の固有の部分についてのみ詳細に説明を行
うことにする。
FIG. 10 is a flowchart showing the operation of the second embodiment. Steps S10, S20, S3 shown in FIG.
The processing of 0, S60, S70, S80, and S90 is the same as the processing already described with reference to FIG. Therefore, only the unique part of the specific example 2 will be described in detail.

【0045】ステップS30で、キー項目DBの1番目
のレコードが読み出されると、ステップS31では、パ
ラメータJを“1”に設定する。このパラメータJは項
目名リストが2以上の項目名を連結してできている場合
に、その先頭の項目名から順番にステップS32〜S3
6の処理を実行する制御を行うためのものである。
When the first record of the key item DB is read in step S30, the parameter J is set to "1" in step S31. When the item name list is formed by linking two or more item names, this parameter J is set in steps S32 to S3 in order from the first item name.
This is for performing control for executing the processing of No. 6.

【0046】例えば、項目名が氏名,姓という内容のも
のの場合、J=1では、項目名が氏名という文字列がス
テップS32で読み出される。そして、ステップS33
では、Jというパラメータを監視し、全ての項目名につ
いて処理が終了したかどうかを判断する。氏名,姓とい
う項目名中の氏名を読み出した場合には、ステップS3
4に移り、その氏名という項目名を認識結果とするレイ
アウト情報を検索する。
For example, if the item name is a name and a last name, and J = 1, a character string having the item name as a name is read in step S32. Then, step S33
Then, the parameter J is monitored to determine whether or not the processing has been completed for all item names. If the name in the item name of the name and the last name is read, the process proceeds to step S3
Then, the process proceeds to step S4 to search for layout information having the item name as a recognition result.

【0047】そして、ステップS35で、対応する領域
があった場合にはステップS36に進み、今度は次の項
目名を処理対象とするためにJをインクリメントする。
そして、ステップS32に戻り、今度は姓という文字列
を読み出す。ステップS33の判断でJ番目の文字列が
存在するから、ステップS34に進み、項目名でレイア
ウト情報メモリを検索する。そして、対応する領域があ
れば再びステップS36からステップS32に戻る。
If there is a corresponding area in step S35, the process proceeds to step S36, and J is incremented this time so that the next item name is to be processed.
Then, the process returns to step S32, and reads a character string of last name. Since the J-th character string exists in the judgment of step S33, the process proceeds to step S34, and the layout information memory is searched by the item name. If there is a corresponding area, the process returns from step S36 to step S32.

【0048】ここで、Jがインクリメントされ、再び3
番目の文字列を読み出そうとすると、この具体例では、
姓の他に3番目の文字列はない。従って、ステップS3
3からステップS60に進む。そして、ここで、キー項
目DBの認識領域位置に基づいてレイアウト情報メモリ
を検索する。これによって、図9の姓という項目K4の
下側にある情報J4を記入した領域の位置情報を得る。
Here, J is incremented, and 3
If you try to read the th string,
There is no third string other than the last name. Therefore, step S3
The process proceeds from Step 3 to Step S60. Then, the layout information memory is searched based on the recognition area position of the key item DB. As a result, the position information of the area in which the information J4 below the last name item K4 in FIG. 9 is entered is obtained.

【0049】こうして位置情報を得るとステップS80
に進み、個数で指定された分だけそのフォーマット情報
をデータベースに登録する。即ち、項目名が氏名の姓で
あって、その位置情報は図9に示す情報J4を表示した
領域となる。これらの処理が済むとステップS90に進
み、Iをインクリメントして次の項目名リストについて
の処理を実施する。
When the position information is obtained in this way, step S80
To register the format information in the database by the number specified by the number. That is, the item name is the last name of the name, and the position information is an area displaying the information J4 shown in FIG. When these processes are completed, the process proceeds to step S90, where I is incremented and the process for the next item name list is performed.

【0050】即ち、上記ステップS30〜ステップS3
6までの処理によって、階層構造の項目名を調べ、最後
の項目名が記入された領域を見つける。そして、その領
域に対し認識領域位置の情報で示された場所に、その項
目に対応する情報を記入する領域があると判断する。こ
の結果に従って、ステップS60〜ステップS90の処
理を実行し、レイアウト情報を生成する。こうして得ら
れたフォーマット情報も具体例1の場合と同様にオペレ
ータによって検査され、必要な修正が加えられて改めて
登録されることになる。
That is, the above steps S30 to S3
Through the processing up to 6, the item names of the hierarchical structure are checked, and the area where the last item name is entered is found. Then, it is determined that there is an area in which information corresponding to the item is entered at a location indicated by the information on the recognition area position with respect to the area. According to the result, the processing of steps S60 to S90 is executed to generate layout information. The format information obtained in this way is inspected by the operator as in the case of the first embodiment, and is registered again with necessary corrections.

【0051】〈具体例2の効果〉以上のように、項目名
が階層構造になっていた場合に、階層の最下位にある項
目と認識領域位置及びその領域の個数を対応付けてキー
項目データベースに格納することによって、複雑な項目
表示が行われた場合にも対応することが可能となる。そ
の他の効果は具体例1と同様である。
<Effect of Specific Example 2> As described above, when the item names have a hierarchical structure, the item at the bottom of the hierarchy is associated with the position of the recognition area and the number of the areas, and the key item database , It is possible to cope with a case where a complicated item is displayed. Other effects are similar to those of the first embodiment.

【0052】〈具体例3〉図11には、具体例3の場合
のキー項目データベースの内容説明図を示す。この例で
は、これまでの具体例で説明したキー項目の項目名、認
識領域位置及び個数の他に、イメージ情報という情報が
設けられる。図の右側には、例えば住所という項目につ
いて、その右側の罫線で囲まれた領域に該当する情報が
記入される例を示している。通常、住所には郵便番号が
表示される。この例では、情報が記入されるべき領域J
1に含まれている、郵便番号記入用の枠に相当する情報
がイメージ情報としてキー項目データベースに含められ
る。従って、このキー項目DBのイメージ情報中には、
郵便番号を記入する領域J6のイメージデータがそのま
まの形で記憶される。
<Third Embodiment> FIG. 11 is a diagram for explaining the contents of the key item database in the third embodiment. In this example, information called image information is provided in addition to the item name, the recognition area position, and the number of key items described in the above specific examples. On the right side of the figure, an example is shown in which, for example, information corresponding to an area surrounded by a ruled line on the right side is entered for an item called an address. Usually, the postal code is displayed on the address. In this example, the area J in which information is to be entered
The information corresponding to the postal code entry frame included in No. 1 is included in the key item database as image information. Therefore, in the image information of this key item DB,
The image data of the area J6 for writing the postal code is stored as it is.

【0053】図12に、具体例3の動作フローチャート
を示す。このフローチャートのステップS71を除くス
テップS10〜ステップS90までの処理は、図8を用
いて説明した具体例1の動作と同一である。この具体例
では、図のステップS70の判断の次に、ステップS7
1の判断処理が付け加えられている。
FIG. 12 shows an operation flowchart of the third embodiment. The processing from step S10 to step S90 excluding step S71 in this flowchart is the same as the operation of the specific example 1 described using FIG. In this specific example, after the determination in step S70 in the figure, step S7
One judgment processing is added.

【0054】ここでは、住所という項目K1を検出し、
その右側にある認識領域位置を検出したとき、その内部
にキー項目DBに登録されたイメージ情報が存在するか
どうかを判断する。ここでは郵便番号の領域J6が領域
J1の中に存在するかどうかを判断する。もし、存在す
れば、住所を記入する領域に間違いないから、ステップ
S80に進み、該当する個数分だけフォーマット情報へ
の登録が行われる。もし、このイメージ情報と一致する
情報が存在しない場合には、住所を記入する領域でない
と判断されるから、フォーマット情報の登録が行われな
い。
Here, the item K1 of the address is detected,
When the position of the recognition area on the right side is detected, it is determined whether or not the image information registered in the key item DB exists therein. Here, it is determined whether or not the postal code area J6 exists in the area J1. If there is, there is no doubt that the address is in the area where the address is to be entered, so the process proceeds to step S80, and registration of the corresponding number of pieces in the format information is performed. If there is no information that matches this image information, it is determined that the area is not an area where an address is to be entered, so that registration of format information is not performed.

【0055】なお、この例では、住所について、郵便番
号を記入する枠をイメージ情報として例示したが、例え
ば金額を記入する場合の¥記号、その他その領域が所定
の事項を記入する領域であるかどうかを区別するために
重要なイメージが存在する場合、そのイメージ情報をキ
ー項目DBに記憶しておくことができる。
In this example, for the address, a frame for entering a postal code is exemplified as image information. For example, a symbol for entering an amount of money, and whether or not the area is an area for entering a predetermined item. If there is an important image for distinguishing whether the image is present or not, the image information can be stored in the key item DB.

【0056】〈具体例3の効果〉上記のように、項目名
に対応する認識領域中に、その認識領域であることを裏
付けるイメージが存在する場合、そのイメージ情報をキ
ー項目DBに含めることによって、フォーマット情報登
録の信頼性を向上し、オペレータの登録作業負担を軽減
することができる。
<Effect of Specific Example 3> As described above, when an image supporting the recognition area exists in the recognition area corresponding to the item name, the image information is included in the key item DB. In addition, the reliability of the format information registration can be improved, and the registration work burden on the operator can be reduced.

【0057】なお、上記の場合、イメージ情報を住所に
対応する項目を記入する領域であるかどうかの確認のた
めに利用した。しかしながら、イメージ情報が存在する
領域は確実に住所を記入する領域であるという判定が可
能な場合には、例えばキー項目DBに認識領域位置や個
数に関する情報が含まれていなくても、住所という項目
名を記入した領域の隣接領域全てについて、このイメー
ジ情報が含まれているかどうかの判断を行って、該当す
る領域を見つけることもできる。
In the above case, the image information is used to confirm whether or not it is an area for writing an item corresponding to an address. However, if it is possible to determine that the area in which the image information is present is an area in which an address is to be written reliably, for example, even if the key item DB does not include information regarding the recognition area position and the number, the address item It is also possible to determine whether or not this image information is included in all the areas adjacent to the area in which the name is entered, and find the corresponding area.

【0058】〈具体例4〉図13には、具体例4のキー
項目DBの内容説明図を示す。具体例3においては、キ
ー項目DBに項目名、認識領域位置、個数の他に、イメ
ージ情報を付加した。一方、この具体例4においては、
認識領域文字情報を付加する。即ち、認識領域中に含ま
れる予め印刷された文字に関する情報を文字コードとし
て記憶しておく。
<Embodiment 4> FIG. 13 is an explanatory view of the contents of the key item DB of the embodiment 4. In the specific example 3, image information is added to the key item DB in addition to the item name, the recognition area position, and the number. On the other hand, in this specific example 4,
Recognition area character information is added. That is, information about characters printed in advance included in the recognition area is stored as character codes.

【0059】例えば、氏名という項目K1の下側には氏
名に該当する情報が記入される。この領域をJ1とす
る。このとき、一般に氏名の最後には「様」といった文
字が印刷されている。即ち、情報記入前に印刷されてい
るこうした文字を認識し、文字コード化したものを図1
に示すレイアウト情報4に含めておく。これによって、
具体例3の場合と同様に、この領域には、例えば氏名が
記入されるということを確認できる。図13の右下には
銀行名という項目を印刷した領域K2のすぐ下の領域J
2に「銀行」という文字M2がある。そこで、キー項目
DBに対し銀行名という項目の認識領域文字情報として
「銀行」という文字が表示される。
For example, information corresponding to the name is written below the item K1 of the name. This area is defined as J1. At this time, characters such as "sama" are generally printed at the end of the name. That is, those characters printed before information entry are recognized and converted into character codes are shown in FIG.
In the layout information 4 shown in FIG. by this,
As in the case of the specific example 3, it can be confirmed that, for example, a name is entered in this area. In the lower right part of FIG. 13, an area J immediately below the area K2 in which the item of the bank name is printed.
2 has a letter M2 of "bank". Therefore, the character "bank" is displayed as the recognition area character information of the item "bank name" in the key item DB.

【0060】図14には、具体例4の動作フローチャー
トを示す。この具体例4のステップS72を除くステッ
プS10〜ステップS90までの処理は、具体例3と全
く同一である。ステップS72では、ステップS3でイ
メージ情報との比較を行ったのに対し、ここでは認識領
域文字情報とのマッチングを行っている。そして、両者
が一致した場合には、該当個数分だけフォーマット情報
が生成される。一致しない場合にはフォーマット情報は
生成されない。
FIG. 14 shows an operation flowchart of the fourth embodiment. The processes from step S10 to step S90 except for step S72 in the specific example 4 are exactly the same as those in the specific example 3. In step S72, while the comparison with the image information was performed in step S3, the matching with the recognition area character information is performed here. Then, when the two match, the format information is generated by the number corresponding to the number. If they do not match, no format information is generated.

【0061】〈具体例4の効果〉具体例4は具体例3と
同様に、認識領域に記入された情報に基づいて、その認
識領域が該当する領域であるかどうかの信頼性を向上さ
せる。
<Effect of Specific Example 4> In the specific example 4, similar to the specific example 3, based on the information written in the recognition area, the reliability of whether or not the recognition area is the corresponding area is improved.

【0062】〈具体例5〉図15は、具体例5のキー項
目DBの内容説明図である。この具体例では、キー項目
DBに項目名に対応する辞書を用意しておく。即ち、項
目名が氏名とすれば、その氏名を記入する欄やその周辺
の欄には、姓、名、フリガナ、様といった文字が記入さ
れる。これらの文字は、レイアウト情報生成の際に全て
認識される。しかしながら、場合によっては認識されな
いままあるいは認識誤りを生じたままフォーマット情報
生成動作に移ることがある。具体例5では、こういった
特定の文字情報をキー項目DBに認識辞書として格納し
ておく。
<Fifth Embodiment> FIG. 15 is an explanatory view of the contents of the key item DB of the fifth embodiment. In this specific example, a dictionary corresponding to the item name is prepared in the key item DB. That is, if the item name is a name, characters such as a last name, a first name, a reading, and the like are written in a column where the name is entered and columns around the name. These characters are all recognized when generating layout information. However, in some cases, the operation may proceed to the format information generating operation without being recognized or with a recognition error. In the specific example 5, such specific character information is stored in the key item DB as a recognition dictionary.

【0063】図16は、具体例5の動作フローチャート
である。この図のフローチャートの前後の処理は、これ
までの動作と同様であるから図示を省略している。具体
例4の例でいえば、ステップS70以前の部分について
は、具体例5もこれと同様の処理を行う。そして、ステ
ップS70〜ステップS77の処理を実行し、図14に
示す具体例4のステップS90に進むよう動作すること
になる。
FIG. 16 is an operation flowchart of the fifth embodiment. The processing before and after the flowchart in this figure is the same as the operation so far, and is not shown. In the example of the specific example 4, for the part before step S70, the specific example 5 performs the same processing. Then, the processing of steps S70 to S77 is executed, and the operation proceeds to step S90 of the specific example 4 shown in FIG.

【0064】まず、この図16のステップS70におい
て、認識領域位置に領域があるかどうかを判断する。こ
れは、キー項目DB5の位置情報を参照して行われる。
ここで、ステップS73に進み、領域中に文字等の記入
があるかどうかを判断する。文字等の記入があればステ
ップS74に進み、その認識結果がレイアウト情報に含
まれているかどうかを判断する。
First, in step S70 of FIG. 16, it is determined whether or not there is an area at the recognition area position. This is performed by referring to the position information of the key item DB5.
Here, the process proceeds to step S73, and it is determined whether or not characters or the like are entered in the area. If characters or the like are entered, the process proceeds to step S74, and it is determined whether or not the recognition result is included in the layout information.

【0065】含まれていれば通常通りの処理に進む。含
まれていなければステップS75に進み、この具体例に
おける認識辞書を取り出し、これらの文字の認識と照合
を実行する。対象が限定されているため、認識の精度が
上がり、通常の文字認識処理では認識できなかったもの
も認識が可能となる。また、変形した文字、飾り文字等
については、レイアウト情報生成の際に認識されないこ
ともあるが、ここではそのような認識も可能となる。こ
うした認識処理を実行し、レイアウト情報が整備されれ
ば、これまでの具体例と全く同様の処理が実行される。
If it is included, the process proceeds to normal processing. If not included, the process proceeds to step S75, the recognition dictionary in this specific example is extracted, and recognition and collation of these characters are executed. Since the target is limited, the accuracy of recognition is improved, and the object that cannot be recognized by the normal character recognition processing can be recognized. In addition, a deformed character, a decorative character, and the like may not be recognized at the time of generating the layout information, but such recognition is possible here. When such recognition processing is executed and the layout information is prepared, processing exactly the same as that of the above specific example is executed.

【0066】ステップS76では、ここが認識領域かど
うかを判断し、例えば氏名のすぐ下側の欄であって、
「様」という項目が記入されていると判断されると、ス
テップS77に進み、フォーマット情報DBへの登録が
実行される。それ以外の場合は、フォーマット情報の生
成はパスし、次のレコードに関する処理に進む。
In step S76, it is determined whether or not this is a recognition area. For example, in the column immediately below the name,
If it is determined that the item “sama” has been entered, the process proceeds to step S77, and registration in the format information DB is executed. In other cases, the generation of the format information is passed, and the processing proceeds to the next record.

【0067】〈具体例5の効果〉予め項目名に対応する
認識辞書を用意したので、項目名固有の一般の処理では
認識が容易でない文字等についても確実に認識処理を行
い、該当する項目や該当する認識領域の照合と判定を確
実にすることができる。
<Effect of Specific Example 5> Since a recognition dictionary corresponding to an item name is prepared in advance, a character or the like that cannot be easily recognized by general processing unique to the item name is surely recognized. Collation and determination of the corresponding recognition area can be ensured.

【0068】〈具体例6〉図17には、フォーマット情
報DBの内容説明図を示す。これまで説明したように、
自動的に項目名に対応する文字認識領域の位置座標を求
めフォーマット情報として登録する場合には、その信頼
性が問題となる。自動的に生成されたフォーマット情報
に信頼性があれば、よりオペレータの負担が軽減され
る。
<Embodiment 6> FIG. 17 is a diagram for explaining the contents of the format information DB. As explained above,
In the case where the position coordinates of the character recognition area corresponding to the item name are automatically obtained and registered as the format information, the reliability becomes a problem. If the automatically generated format information has reliability, the burden on the operator is further reduced.

【0069】そこで、生成されたフォーマット情報の各
位置情報に信頼性を表示する重み付けを行う。この重み
付けは、例えば項目名を記入した領域に近接した位置に
ある領域は、その項目名に関する認識領域である可能性
が高い。こうした場合には、加点情報を高くし、距離が
遠いほど加点情報を低くする。また、欄の中に「様」と
いった文字が記入されていれば、氏名を記入するべき認
識領域である確率が高い。この場合、加点情報を付加す
ることによって重み付けをする。
Therefore, weighting for indicating reliability is performed on each position information of the generated format information. In this weighting, for example, it is highly likely that an area located at a position close to an area in which an item name is written is a recognition area related to the item name. In such a case, the point information is increased, and the point information is decreased as the distance increases. Also, if a character such as "sama" is entered in the column, there is a high probability that it is a recognition area in which a name should be entered. In this case, weighting is performed by adding point information.

【0070】こうして、このフォーマット情報は信頼性
が高いといった情報を加え、オペレータが修正処理をす
る際に役立てる。図17に示すフォーマット情報DB4
にはこのような目的で、シートID、項目名、位置情報
の他に、加点情報を書き込むようにしている。帳票1の
構成はこれまで説明したものと同様である。
In this way, the format information is added with information that the reliability is high, and is useful when the operator performs a correction process. Format information DB4 shown in FIG.
For this purpose, additional information is written in addition to the sheet ID, the item name, and the position information. The configuration of the form 1 is the same as that described above.

【0071】図18には、帳票の変形例説明図を示す。
この図の場合には、項目K1の住所に対応する認識領域
J1に、「県」とか「市」とかいう言葉がある。これに
よって、加点情報が加えられる。
FIG. 18 is an explanatory view of a modified example of a form.
In the case of this figure, there are words such as "prefecture" and "city" in the recognition area J1 corresponding to the address of the item K1. Thereby, additional point information is added.

【0072】図19には、具体例6の動作フローチャー
トを示す。まず、このフローチャートに従って具体例6
を説明する。図19において、ステップS51〜54に
示す処理を除くステップS10〜ステップS90までの
処理は、これまでの具体例3あるいは具体例4等を用い
て説明した動作と全く同一である。
FIG. 19 is a flowchart showing the operation of the sixth embodiment. First, according to this flowchart, specific example 6
Will be described. In FIG. 19, the processing from step S10 to step S90 except for the processing shown in steps S51 to S54 is exactly the same as the operation described using the specific example 3 or the specific example 4 so far.

【0073】ここで、ステップS50において、該当す
る項目名の位置情報に基づき対応する領域を調べ、その
領域があると判断するとステップS51に進み、周囲の
領域を検索する。そして、近接した領域という判断で、
例えば“1”という加点情報を加算する(ステップS5
2)。次に、その領域内に含まれる文字情報を調べる。
ここに、例えば氏名の場合、「様」というような文字が
含まれていれば、加点情報に新たに“1”を加える。従
って、氏名という項目を記入した領域の隣に隣接してお
り、その中に「様」という文字が存在すれば加点情報は
“2”となる。このような処理の結果をステップS54
において、フォーマット情報DBに登録する。
Here, in step S50, a corresponding area is checked based on the position information of the corresponding item name, and if it is determined that there is an area, the flow advances to step S51 to search for a surrounding area. And, by judging that it was a close area,
For example, the additional information "1" is added (step S5).
2). Next, character information included in the area is checked.
Here, in the case of a name, for example, if a character such as "sama" is included, "1" is newly added to the point information. Therefore, the point information is “2” if the item is adjacent to the area in which the item of name is entered, and the character “sama” exists in the area. The result of such processing is determined in step S54.
, The information is registered in the format information DB.

【0074】オペレータは、図17に示すフォーマット
情報DBを眺めながら、例えば住所という項目名に対応
する位置情報とその加点情報を参考にし、これらの情報
が誤りなく自動的に生成されているかどうかを判断す
る。加点情報が高い情報については信頼性が高いものと
して、その他の情報の修正等に注力することも可能とな
る。
While looking at the format information DB shown in FIG. 17, the operator refers to, for example, the position information corresponding to the item name of the address and the additional information, and determines whether or not these information are automatically generated without error. to decide. It is also possible to focus on correction of other information, etc., as information having high additional point information has high reliability.

【0075】〈具体例6の効果〉以上のように、図18
に示すように、情報を記入するべき欄に文字等が存在す
れば、より信頼性が増すことになる。なお、加点の対象
となる情報としては、例えば既に説明したような郵便番
号を記入する領域、「様」や「銀行」等の文字が考えら
れる。
<Effect of Specific Example 6> As described above, FIG.
As shown in (1), if characters and the like are present in a column where information is to be entered, the reliability is further increased. The information to be added may be, for example, an area for entering a postal code as described above, or characters such as "sama" or "bank".

【0076】〈具体例7〉上記の例では、項目名に対応
する認識領域を判断するために、項目名の位置や領域内
に記入された文字等をその基準にした。この具体例で
は、フォーマット情報を生成するために、予め認識領域
中にガイドとなる情報を記入した特別の帳票を用意す
る。
<Specific Example 7> In the above example, in order to determine the recognition area corresponding to the item name, the position of the item name, characters written in the area, and the like are used as a reference. In this specific example, in order to generate format information, a special form in which information serving as a guide is previously written in a recognition area is prepared.

【0077】図20には、具体例7のキー項目DBの内
容説明図を示す。この図に示すように、項目名が、住
所、氏名、銀行等とされた帳票の各認識領域には、図に
示すように、ADRESS1、ADRESS2、NAME1といった文字列
が記入されているものとする。これをこのキー項目DB
に表示しておく。
FIG. 20 is an explanatory diagram of the contents of the key item DB of the seventh embodiment. As shown in this figure, it is assumed that character strings such as ADRESS1, ADRESS2, and NAME1 are written in each recognition area of a form in which the item names are an address, a name, a bank, etc., as shown in the figure. . This is this key item DB
To be displayed.

【0078】図21は、帳票の変形例説明図である。こ
の図に示すように、帳票1の各項目K1,K2,K3に
は、それぞれその認識領域にキー項目DBに表示したよ
うな文字が記入されている。こうしたフォーマット情報
生成用の帳票を予め用意しておくことによって正確に信
頼性のフォーマット情報を生成することができる。
FIG. 21 is an explanatory view of a modified example of a form. As shown in this figure, in each of the items K1, K2, and K3 of the form 1, characters as displayed in the key item DB are written in their recognition areas. By preparing such a form for format information generation in advance, it is possible to accurately generate reliability format information.

【0079】図22には、具体例7の動作フローチャー
トを示す。ステップS10,S30,S50,S90
は、これまで説明してきた具体例と全く同一の処理であ
る。ここで、ステップS30で、キー項目DBの1番目
のレコードの読出しを行う際に、ステップS31におい
て、認識領域指定文字列を用いたレイアウト情報メモリ
の検索が行われる。この文字列は、予め図21に示すよ
うな帳票のレイアウト情報を収集する際に、図1に示す
ようなレイアウト情報4として蓄積格納されている。
FIG. 22 is a flowchart showing the operation of the seventh embodiment. Steps S10, S30, S50, S90
Is the same processing as the specific example described so far. Here, when reading the first record of the key item DB in step S30, a search of the layout information memory using the recognition area designation character string is performed in step S31. This character string is accumulated and stored as layout information 4 as shown in FIG. 1 when collecting layout information of the form as shown in FIG. 21 in advance.

【0080】従って、これを検索することによって、対
応する領域を見つける。対応する領域が存在すれば、ス
テップS54に進み、フォーマット情報DBに登録すれ
ばよい。これで登録処理が終了する。その後は、別の項
目についての登録処理に移る。このような方法によれ
ば、極めて信頼性の高い正確なフォーマット情報が容易
に生成できる。
Therefore, by searching this, a corresponding area is found. If there is a corresponding area, the process proceeds to step S54, and it may be registered in the format information DB. This completes the registration process. Thereafter, the process proceeds to a registration process for another item. According to such a method, extremely reliable and accurate format information can be easily generated.

【0081】このように、この具体例ではキー項目DB
の内容を極めて簡略化できる。なお、これまでの具体例
においても、各キー項目DBは、それぞれ一部の情報が
欠落していたとしても、その検索を省略し、フォーマッ
ト情報の生成を行ってよい。フォーマット情報が不完全
であれば、オペレータが修正をし完成させればよいから
である。また、具体例3,4,5等において、イメージ
情報、認識領域、文字情報、認識辞書等のデータを用意
したが、これらは必ずしもキー項目DBに含める必要は
ない。即ち、他の独立した辞書ファイルとして用意して
も差し支えない。もちろん、キー項目DB自体も一体の
データベースである必要はなく、いくつかに分割されて
いて良い。
As described above, in this specific example, the key item DB
Can be extremely simplified. In the above specific examples, even if a part of the information is missing from each key item DB, the search may be omitted and the format information may be generated. This is because if the format information is incomplete, the operator may correct and complete it. In the specific examples 3, 4, 5, etc., data such as image information, recognition area, character information, and recognition dictionary are prepared, but these need not necessarily be included in the key item DB. That is, other independent dictionary files may be prepared. Of course, the key item DB itself does not need to be an integrated database, and may be divided into several.

【0082】また、上記の帳票のイメージデータは、ス
キャナ等から読み取る他、図示しない上位装置等から転
送されるものであってもよい。更に、シートID等によ
って帳票を識別する他、罫線情報等をマッチングするこ
とによってシートの種類を識別することも可能である。
The image data of the form described above may be read from a scanner or the like, or may be transferred from a host device (not shown). Further, in addition to identifying a form by a sheet ID or the like, it is also possible to identify the type of sheet by matching ruled line information or the like.

【0083】〈具体例7の効果〉以上の具体例7によれ
ば、認識領域指定文字列を各項目名に対応する認識領域
に記入して、この識別情報を利用したフォーマット情報
生成を行うので、極めて信頼性の高いフォーマット情報
を速やかに生成することができる。
<Effect of Specific Example 7> According to the specific example 7, the recognition area designation character string is written in the recognition area corresponding to each item name, and the format information is generated using the identification information. Thus, it is possible to quickly generate extremely reliable format information.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明によるフォーマット情報登録方法の説明
図である。
FIG. 1 is an explanatory diagram of a format information registration method according to the present invention.

【図2】本発明によるOCRシステムのブロック図であ
る。
FIG. 2 is a block diagram of an OCR system according to the present invention.

【図3】システムの主要動作フローチャートである。FIG. 3 is a main operation flowchart of the system.

【図4】フォーマット情報登録処理フローチャートであ
る。
FIG. 4 is a flowchart of a format information registration process.

【図5】読取処理の動作フローチャートである。FIG. 5 is an operation flowchart of a reading process.

【図6】フォーマット情報DBの内容説明図である。FIG. 6 is an explanatory diagram of the contents of a format information DB.

【図7】具体例1のキー項目DBの内容説明図である。FIG. 7 is an explanatory diagram of the contents of a key item DB of a specific example 1.

【図8】具体例1の動作フローチャートである。FIG. 8 is an operation flowchart of the first embodiment.

【図9】具体例2のキー項目DBの内容説明図である。FIG. 9 is an explanatory diagram of the contents of a key item DB of a specific example 2;

【図10】具体例2の動作フローチャートである。FIG. 10 is an operation flowchart of a specific example 2.

【図11】具体例3のキー項目DBの内容説明図であ
る。
FIG. 11 is an explanatory diagram of the contents of a key item DB of a specific example 3.

【図12】具体例3の動作フローチャートである。FIG. 12 is an operation flowchart of the third embodiment.

【図13】具体例4のキー項目DBの内容説明図であ
る。
FIG. 13 is an explanatory diagram of the contents of a key item DB of a specific example 4.

【図14】具体例4の動作フローチャートである。FIG. 14 is an operation flowchart of a specific example 4.

【図15】具体例5のキー項目DBの内容説明図であ
る。
FIG. 15 is an explanatory diagram of the contents of a key item DB of a specific example 5.

【図16】具体例5の動作フローチャートである。FIG. 16 is an operation flowchart of a specific example 5.

【図17】フォーマット情報DBの内容説明図である。FIG. 17 is an explanatory diagram of the contents of a format information DB.

【図18】帳票の変形例説明図である。FIG. 18 is a diagram illustrating a modification of a form.

【図19】具体例6の動作フローチャートである。FIG. 19 is an operation flowchart of a specific example 6.

【図20】具体例7のキー項目DBの内容説明図であ
る。
FIG. 20 is an explanatory diagram of the contents of a key item DB of a specific example 7.

【図21】帳票の変形例説明図である。FIG. 21 is an explanatory diagram of a modification of a form.

【図22】具体例7の動作フローチャートである。FIG. 22 is an operation flowchart of Example 7.

【符号の説明】[Explanation of symbols]

1 帳票 2 シートID 3 罫線 4 レイアウト情報 5 キー項目DB 6 フォーマット情報 1 Form 2 Sheet ID 3 Ruled Line 4 Layout Information 5 Key Item DB 6 Format Information

Claims (9)

【特許請求の範囲】[Claims] 【請求項1】 任意の情報を記入した帳票のイメージを
読み取る画像入力部と、 前記情報を認識して文字コード化する認識部と、 前記帳票に記入される項目名と、その項目に関する情報
が記入されて文字認識をするための認識領域と項目名と
の位置関係と、認識領域位置の個数とを表示したキー項
目データベースと、 前記画像入力部で読み取った、帳票のイメージ中に含ま
れる罫線で囲まれた領域の座標情報と、その領域に記入
された文字の認識結果を表示したレイアウト情報とを生
成するレイアウト解析部と、 前記キー項目データベースとレイアウト情報とを参照す
ることにより、項目名毎に、対応する認識領域位置の座
標情報を表示したフォーマット情報を生成する項目探索
部を備えたことを特徴とするOCRシステム。
1. An image input unit for reading an image of a form in which arbitrary information is entered, a recognition unit for recognizing the information and converting it into a character code, an item name to be entered in the form, and information on the item A key item database that displays the positional relationship between the recognition area and the item name to be filled in for character recognition, and the number of recognition area positions; and a ruled line included in a form image read by the image input unit. A layout analysis unit that generates coordinate information of an area surrounded by a circle and layout information displaying a recognition result of characters written in the area, and an item name by referring to the key item database and the layout information. An OCR system comprising: an item search unit for generating format information in which coordinate information of a corresponding recognition area position is displayed for each recognition area.
【請求項2】 任意の情報を記入した帳票のイメージを
読み取って、前記情報を認識して文字コード化するため
に、予め当該帳票の情報記入位置を表示するフォーマッ
ト情報を生成する場合に、 前記帳票に記入される項目名と、その項目に関する情報
が記入されて文字認識をするための認識領域と項目名と
の位置関係と、認識領域位置の個数とを表示したキー項
目データベースを予め用意し、 前記帳票のイメージを読み取って、その帳票のイメージ
中に含まれる罫線で囲まれた領域の座標情報と、その領
域に記入された文字の認識結果を表示したレイアウト情
報とを生成し、 前記キー項目データベースとレイアウト情報とを参照す
ることにより、項目名毎に、対応する認識領域位置の座
標情報を表示したフォーマット情報を生成することを特
徴とするフォーマット情報登録方法。
2. The method according to claim 1, further comprising: reading an image of a form in which arbitrary information is entered, and generating format information for displaying an information entry position of the form in advance in order to recognize and convert the information into a character code; A key item database is prepared in advance that displays the item names to be entered in the form, the positional relationship between the recognition areas and the item names in which information on the items is written and character recognition is performed, and the number of recognition area positions. Reading the image of the form, generating coordinate information of an area surrounded by ruled lines included in the image of the form, and layout information displaying a recognition result of characters written in the area, and generating the key By referring to the item database and the layout information, it is possible to generate format information in which the coordinate information of the corresponding recognition area position is displayed for each item name. How to register format information.
【請求項3】 任意の情報を記入した帳票のイメージを
読み取って、前記情報を認識して文字コード化するため
に、予め当該帳票の情報記入位置を表示するフォーマッ
ト情報を生成する場合に、 前記帳票に記入される階層構造の項目名と、階層構造か
ら見て最下位の階層にある項目に関する情報が記入され
て文字認識をするための認識領域と項目名との位置関係
と、認識領域位置の個数とを表示したキー項目データベ
ースを予め用意し、 前記帳票のイメージを読み取って、その帳票のイメージ
中に含まれる罫線で囲まれた領域の座標情報と、その領
域に記入された文字の認識結果を表示したレイアウト情
報とを生成し、 前記キー項目データベースとレイアウト情報とを参照す
ることにより、前記階層構造の項目名毎に、対応する認
識領域位置の座標情報を表示したフォーマット情報を生
成することを特徴とするフォーマット情報登録方法。
3. A method of reading an image of a form in which arbitrary information is entered, and generating format information for displaying an information entry position of the form in advance in order to recognize and convert the information into a character code. Item name of the hierarchical structure to be entered in the form, the positional relationship between the recognition area and the item name for information on the item at the lowest level in the hierarchical structure to perform character recognition, and the position of the recognition area A key item database is prepared in advance, which displays the number of items, and the image of the form is read, and the coordinate information of the area surrounded by the ruled line included in the image of the form and the recognition of characters written in the area are read. By generating layout information displaying the result, and referring to the key item database and the layout information, a corresponding recognition area position is obtained for each item name of the hierarchical structure. A format information registration method characterized by generating format information that displays coordinate information of the format information.
【請求項4】 任意の情報を記入した帳票のイメージを
読み取って、前記情報を認識して文字コード化するため
に、予め当該帳票の情報記入位置を表示するフォーマッ
ト情報を生成する場合に、 前記帳票に記入される項目名と、その項目に関する情報
が記入されて文字認識をするための認識領域と項目名と
の位置関係と、認識領域位置の個数と、認識領域に予め
記入されている一定のイメージ情報を表示したキー項目
データベースを予め用意し、 前記帳票のイメージを読み取って、その帳票のイメージ
中に含まれる罫線で囲まれた領域の座標情報と、その領
域に記入された文字の認識結果を表示したレイアウト情
報とを生成し、 前記キー項目データベースとレイアウト情報とを参照
し、かつ、項目名に対応する認識領域と判断した領域中
に予め記入されているイメージと前記イメージ情報とを
照合することにより、項目名毎に、対応する認識領域位
置の座標情報を表示したフォーマット情報を生成するこ
とを特徴とするフォーマット情報登録方法。
4. A method of reading an image of a form in which arbitrary information is entered, and generating format information for displaying an information entry position of the form in advance in order to recognize and convert the information into a character code. Item names to be entered in the form, the positional relationship between the recognition area and the item name in which information about the item is to be written and used for character recognition, the number of recognition area positions, and the constants pre-filled in the recognition area A key item database displaying the image information of the form is prepared in advance, the image of the form is read, and the coordinate information of the area surrounded by the ruled line included in the image of the form and the recognition of the character written in the area are recognized. The layout information displaying the result is generated, and the key item database and the layout information are referred to, and the area is determined in the area determined as the recognition area corresponding to the item name. A format information displaying coordinate information of a corresponding recognition area position for each item name by collating the entered image with the image information.
【請求項5】 任意の情報を記入した帳票のイメージを
読み取って、前記情報を認識して文字コード化するため
に、予め当該帳票の情報記入位置を表示するフォーマッ
ト情報を生成する場合に、 前記帳票に記入される項目名と、その項目に関する情報
が記入されて文字認識をするための認識領域に予め記入
されている一定のイメージ情報を表示したキー項目デー
タベースを予め用意し、 前記帳票のイメージを読み取って、その帳票のイメージ
中に含まれる罫線で囲まれた領域の座標情報と、その領
域に記入された文字の認識結果を表示したレイアウト情
報とを生成し、 前記レイアウト情報に表示された領域中に予め記入され
ているイメージと前記イメージ情報とを照合することに
より、対応する項目名を判定し、項目名毎に、対応する
認識領域位置の座標情報を表示したフォーマット情報を
生成することを特徴とするフォーマット情報登録方法。
5. A method of reading an image of a form in which arbitrary information is entered, and generating format information for displaying an information entry position of the form in advance in order to recognize and convert the information into a character code. An item name to be entered in the form and a key item database displaying certain image information which has been previously entered in a recognition area in which information relating to the item is entered and character recognition is prepared in advance, the image of the form To generate the coordinate information of the area surrounded by the ruled line included in the image of the form and the layout information displaying the recognition result of the character written in the area, and displayed the layout information. By comparing the image information pre-filled in the area with the image information, a corresponding item name is determined, and a corresponding recognition area is determined for each item name. A format information registration method characterized by generating format information displaying coordinate information of an area position.
【請求項6】 任意の情報を記入した帳票のイメージを
読み取って、前記情報を認識して文字コード化するため
に、予め当該帳票の情報記入位置を表示するフォーマッ
ト情報を生成する場合に、 前記帳票に記入される項目名と、その項目に関する情報
が記入されて文字認識をするための認識領域に予め記入
されている一定の文字情報を表示したキー項目データベ
ースを予め用意し、 前記帳票のイメージを読み取って、その帳票のイメージ
中に含まれる罫線で囲まれた領域の座標情報と、その領
域に記入された文字の認識結果を表示したレイアウト情
報とを生成し、 前記レイアウト情報に表示された領域中に予め記入され
ている文字と前記文字情報とを照合することにより、対
応する項目名を判定し、項目名毎に、対応する認識領域
位置の座標情報を表示したフォーマット情報を生成する
ことを特徴とするフォーマット情報登録方法。
6. A method of reading an image of a form in which arbitrary information is entered, and generating format information for displaying an information entry position of the form in advance in order to recognize and convert the information into a character code. An item name to be entered in the form and a key item database in which information relating to the item is entered and certain character information previously entered in a recognition area for character recognition are prepared in advance, and the image of the form is prepared. To generate the coordinate information of the area surrounded by the ruled line included in the image of the form and the layout information displaying the recognition result of the character written in the area, and displayed the layout information. By comparing the character information previously written in the area with the character information, the corresponding item name is determined, and for each item name, the coordinates of the corresponding recognition area position A format information registration method characterized by generating format information displaying information.
【請求項7】 請求項6に記載の方法において、 キー項目データベースには、領域中に予め記入されてい
る文字を照合するための認識辞書が格納されていること
を特徴とするフォーマット情報登録方法。
7. The format information registration method according to claim 6, wherein the key item database stores a recognition dictionary for collating characters previously written in the area. .
【請求項8】 任意の情報を記入した帳票のイメージを
読み取って、前記情報を認識して文字コード化するため
に、予め当該帳票の情報記入位置を表示するフォーマッ
ト情報を生成する場合に、 前記帳票に記入される項目名と、その項目に関する情報
が記入されて文字認識をするための認識領域と項目名と
の位置関係と、認識領域位置の個数と、前記項目に関す
る情報が記入されて文字認識をするための認識領域に予
め記入されている一定の情報を表示したキー項目データ
ベースを予め用意し、 前記帳票のイメージを読み取って、その帳票のイメージ
中に含まれる罫線で囲まれた領域の座標情報と、その領
域に記入された文字の認識結果を表示したレイアウト情
報とを生成し、 前記キー項目データベースとレイアウト情報とを参照す
ることにより、項目名毎に、対応する認識領域位置の座
標情報を表示するとともに、前記認識領域中に予め記入
されている情報と前記キー項目データベース中の一定の
情報とが一致した場合に、その判定の確からしさを示す
重みづけ情報を表示したフォーマット情報を生成するこ
とを特徴とするフォーマット情報登録方法。
8. A method of reading an image of a form in which arbitrary information is entered, and generating format information for displaying an information entry position of the form in advance in order to recognize and convert the information into a character code. The item names to be entered in the form, the positional relationship between the recognition area and the item name in which information on the item is written and character recognition is performed, the number of recognition area positions, and the information on the item is written and the characters are written. A key item database displaying predetermined information previously written in a recognition area for recognition is prepared in advance, an image of the form is read, and an area surrounded by a ruled line included in the image of the form is read. By generating coordinate information and layout information displaying a recognition result of characters written in the area, referring to the key item database and layout information Thus, for each item name, the coordinate information of the corresponding recognition area position is displayed, and when the information pre-filled in the recognition area matches certain information in the key item database, the determination is made. A format information registration method characterized by generating format information displaying weighting information indicating the likelihood of the format information.
【請求項9】 任意の情報を記入した帳票のイメージを
読み取って、前記情報を認識して文字コード化するため
に、予め当該帳票の情報記入位置を表示するフォーマッ
ト情報を生成する場合に、 前記帳票に記入される項目名と、その項目に関する情報
が記入されて文字認識をするための認識領域に予め記入
された識別情報とを表示したキー項目データベースを予
め用意し、 前記帳票のイメージを読み取って、その帳票のイメージ
中に含まれる罫線で囲まれた領域の座標情報と、その領
域に記入された文字と前記識別情報の認識結果を表示し
たレイアウト情報とを生成し、 前記キー項目データベースとレイアウト情報とを参照す
ることにより、識別情報をもとにして、その識別情報を
記入した欄と項目名とを対応付け、項目名毎に、対応す
る認識領域位置の座標情報を表示したフォーマット情報
を生成することを特徴とするフォーマット情報登録方
法。
9. A method for reading an image of a form in which arbitrary information is entered, and generating format information for displaying an information entry position of the form in advance in order to recognize and convert the information into a character code. A key item database is prepared in advance, which displays the item names to be entered in the form and the identification information in which information on the items is entered and character recognition is performed in advance in a recognition area for character recognition, and the image of the form is read. Generating coordinate information of a region surrounded by ruled lines included in the image of the form, and layout information displaying a character written in the region and a recognition result of the identification information. By referring to the layout information, the column in which the identification information is entered is associated with the item name based on the identification information. A format information registration method characterized by generating format information displaying coordinate information of a knowledge area position.
JP24961497A 1997-08-29 1997-08-29 Format information registration method and OCR system Expired - Fee Related JP3394694B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP24961497A JP3394694B2 (en) 1997-08-29 1997-08-29 Format information registration method and OCR system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP24961497A JP3394694B2 (en) 1997-08-29 1997-08-29 Format information registration method and OCR system

Publications (2)

Publication Number Publication Date
JPH1173472A true JPH1173472A (en) 1999-03-16
JP3394694B2 JP3394694B2 (en) 2003-04-07

Family

ID=17195656

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24961497A Expired - Fee Related JP3394694B2 (en) 1997-08-29 1997-08-29 Format information registration method and OCR system

Country Status (1)

Country Link
JP (1) JP3394694B2 (en)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008262368A (en) * 2007-04-11 2008-10-30 Fuji Xerox Co Ltd Image processor and program
JP2009031937A (en) * 2007-07-25 2009-02-12 Fuji Xerox Co Ltd Form image processing apparatus and form image processing program
JP2011233178A (en) * 2011-08-26 2011-11-17 Fuji Xerox Co Ltd Image processing device and program
JP2012059226A (en) * 2010-09-13 2012-03-22 Ricoh Co Ltd Business form processor, business form processing method, business form processing program, recording medium having program recorded therein
JP2015184815A (en) * 2014-03-20 2015-10-22 株式会社Pfu Form definition creation device, form definition creation method and program
JP2017091379A (en) * 2015-11-13 2017-05-25 キヤノンマーケティングジャパン株式会社 Information processing device, and processing method and program thereof
JP2018081578A (en) * 2016-11-17 2018-05-24 キヤノンマーケティングジャパン株式会社 Information processing device, control method, and program
KR101959831B1 (en) * 2017-09-26 2019-03-19 아주대학교산학협력단 Apparatus and method for image recognition processing
WO2021117128A1 (en) * 2019-12-10 2021-06-17 ネットスマイル株式会社 Form image processing system

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008262368A (en) * 2007-04-11 2008-10-30 Fuji Xerox Co Ltd Image processor and program
JP2009031937A (en) * 2007-07-25 2009-02-12 Fuji Xerox Co Ltd Form image processing apparatus and form image processing program
JP2012059226A (en) * 2010-09-13 2012-03-22 Ricoh Co Ltd Business form processor, business form processing method, business form processing program, recording medium having program recorded therein
JP2011233178A (en) * 2011-08-26 2011-11-17 Fuji Xerox Co Ltd Image processing device and program
JP2015184815A (en) * 2014-03-20 2015-10-22 株式会社Pfu Form definition creation device, form definition creation method and program
JP2017091379A (en) * 2015-11-13 2017-05-25 キヤノンマーケティングジャパン株式会社 Information processing device, and processing method and program thereof
JP2018081578A (en) * 2016-11-17 2018-05-24 キヤノンマーケティングジャパン株式会社 Information processing device, control method, and program
KR101959831B1 (en) * 2017-09-26 2019-03-19 아주대학교산학협력단 Apparatus and method for image recognition processing
WO2021117128A1 (en) * 2019-12-10 2021-06-17 ネットスマイル株式会社 Form image processing system

Also Published As

Publication number Publication date
JP3394694B2 (en) 2003-04-07

Similar Documents

Publication Publication Date Title
EP1818857B1 (en) Document processor and document processing method
US5251273A (en) Data processing system and method for sequentially repairing character recognition errors for scanned images of document forms
US6996295B2 (en) Automatic document reading system for technical drawings
KR100248917B1 (en) Pattern recognizing apparatus and method
US8270721B2 (en) Method and system for acquiring data from machine-readable documents
JP4347677B2 (en) Form OCR program, method and apparatus
EP0567834A2 (en) Advanced data capture architecture data processing system and method for scanned images of document forms
JP2004139484A (en) Form processing device, program for implementing it, and program for creating form format
US20030215137A1 (en) Method and system for extracting information from a document
WO2007117334A2 (en) Document analysis system for integration of paper records into a searchable electronic database
US6320983B1 (en) Method and apparatus for character recognition, and computer-readable recording medium with a program making a computer execute the method recorded therein
JP5003051B2 (en) Automatic mail sorting machine and automatic mail sorting method
JP3394694B2 (en) Format information registration method and OCR system
JP3463008B2 (en) Medium processing method and medium processing apparatus
JP5134383B2 (en) OCR device, trail management device and trail management system
JP4347675B2 (en) Form OCR program, method and apparatus
JP3463009B2 (en) Medium processing method and medium processing apparatus
CN101425141B (en) Image recognition apparatus and image recognition method
JP4521466B2 (en) Form processing device
WO2019194029A1 (en) Image processing device, image processing method, and storage medium for storing program
JP2000003403A (en) Method for supporting slip input
JP4521377B2 (en) Form processing apparatus, program for executing the apparatus, and form format creation program
JPH0689330A (en) Image filing system
JP2922365B2 (en) Kanji address data processing method in OCR processing system
JP2000132635A (en) Recognizing data confirming method

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090131

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100131

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100131

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110131

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110131

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120131

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130131

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140131

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees