JPH04270480A - Character recognizing method - Google Patents
Character recognizing methodInfo
- Publication number
- JPH04270480A JPH04270480A JP3011362A JP1136291A JPH04270480A JP H04270480 A JPH04270480 A JP H04270480A JP 3011362 A JP3011362 A JP 3011362A JP 1136291 A JP1136291 A JP 1136291A JP H04270480 A JPH04270480 A JP H04270480A
- Authority
- JP
- Japan
- Prior art keywords
- field
- recognition
- character
- recognition result
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 8
- 238000012545 processing Methods 0.000 abstract description 12
- 238000012805 post-processing Methods 0.000 abstract 1
- 230000002194 synthesizing effect Effects 0.000 abstract 1
- 230000015572 biosynthetic process Effects 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Landscapes
- Character Discrimination (AREA)
Abstract
Description
【0001】0001
【産業上の利用分野】本発明は、予め登録されたフォー
マット情報に基づいて帳票の認識を行う文字認識方法に
関し、特に認識後処理を軽減させることが可能な文字認
識方法に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character recognition method for recognizing a form based on format information registered in advance, and more particularly to a character recognition method that can reduce post-recognition processing.
【0002】0002
【従来の技術】従来、証券会社や銀行等の金融機関にお
ける文字認識装置では、予め登録されたフォーマット情
報に基づいて帳票の認識を行う場合、帳票に書かれた文
字を画素の集合として読み取り、辞書とパターンマッチ
ングのためのハードウェアによって、文字単位で文字認
識を行っていた。そして、帳票の最小単位であるフィー
ルドについては、そのフィールドを構成する各文字の認
識結果を連結したものをそのフィールドの認識結果とす
るだけで、そのフィールドとしてのまとまった認識結果
の妥当性の解釈は行われていなかった。このため、各フ
ィールドの認識結果とフィールド意味との整合性チェッ
クは、認識後処理を行うプログラムにより文字認識装置
とは別に行う必要があった。従って、例えば金額欄の内
容が負数であるような出力でも、文字認識装置の認識結
果として出力される場合もあった。なお、従来の文字認
識方法については、例えば特開昭61−243581号
、特願平1−289716号、特願平2−230927
号等に記載されている。BACKGROUND OF THE INVENTION Conventionally, character recognition devices in financial institutions such as securities companies and banks read characters written on a form as a set of pixels when recognizing a form based on format information registered in advance. Character recognition was performed character by character using a dictionary and pattern matching hardware. For a field, which is the smallest unit of a form, the recognition result for that field is simply the concatenation of the recognition results for each character that makes up the field, and the validity of the recognition results as a field can be interpreted. had not been carried out. Therefore, the consistency check between the recognition result of each field and the field meaning had to be performed separately from the character recognition device by a program that performs post-recognition processing. Therefore, for example, even if the content of the amount field is a negative number, it may be output as a recognition result of the character recognition device. Regarding conventional character recognition methods, for example, Japanese Patent Application Laid-Open No. 61-243581, Japanese Patent Application No. 1-289716, and Japanese Patent Application No. 2-230927
It is stated in the number etc.
【0003】0003
【発明が解決しようとする課題】上記従来技術では、フ
ィールドとしての文字認識結果の妥当性の解釈を行って
いなかったため、フィールドに書かれるべき内容と比べ
て、明らかな誤りを含むような認識結果が得られてもそ
れを検出することはできなかった。また、金額の欄に氏
名が書かれている場合のように、欄を誤って記入したフ
ィールドについても、該当するフィールドについて、そ
の認識結果が不適切であることを検出することができな
かった。これらの結果、文字認識装置は、自由な誤りを
含むフィールドの認識結果をそのまま出力する場合があ
り、フィールド認識結果の妥当性については、文字認識
装置外で認識後処理として行わなければならなかった。
本発明の目的は、このような問題点を改善し、帳票に含
まれるフィールド毎にそのフィールドの認識結果文字列
が満たすべき条件を記憶し、文字認識の結果得られた各
フィールドの認識結果文字列がその条件を満たしていな
い場合、その検出を行うことにより、認識後処理を軽減
することが可能な文字認識方法を提供することにある。[Problem to be Solved by the Invention] The above conventional technology does not interpret the validity of the character recognition result as a field, so the recognition result may contain an obvious error compared to the content that should be written in the field. Even if it was obtained, it could not be detected. Furthermore, it was not possible to detect that the recognition result was inappropriate for a field in which the field was filled in incorrectly, such as when a name is written in the amount field. As a result, character recognition devices may output recognition results for fields that contain free errors as is, and the validity of field recognition results had to be checked as post-recognition processing outside the character recognition device. . The purpose of the present invention is to improve such problems, store the conditions that should be satisfied by the recognition result character string of each field included in the field, and store the recognition result character string of each field obtained as a result of character recognition. An object of the present invention is to provide a character recognition method that can reduce post-recognition processing by detecting when a string does not satisfy the condition.
【0004】0004
【課題を解決するための手段】上記目的を達成するため
、本発明の文字認識方法は、帳票をイメージデータとし
て読み取る手段(読み取り部)と、読み取り部により読
み取られたイメージ情報を格納する手段(イメージ情報
格納部)と、帳票のフォーマット情報を記憶する手段(
帳票フォーマット記憶部)と、上記イメージ情報から文
字部分を切り出して認識する手段(文字認識部)と、文
字認識部によって得られた文字毎の認識結果から、フィ
ールドとしての認識結果文字列を作成する手段(フィー
ルド認識結果合成部)とを有する文字認識装置において
、帳票に含まれるフィールド毎に上記認識結果文字列が
満たすべき整合条件を記憶する手段(フィールド認識結
果整合条件記憶部)と、上記認識結果文字列がその整合
条件を満たしているか否かを判定する手段(フィールド
認識結果整合性判定部)とを設け、上記フィールドにお
ける認識結果文字列が当該フィールドに関する整合条件
を満たしているか否かを判定して、その認識結果文字列
および判定結果を出力することにより、フィールド毎の
認識結果に含まれる記入誤りおよび文字認識誤りを検出
することに特徴がある。[Means for Solving the Problems] In order to achieve the above object, the character recognition method of the present invention includes a means (reading section) for reading a form as image data, and a means (reading section) for storing image information read by the reading section. image information storage unit) and means for storing form format information (
A recognition result character string as a field is created from the recognition result for each character obtained by the character recognition unit. means (field recognition result combination unit), means (field recognition result matching condition storage unit) for storing matching conditions that the recognition result character string should satisfy for each field included in a form; means (field recognition result consistency determination unit) for determining whether or not the resulting character string satisfies the matching condition; A feature of this method is that it detects entry errors and character recognition errors included in the recognition results for each field by making a judgment and outputting the recognition result character string and the judgment result.
【0005】[0005]
【作用】本発明においては、帳票は読み取り部によりイ
メージデータとして読み取られ、読み取られたイメージ
情報はイメージ情報格納部に格納されて、文字認識部は
帳票フォーマット記憶部に記憶されている情報を元にそ
のイメージ情報から文字部分を切り出し、文字認識処理
を行って、その結果得られた文字認識結果はフィールド
認識結果合成部により各フィールドの認識結果文字列と
してまとめられる。 この後、フィールド認識結果整
合性判定部は、各フィールドについてフィールド認識結
果整合条件記憶部に記憶されている条件(フィールドと
しての認識結果が満たすべき整合条件)を参照し、各フ
ィールドの認識結果文字列がその条件を満たしているか
否かを判定する。従って、予め登録された認識結果整合
条件を満たしていないフィールドの認識結果文字列を検
出することができる。これにより、従来は認識後処理で
行われてきたフィールド毎の認識結果文字列の妥当性チ
ェックを文字認識装置で行うことができるため、認識後
処理を軽減することができる。[Operation] In the present invention, a document is read as image data by the reading section, the read image information is stored in the image information storage section, and the character recognition section uses the information stored in the document format storage section as the basis. Then, character portions are extracted from the image information, character recognition processing is performed, and the resulting character recognition results are compiled into a recognition result character string for each field by a field recognition result synthesis section. Thereafter, the field recognition result consistency determination unit refers to the conditions (consistency conditions that should be satisfied by the recognition result as a field) stored in the field recognition result consistency condition storage unit for each field, and Determine whether the column satisfies the condition. Therefore, it is possible to detect a recognition result character string in a field that does not satisfy the recognition result matching condition registered in advance. This allows the character recognition device to perform a validity check on the recognition result character string for each field, which has conventionally been performed in post-recognition processing, thereby reducing post-recognition processing.
【0006】[0006]
【実施例】以下、本発明の一実施例を図面により説明す
る。図1は、本発明の一実施例における文字認識装置の
機能構成図である。本実施例の文字認識装置は、CPU
等の処理装置と、磁気ディスクおよび光ディスク装置等
の記憶装置と、キーボード、CRT、OCR等の入出力
装置とを備え、その機能構成は図1に示される。図1に
おいて、11は帳票をイメージデータとして読み込む読
み取り部、12は読み取り部11により読み取られたイ
メージ情報を格納するイメージ情報格納部、13は予め
帳票フォーマットを登録する帳票フォーマット記憶部、
14は帳票フォーマット記憶部13を参照し、イメージ
情報から文字部分を切り出して認識する文字認識部、1
5は文字認識部14により得られた文字毎の認識結果か
ら各フィールド毎の認識結果を合成するフィールド認識
結果合成部、16は帳票のフィールド毎の認識結果整合
条件を記憶しているフィールド認識結果整合条件記憶部
、17はフィールド認識結果合成部15から得られたフ
ィールド毎の認識結果が認識結果整合条件記憶部16に
記憶されている条件を満たすか否かを判定する認識結果
整合性判定部であり、これらが文字認識装置1を構成す
る。また、このフィールド認識結果整合条件記憶部16
の構成は図2に示される。図2および図3は、本発明の
一実施例におけるフィールド認識結果整合条件記憶部の
説明図である。図2および図3において、(a)は金融
機関のオンライン自動取引に用いられる帳票のフォーマ
ット、(b)は(a)のフォーマットにおける各フィー
ルドの整合条件を登録するフィールド認識結果整合条件
記憶部16の構成例である。本実施例では、(a)のフ
ォーマットに従って記入された帳票を認識する際、各フ
ィールドが(b)に示す整合条件を満たすか否かを判定
する。これにより、取引先に英文字が混じったり、金額
に負数表示が出力されたりする等、オペレータの目から
見て自明な誤りの発生を減らして負担を軽減させる。
なお、図2の場合、帳票の金額欄は一つであるが、図3
の場合には、複数のフィールドの値を合計する合計欄が
加わり、ここに金額1と金額2の値の合計が記入される
。従って、図3(b)に示す「合計」フィールドの整合
条件として、「金額1」フィールドと「金額2」フィー
ルドの合計値であることが指定されている。次に、本実
施例の文字認識装置1の動作について述べる。本実施例
では、まず、従来と同様に文字単位に認識処理を行い、
その結果をフィールド毎にまとめて認識結果文字列を合
成する。すなわち、文字認識装置1に帳票が挿入される
と、読み取り部11によって読み込まれ、読み取られた
イメージ情報は、イメージ情報格納部12に書き込まれ
るとともに、文字認識部14に送られる。文字認識部1
4では、そのイメージ情報から文字が記入されているフ
ィールドを切り出して、文字単位に認識処理を行い、文
字のそれぞれに対して認識候補文字を出力し、その結果
はフィールド認識結果合成部15によりフィールド毎に
まとめられ、フィールドとしての認識結果文字列が合成
される。さらに、その認識結果文字列を整合条件に照ら
して判定・出力する。すなわち、フィールド認識結果合
成部15から出力された各フィールドの認識結果文字列
は、フィールド認識結果整合性判定部17に送られる。
フィールド認識結果整合性判定部17では、フィールド
認識結果整合条件記憶部16に記憶されているそのフィ
ールドの認識結果文字列が満たすべき条件を参照し、認
識結果文字列がその条件を満たしているか否かを判定す
る。これにより、文字認識装置1は、各フィールド毎に
、フィールド認識結果合成部15により合成された認識
結果文字列と、それがそのフィールドに関する整合条件
(フィールド認識結果整合条件記憶部16に記憶されて
いる条件)を満たしているか否かとを、ともに結果とし
て出力する。DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention will be described below with reference to the drawings. FIG. 1 is a functional configuration diagram of a character recognition device according to an embodiment of the present invention. The character recognition device of this embodiment uses a CPU
The functional configuration is shown in FIG. 1, and includes a processing device such as, a storage device such as a magnetic disk and an optical disk device, and an input/output device such as a keyboard, CRT, and OCR. In FIG. 1, 11 is a reading unit that reads a form as image data; 12 is an image information storage unit that stores image information read by the reading unit 11; 13 is a form format storage unit that registers a form format in advance;
14 is a character recognition unit which refers to the form format storage unit 13 and extracts and recognizes a character part from image information;
5 is a field recognition result synthesis unit that synthesizes recognition results for each field from the recognition results for each character obtained by the character recognition unit 14; 16 is a field recognition result that stores recognition result matching conditions for each field of a form; A matching condition storage unit 17 is a recognition result consistency determination unit that determines whether the recognition results for each field obtained from the field recognition result synthesis unit 15 satisfy the conditions stored in the recognition result matching condition storage unit 16. These constitute the character recognition device 1. In addition, this field recognition result matching condition storage unit 16
The configuration of is shown in FIG. 2 and 3 are explanatory diagrams of a field recognition result matching condition storage unit in an embodiment of the present invention. In FIGS. 2 and 3, (a) is a format of a form used for online automated transactions of financial institutions, and (b) is a field recognition result matching condition storage unit 16 that registers matching conditions for each field in the format of (a). This is a configuration example. In this embodiment, when recognizing a form filled in according to the format of (a), it is determined whether each field satisfies the matching condition shown in (b). This reduces the occurrence of obvious errors from the operator's point of view, such as English characters being mixed in the customer name or negative numbers being output as the amount, thereby reducing the burden on the operator. In the case of Figure 2, there is only one amount column on the form, but in Figure 3
In this case, a total column is added for summing the values of multiple fields, and the sum of the values of Amount 1 and Amount 2 is entered here. Therefore, the matching condition for the "total" field shown in FIG. 3(b) specifies that the sum of the "amount 1" and "amount 2" fields is the same. Next, the operation of the character recognition device 1 of this embodiment will be described. In this embodiment, first, recognition processing is performed on a character-by-character basis in the same way as before.
The results are collected for each field and a recognition result character string is synthesized. That is, when a form is inserted into the character recognition device 1 , it is read by the reading section 11 , and the read image information is written into the image information storage section 12 and sent to the character recognition section 14 . Character recognition part 1
In step 4, fields in which characters are written are extracted from the image information, recognition processing is performed character by character, recognition candidate characters are output for each character, and the results are sent to the fields by the field recognition result synthesis unit 15. and the recognition result character string as a field is synthesized. Furthermore, the recognition result character string is judged and output based on matching conditions. That is, the recognition result character string of each field output from the field recognition result synthesis section 15 is sent to the field recognition result consistency determination section 17. The field recognition result consistency determination unit 17 refers to the conditions that the recognition result character string of the field stored in the field recognition result consistency condition storage unit 16 should satisfy, and determines whether the recognition result character string satisfies the conditions. Determine whether Thereby, for each field, the character recognition device 1 combines the recognition result character string synthesized by the field recognition result synthesis section 15 with the matching condition for that field (stored in the field recognition result matching condition storage section 16). It outputs both the results as to whether the conditions (conditions) are met or not.
【0007】[0007]
【発明の効果】本発明によれば、文字認識装置に、帳票
に含まれるフィールド毎にその認識結果が満たすべき条
件を記憶するフィールド認識結果整合条件記憶部と、各
フィールドの認識結果文字列がフィールド認識結果整合
条件記憶部に記憶されている条件を満たしているか否か
を判定するフィールド認識結果整合性判定部とを設ける
ことにより、各フィールドについて、認識結果文字列と
フィールドの意味との整合性を満たしているか否かを判
定することができる。従って、フィールド毎の認識結果
が自明な誤りを含む場合、それを文字認識装置として検
出することができ、これまで認識後処理で行われてきた
フィールド毎の認識結果文字列の内容の妥当性の判定を
軽減することができる。According to the present invention, the character recognition device includes a field recognition result matching condition storage unit that stores the conditions that the recognition result should satisfy for each field included in a form, and By providing a field recognition result consistency determination unit that determines whether the conditions stored in the field recognition result consistency condition storage unit are satisfied, it is possible to match the recognition result character string and the meaning of the field for each field. It is possible to determine whether or not the requirements are met. Therefore, if the recognition result for each field contains an obvious error, it can be detected by the character recognition device, and the validity of the content of the recognition result character string for each field, which has been performed in post-recognition processing, can be improved. Judgment can be reduced.
【0008】[0008]
【図1】本発明の一実施例における文字認識装置の機能
構成図である。FIG. 1 is a functional configuration diagram of a character recognition device in an embodiment of the present invention.
【図2】本発明の一実施例におけるフィールド認識結果
整合条件テーブルの説明図である。FIG. 2 is an explanatory diagram of a field recognition result matching condition table in an embodiment of the present invention.
【図3】本発明の一実施例におけるフィールド認識結果
整合条件テーブルの説明図である。FIG. 3 is an explanatory diagram of a field recognition result matching condition table in an embodiment of the present invention.
1 文字認識装置 11 読み取り部 12 イメージ情報格納部 13 帳票フォーマット記憶部 14 文字認識部 15 フィールド認識結果合成部 1 Character recognition device 11 Reading section 12 Image information storage section 13. Form format storage section 14 Character recognition section 15 Field recognition result synthesis section
Claims (1)
手段と、該読み取り手段により読み取られたイメージ情
報を格納する手段と、帳票のフォーマット情報を記憶す
る手段と、上記イメージ情報から文字部分を切り出して
認識する手段と、該認識手段によって得られた文字毎の
認識結果から、フィールドとしての認識結果文字列を作
成する手段とを有する文字認識装置の文字認識方法にお
いて、帳票に含まれるフィールド毎に上記認識結果文字
列が満たすべき整合条件を記憶する手段と、上記認識結
果文字列が該整合条件を満たしているか否かを判定する
手段とを設け、上記フィールド毎に、当該認識結果文字
列が該フィールドに関する整合条件を満たしているか否
かを判定して、該認識結果文字列および判定結果を出力
することを特徴とする文字認識方法。1. A means for reading a form as image data, a means for storing image information read by the reading means, a means for storing format information of the form, and a character portion cut out from the image information for recognition. and a means for creating a recognition result character string as a field from the recognition result for each character obtained by the recognition means, wherein the recognition result is generated for each field included in a form. A means for storing a matching condition that a character string should satisfy, and a means for determining whether or not the recognition result character string satisfies the matching condition are provided. A character recognition method characterized by determining whether a matching condition is satisfied and outputting the recognition result character string and the determination result.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3011362A JPH04270480A (en) | 1991-01-07 | 1991-01-07 | Character recognizing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3011362A JPH04270480A (en) | 1991-01-07 | 1991-01-07 | Character recognizing method |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH04270480A true JPH04270480A (en) | 1992-09-25 |
Family
ID=11775919
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP3011362A Pending JPH04270480A (en) | 1991-01-07 | 1991-01-07 | Character recognizing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH04270480A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10154157A (en) * | 1996-11-22 | 1998-06-09 | Nec Corp | Electronic filing system |
-
1991
- 1991-01-07 JP JP3011362A patent/JPH04270480A/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10154157A (en) * | 1996-11-22 | 1998-06-09 | Nec Corp | Electronic filing system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6996295B2 (en) | Automatic document reading system for technical drawings | |
US6782144B2 (en) | Document scanner, system and method | |
EP0546343A2 (en) | Diagram recognizing system | |
JP2008204226A (en) | Form recognition device and its program | |
US7107524B2 (en) | Computer implemented example-based concept-oriented data extraction method | |
JP3099797B2 (en) | Character recognition device | |
JPH04270480A (en) | Character recognizing method | |
JPH07220023A (en) | Method and device for table recognition | |
JP4566510B2 (en) | Form recognition device and form recognition method | |
JPH08329187A (en) | Document reader | |
JP2001022883A (en) | Character recognizing system and recording medium for realizing function for the same | |
JPH0816597A (en) | Word dictionary registration device and document recognition device | |
JP4087191B2 (en) | Image processing apparatus, image processing method, and image processing program | |
JP2002032704A (en) | System and method for document processing, storage medium, and document | |
JPH06215184A (en) | Labeling device for extracted area | |
JP3946043B2 (en) | Form identification device and identification method | |
JP2559356B2 (en) | Document image processing method | |
WO2023042270A1 (en) | Character recognition program, character recognition system, and character recognition method | |
JP3725944B2 (en) | Character recognition device | |
JP4418823B2 (en) | Form identification device and identification method thereof | |
JP3197441B2 (en) | Character recognition device | |
JP2001312694A (en) | Method and device for recognizing many kinds of slips | |
JP3384634B2 (en) | Character type identification method | |
JPH07296102A (en) | Data input system | |
JPS594358Y2 (en) | Character control device in character correction |