JPH0636069A - Character recognizing device - Google Patents

Character recognizing device

Info

Publication number
JPH0636069A
JPH0636069A JP4185079A JP18507992A JPH0636069A JP H0636069 A JPH0636069 A JP H0636069A JP 4185079 A JP4185079 A JP 4185079A JP 18507992 A JP18507992 A JP 18507992A JP H0636069 A JPH0636069 A JP H0636069A
Authority
JP
Japan
Prior art keywords
character
control information
unit
format control
regular expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4185079A
Other languages
Japanese (ja)
Inventor
Kenji Mishima
健司 三縞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP4185079A priority Critical patent/JPH0636069A/en
Publication of JPH0636069A publication Critical patent/JPH0636069A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To enable detailed specification and improve the recognition rate by using normal expression to specify the character kind of format control information(FC). CONSTITUTION:This character recognizing device is equipped with an FC part 2 where the format control information referred to so as to read characters, etc., recorded on a form is stored and information specifying the character kind of the format control information is expressed in the normal expression, a normal expression analytic part 31 which analyzes the normal expression in the format control information stored in the FC part 2, a character kind control part 34 which selects a dictionary to be used among recognition dictionaries 33 according to the analytic result of the normal expression analytic part 31, and a matching part 35 which obtains a read result by matching the characters recorded on the form with patterns by using the dictionary selected by the character kind control part 34.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、用紙に記録された文字
等を、読取り位置、字体、字種等を含む書式制御情報
(FC)に基づいて読取る文字認識装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character recognition device for reading characters recorded on paper based on format control information (FC) including a reading position, a font, a character type and the like.

【0002】[0002]

【従来の技術】従来の文字認識装置(OCR)は、帳票
等における読取り位置、字体、字種等を含む書式制御情
報(FC)に基づいて、用紙に記録された文字等の読取
りを行なう。書式制御情報(FC)は、字種に関して、
用紙上に設けられた文字の記入欄(フィールド)毎に、
アルファベット(A)、数字(N)、カタカナ(K)な
どのように指定している。そのため、フィールド内に記
録された全ての文字について、指定された字種であるも
のとして文字認識を行なっている。
2. Description of the Related Art A conventional character recognition device (OCR) reads a character or the like recorded on a sheet based on format control information (FC) including a reading position, a font, a character type, etc. on a form or the like. Format control information (FC) is
For each character entry field (field) provided on the form,
It is designated as alphabet (A), number (N), katakana (K), and so on. Therefore, all the characters recorded in the field are recognized as the designated character type.

【0003】[0003]

【発明が解決しようとする課題】このように従来の文字
認識装置では、フィールド内に記録された全ての文字に
ついて、同フィールドに指定された文字種として認識を
行なっていた。このため、例えば、金額欄のように、最
初の1文字は記号「¥」の場合があり、さらに最初の数
字は「0」ではないといった、細かい制御を指定するこ
とができなかった。この場合、金額欄内に記録された文
字の品質によっては、最初の数字についての認識結果が
「0」に誤認識されることもあり、認識率の低下を招い
ていた。
As described above, in the conventional character recognition device, all the characters recorded in the field are recognized as the character type designated in the field. Therefore, for example, like the amount column, the first character may be the symbol “¥”, and the first number may not be “0”, which makes it impossible to specify detailed control. In this case, depending on the quality of the characters recorded in the amount column, the recognition result for the first number may be erroneously recognized as "0", leading to a reduction in the recognition rate.

【0004】本発明は前記のような点に鑑みてなされた
もので、書式制御情報(FC)の字種の指定に正規表現
を使用することにより詳細な指定を可能にして、認識率
を向上させることが可能な文字認識装置を提供すること
を目的とする。
The present invention has been made in view of the above points. By using a regular expression to specify the character type of format control information (FC), detailed specification is possible and the recognition rate is improved. An object of the present invention is to provide a character recognition device capable of performing the above.

【0005】[0005]

【課題を解決するための手段】本発明は、用紙に記録さ
れた文字等を読取るために参照される書式制御情報を記
憶するためのものであって、前記書式制御情報中の文字
種を指定する情報が正規表現で表されている書式制御情
報記憶手段と、前記書式制御情報記憶手段に記憶された
書式制御情報中の正規表現を解析する正規表現解析手段
と、前記正規表現解析手段による解析結果に基づいて、
前記用紙に記録された文字等についての読取り結果を求
める読取り手段とを具備して構成するものである。
SUMMARY OF THE INVENTION The present invention is for storing format control information that is referred to for reading characters and the like recorded on paper, and specifies the character type in the format control information. Format control information storage means in which information is represented by a regular expression, regular expression analysis means for analyzing a regular expression in the format control information stored in the format control information storage means, and an analysis result by the regular expression analysis means On the basis of,
And a reading unit that obtains a reading result of the characters and the like recorded on the sheet.

【0006】[0006]

【作用】このような構成によれば、書式制御情報中に含
まれる文字種に関する情報が正規表現によって表されて
いるため、認識対象とする文字毎に細かに制御すること
ができる。
With this configuration, since the information regarding the character type included in the format control information is represented by the regular expression, it is possible to finely control each character to be recognized.

【0007】[0007]

【実施例】以下、図面を参照して本発明の一実施例を説
明する。図2は同実施例に係わる文字認識装置の概略構
成を示すブロック図、図1は図2中の認識部3の詳細な
構成を示すブロック図である。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention will be described below with reference to the drawings. 2 is a block diagram showing a schematic configuration of the character recognition apparatus according to the embodiment, and FIG. 1 is a block diagram showing a detailed configuration of the recognition unit 3 in FIG.

【0008】図2に示すように、文字認識装置は、制御
部1、FC部2、認識部3、出力部4、及び入力部5に
よって構成されている。制御部1は、装置全体を制御す
る。FC部2は、文字認識を行なう際に参照される、読
取り位置、字体、字種等を含む書式制御情報(FC)を
記憶するためのものである。書式制御情報(FC)の字
種に関する情報は、例えば帳票に設けられた文字記入位
置を示すフィールド毎に正規表現によって指定すること
ができる。正規表現の詳細については後述する。認識部
3は、FC部2に記憶された書式制御情報(FC)に従
って、後述する入力部5によって帳票等を光学的に走査
することによって得られた画像から文字パターンを切り
出して文字認識を行なうことにより文字を読取る。出力
部4は、認識部3による文字認識によって得られた読取
り結果を出力する。入力部5は、読取りの対象となる文
字等が記録された帳票等を光学的に走査することによっ
て帳票画像を検出して認識部3に出力する。
As shown in FIG. 2, the character recognition device comprises a control unit 1, an FC unit 2, a recognition unit 3, an output unit 4, and an input unit 5. The control unit 1 controls the entire device. The FC unit 2 is for storing format control information (FC) including a reading position, a font, a character type, etc., which is referred to when performing character recognition. The information on the character type of the format control information (FC) can be specified by a regular expression for each field indicating a character entry position provided on a form, for example. Details of the regular expression will be described later. The recognition unit 3 performs character recognition by cutting out a character pattern from an image obtained by optically scanning a form or the like by an input unit 5 described later according to the format control information (FC) stored in the FC unit 2. By reading the character. The output unit 4 outputs the reading result obtained by the character recognition by the recognition unit 3. The input unit 5 optically scans a form or the like on which characters or the like to be read are recorded to detect a form image and outputs it to the recognition unit 3.

【0009】図1に示すように、認識部3は、正規表現
解析部31、切出部32、認識辞書33、字種制御部3
4、及び照合部35によって構成されている。正規表現
解析部31は、FC部2に記憶された書式制御情報(F
C)を入力し、このFCで指定された正規表現を解析す
る。切出部32は、書式制御情報(FC)で指定された
読取り位置情報に基づいて、入力部5から出力された帳
票画像から文字パターンを1文字毎に切出す。認識辞書
33は、認識可能とする全ての文字についての辞書を記
憶するためのものである。字種制御部34は、正規表現
解析部31による解析結果に応じて、文字毎に文字認識
のために何れの文字種用の辞書を用いるかを選択する。
照合部35は、字種制御部34によって選択された辞書
と、切出部32によって切出された文字パターンとを照
合することによって文字を認識し、読取り結果を出力す
る。次に、同実施例の動作について説明する。
As shown in FIG. 1, the recognition unit 3 includes a regular expression analysis unit 31, a cutout unit 32, a recognition dictionary 33, and a character type control unit 3.
4 and the collation unit 35. The regular expression analysis unit 31 uses the format control information (F
Input C) and parse the regular expression specified by this FC. The cutout unit 32 cuts out a character pattern for each character from the form image output from the input unit 5 based on the reading position information designated by the format control information (FC). The recognition dictionary 33 is for storing a dictionary for all recognizable characters. The character type control unit 34 selects which character type dictionary to use for character recognition for each character according to the analysis result by the regular expression analysis unit 31.
The collation unit 35 recognizes the character by collating the dictionary selected by the character type control unit 34 with the character pattern cut out by the cutout unit 32, and outputs the read result. Next, the operation of the embodiment will be described.

【0010】まず、FC部2に処理対象とする帳票に関
する書式制御情報(FC)が登録される。書式制御情報
(FC)には、帳票に設けられた文字読取りの対象領域
であるフィールド位置(読取り位置)や、フィールド内
に記録される文字の字体、字種等に関する情報が含まれ
ている。この中で字種に関する情報は、正規表現によっ
て表されている。
First, the FC unit 2 registers format control information (FC) relating to a form to be processed. The format control information (FC) includes information on a field position (reading position) which is a target area for reading characters provided on a form, a font of characters recorded in the field, a character type, and the like. The information about the character types is represented by regular expressions.

【0011】正規表現とは、文字列のパターンを表す方
式であり、例えば図3に示すような正規表現の規則に従
って表される。ここでは、帳票に設けられた金額欄に記
入される文字列についての正規表現の例を用いて説明す
る。
The regular expression is a method of expressing a pattern of a character string, and is expressed according to the rule of the regular expression as shown in FIG. 3, for example. Here, description will be given using an example of a regular expression for a character string entered in the amount column provided on the form.

【0012】例えば、金額欄には、最初の1文字は記号
「¥」の場合があり、さらに最初の数字は「0」ではな
い文字が記入されることを正規表現によって表すと、 ¥?[1−9][0−9]* …(a) となる。つまり、文字列の左から順に、「¥」が0個ま
たは1個、「1」〜「9」の何れかが1個、「0」〜
「9」の何れかが0個以上続くという意味である。
For example, in the amount column, the first character may be the symbol "\", and the first number is a character other than "0". [1-9] [0-9] * (a). That is, in order from the left of the character string, "\" is 0 or 1, "1" to "9" is 1 and "0" to
This means that any one of “9” continues for 0 or more.

【0013】入力部5で検出された帳票画像が認識部3
の切出部32に入力されると共に、FC部2に記憶され
た処理対象とする帳票についての書式制御情報(FC)
が認識部の正規表現解析部31、及び切出部32に入力
される。
The form image detected by the input unit 5 is recognized by the recognition unit 3.
Format control information (FC) about the form to be processed, which is input to the cutout unit 32 of and stored in the FC unit 2.
Is input to the regular expression analysis unit 31 and the cutout unit 32 of the recognition unit.

【0014】切出部32は、フィールド位置を示す情報
等に基づいて文字パターンの切出しを行ない、切出した
文字パターンを照合部35に出力する。また、正規表現
解析部31は、処理対象とするフィールドに関する書式
制御情報(FC)を解析する。正規表現解析部31は、
前記(a)に示すような正規表現について解析を行なう
ことにより、1桁目に記入されている文字が「¥」また
は「1」〜「9」の何れかであることがわかるので
(「¥」が0個の場合もある)、字種制御部34に対し
て、これらの文字についての辞書だけを用いるように指
示する。照合部35は、字種制御部34によって選択さ
れた辞書と、切出部32で切出された1桁目の文字パタ
ーンとを照合し、読取り結果を出力する。
The cutout unit 32 cuts out the character pattern based on the information indicating the field position and outputs the cut-out character pattern to the collation unit 35. Further, the regular expression analysis unit 31 analyzes the format control information (FC) regarding the field to be processed. The regular expression analysis unit 31
By analyzing the regular expression as shown in (a) above, it can be seen that the character entered in the first digit is either "\" or "1" to "9". In some cases, the character type control unit 34 is instructed to use only the dictionary for these characters. The collation unit 35 collates the dictionary selected by the character type control unit 34 with the character pattern of the first digit cut out by the cutout unit 32, and outputs the read result.

【0015】次に、正規表現解析部31は、再び前記
(a)を解析することにより、1桁目の読取り結果が
「¥」であった場合、2桁目に記入されている文字が
「1」〜「9」の何れかであることがわかる。
Next, the regular expression analysis unit 31 analyzes the above (a) again, and when the read result of the first digit is "\", the character entered in the second digit is " It can be seen that it is any of "1" to "9".

【0016】また、1桁目の読取り結果が「1」〜
「9」の何れかであった場合は、2桁目に記入されてい
る文字が「0」〜「9」の何れかであることがわかる。
このように、1桁目の読取り結果によっては、2桁目の
読取りに使用する辞書も絞ることもできる。さらに、前
記(a)から、3桁目以降は「0」〜「9」の辞書を使
用すれば良いことがわかる。
The reading result of the first digit is "1".
When it is any of "9", it is understood that the character entered in the second digit is any of "0" to "9".
In this way, the dictionary used for reading the second digit can be narrowed down depending on the reading result of the first digit. Further, it can be seen from the above (a) that a dictionary of "0" to "9" may be used for the third digit and thereafter.

【0017】このようにして、フィールド内に記入され
る文字列に対して正規表現による詳細な文字種の指定を
行なうことができるので、文字単位の細かい制御が可能
となり、各文字毎に辞書を限定するためより確実に認識
結果が得られ、また辞書を限定することで処理時間を短
縮することができる。
As described above, since the detailed character type can be specified by the regular expression for the character string entered in the field, fine control can be performed on a character-by-character basis and the dictionary is limited for each character. Therefore, the recognition result can be obtained more reliably, and the processing time can be shortened by limiting the dictionary.

【0018】なお、前記実施例においては、正規表現に
よって指定された文字種に基づいて辞書の絞り込みを行
って文字認識をするものとしたが、フィールド内に記録
された全ての文字列については同じ字種として読取り、
読取り結果の妥当性のチェック(後処理)の際に参照す
るようにしても良い。
In the above embodiment, the character recognition is performed by narrowing down the dictionary based on the character type specified by the regular expression, but the same character is used for all the character strings recorded in the field. Read as a seed,
It may be referred to when checking the validity of the read result (post-processing).

【0019】また、フィールド内の文字種の指定につい
て説明したが、キャラクタセットの指定の代わりとして
の機能もある。例えば、「Y」「N」としか記入されな
い場合に、正規表現を用いて「NY」と指定すれば良
い。さらに、限られた単語しか記入されない場合も、正
規表現で指定することができる。例えば、東京|埼玉|
千葉|神奈川のように指定して、簡単な後処理用単語辞
書として用いることができる。
Although the designation of the character type in the field has been described, it also has a function as an alternative to the designation of the character set. For example, when only "Y" and "N" are entered, it is sufficient to specify "NY" using a regular expression. Furthermore, even if only a limited number of words are entered, it can be specified by a regular expression. For example, Tokyo | Saitama |
Chiba | Kanagawa can be specified and used as a simple post-processing word dictionary.

【0020】[0020]

【発明の効果】以上のように本発明によれば、書式制御
情報(FC)の字種の指定に正規表現を使用することに
より詳細な指定が可能となるので、認識率を向上させる
ことが可能となるものである。
As described above, according to the present invention, since a detailed expression can be specified by using a regular expression for specifying the character type of format control information (FC), the recognition rate can be improved. It is possible.

【図面の簡単な説明】[Brief description of drawings]

【図1】図2中における認識部3の詳細な構成を示すブ
ロック図。
FIG. 1 is a block diagram showing a detailed configuration of a recognition unit 3 in FIG.

【図2】本発明の一実施例に係わる文字認識装置の構成
を示すブロック図。
FIG. 2 is a block diagram showing the configuration of a character recognition device according to an embodiment of the present invention.

【図3】本実施例において用いられる正規表現の規則の
一例を示す図。
FIG. 3 is a diagram showing an example of a regular expression rule used in this embodiment.

【符号の説明】[Explanation of symbols]

1…制御部、2…FC部、3…認識部、4…出力部、5
…入力部、31…正規表現解析部、32…切出部、33
…認識辞書、34…字種制御部、35…照合部。
1 ... Control unit, 2 ... FC unit, 3 ... Recognition unit, 4 ... Output unit, 5
... input part, 31 ... regular expression analysis part, 32 ... cutout part, 33
... recognition dictionary, 34 ... character type control unit, 35 ... collation unit.

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】 用紙に記録された文字等を読取るために
参照される書式制御情報を記憶するためのものであっ
て、前記書式制御情報中の文字種を指定する情報が正規
表現で表されている書式制御情報記憶手段と、 前記書式制御情報記憶手段に記憶された書式制御情報中
の正規表現を解析する正規表現解析手段と、 前記正規表現解析手段による解析結果に基づいて、前記
用紙に記録された文字等についての読取り結果を求める
読取り手段と、 を具備したことを特徴とする文字認識装置。
1. A storage medium for storing format control information that is referred to for reading a character or the like recorded on a sheet, wherein information for designating a character type in the format control information is represented by a regular expression. A format control information storage means, a regular expression analysis means for analyzing a regular expression in the format control information stored in the format control information storage means, and a record on the sheet based on an analysis result by the regular expression analysis means. A character recognition device comprising: a reading unit that obtains a reading result of the written characters and the like.
JP4185079A 1992-07-13 1992-07-13 Character recognizing device Pending JPH0636069A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4185079A JPH0636069A (en) 1992-07-13 1992-07-13 Character recognizing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4185079A JPH0636069A (en) 1992-07-13 1992-07-13 Character recognizing device

Publications (1)

Publication Number Publication Date
JPH0636069A true JPH0636069A (en) 1994-02-10

Family

ID=16164456

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4185079A Pending JPH0636069A (en) 1992-07-13 1992-07-13 Character recognizing device

Country Status (1)

Country Link
JP (1) JPH0636069A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2713312A2 (en) 2012-09-28 2014-04-02 Omron Corporation Image processing system and image processing method

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2713312A2 (en) 2012-09-28 2014-04-02 Omron Corporation Image processing system and image processing method
JP2014071697A (en) * 2012-09-28 2014-04-21 Omron Corp Image processing system and image processing method
EP2713312A3 (en) * 2012-09-28 2015-04-08 Omron Corporation Image processing system and image processing method

Similar Documents

Publication Publication Date Title
KR100412317B1 (en) Character recognizing/correcting system
JPS61502495A (en) Cryptographic analysis device
JPH0772906B2 (en) Document recognition device
JPH0636069A (en) Character recognizing device
JPH10177623A (en) Document recognizing device and language processor
JP3457376B2 (en) Character correction method in optical reader
JPH10134141A (en) Device and method for document collation
JP2529421B2 (en) Character recognition device
JP3217442B2 (en) Optical character reader
JP2907947B2 (en) Optical character reading system
JP3310063B2 (en) Document processing device
JPS6095689A (en) Optical character reader
JPH04293185A (en) Filing device
JPS5972577A (en) Drawing reader
JPH0922441A (en) Optical character reader
JPH04274580A (en) Optical character reader
JPH06290053A (en) Character-string constant lexical analyzing system
JPH0546806A (en) Character recognition method
JPH0298795A (en) Character recognizing device
JPS5851390A (en) Font character recognizing device
JPH06149889A (en) Electronic filing system
JPH06236454A (en) Character recognizing device
JPS63244286A (en) Character recognizing system
JPS60254282A (en) Character recognizing system
JPH05108703A (en) Machine translator