JPH076203A - Character recognition device - Google Patents

Character recognition device

Info

Publication number
JPH076203A
JPH076203A JP5143965A JP14396593A JPH076203A JP H076203 A JPH076203 A JP H076203A JP 5143965 A JP5143965 A JP 5143965A JP 14396593 A JP14396593 A JP 14396593A JP H076203 A JPH076203 A JP H076203A
Authority
JP
Japan
Prior art keywords
character
character recognition
parameter
characters
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP5143965A
Other languages
Japanese (ja)
Inventor
Ryuichi Nakamura
隆一 中村
Atsuko Niimura
敦子 新村
Hirotaka Fuchizawa
博孝 渕沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
N T T DATA TSUSHIN KK
NTT Data Corp
Original Assignee
N T T DATA TSUSHIN KK
NTT Data Communications Systems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by N T T DATA TSUSHIN KK, NTT Data Communications Systems Corp filed Critical N T T DATA TSUSHIN KK
Priority to JP5143965A priority Critical patent/JPH076203A/en
Publication of JPH076203A publication Critical patent/JPH076203A/en
Withdrawn legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

PURPOSE:To provide the character recognition device in which characters are precisely recognized and the processing speed is improved with respect to the character recognition device recognizing characters according to a predetermined character string. CONSTITUTION:Image data read by a document read section 1 are segmented by a character recognition preprocessing section 2 as a character string with a predetermined character number, and a character recognition section 3 applies character recognition processing to the character string. A parameter control section 5 implements setting processing of a parameter used to set a proper character segmented number based on data outputted from the character recognition section 3 and an operator control section 4, the proper parameter value is stored in a memory and then characters having a highest character number in the recognition rate of correctly recognized characters based on the learned data.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、印刷文字や手書き文字
の認識を行う文字認識装置に係り、特に文字認識を所定
の文字列に従って行う文字認識装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character recognition device for recognizing printed characters and handwritten characters, and more particularly to a character recognition device for recognizing a character according to a predetermined character string.

【0002】[0002]

【従来の技術】今日、OCR(光学式文字読み取り装
置)など、コンピュータを利用してイメージデータから
対象となる文字の認識を行う文字認識システムが開発さ
れている。この文字認識システムは、CCD等の光電変
換装置により帳票上の文字を読み取り、読み取ったイメ
ージデータの中から所定の文字列を切り出し、この切り
出した文字列に対して文字認識を行っている。
2. Description of the Related Art Today, a character recognition system, such as an OCR (optical character reader), has been developed for recognizing a target character from image data using a computer. This character recognition system reads characters on a form by a photoelectric conversion device such as a CCD, cuts out a predetermined character string from the read image data, and performs character recognition on the cut out character string.

【0003】従来、この文字列を構成する文字数の設定
は、文字認識処理の対象となる帳票に対し、文字数を変
えながら認識処理を行い、最も正確な文字認識ができる
文字数に決定している。例えば、所定の用途に使用する
帳票の文字認識に対し、切り出す文字数を3文字、4文
字、・・・と順次変えて文字認識を行い、それぞれの文
字認識率を調べ、最も文字認識率の高い文字数を決定し
ている。この様に決定した文字数をイメージデータから
切り出す文字列の文字数として固定的に設定し、以後こ
の文字数の文字列をイメージデータの中から順次読み出
し、文字認識処理を行っている。
Conventionally, the number of characters constituting this character string is set by performing the recognition process on the form to be subjected to the character recognition process while changing the number of characters, and determining the number of characters that allows the most accurate character recognition. For example, with respect to the character recognition of a form used for a predetermined purpose, the number of characters to be cut out is sequentially changed to 3 characters, 4 characters, and so on, and the character recognition is performed. The number of characters is decided. The number of characters thus determined is fixedly set as the number of characters of the character string to be cut out from the image data, and thereafter, the character string having this number of characters is sequentially read from the image data to perform the character recognition process.

【0004】[0004]

【発明が解決しようとする課題】従来の文字認識装置で
は、上述のように固定的に設定した文字数の文字列に対
し認識処理を行うが、設定の際の環境が変化した場合、
例えば当初帳票には印刷文字を記載していたが、後に手
書き文字を記載する場合や、使用する帳票のフォーマッ
トが変化した場合、等には文字認識を正しく行うことが
できない。
In the conventional character recognition device, recognition processing is performed on a character string having the number of characters fixedly set as described above, but when the environment at the time of setting changes,
For example, although print characters were initially described in the form, when handwritten characters are described later, or when the format of the form to be used is changed, the character recognition cannot be performed correctly.

【0005】また、従来の文字列を構成する文字数の設
定では、帳票を構成する所謂フィールドの変化を考慮す
ることなく設定している。すなわち、帳票として例えば
銀行の振込用紙の場合、振込用紙には氏名を記載する
欄、住所を記載する欄、金額を記載する欄、等の各種フ
ィールドを有するが、従来の文字認識装置ではこの点を
考慮することなく文字数の設定を行っている。例えば、
氏名の欄の文字の記載は一般に広い間隔で記載し、逆に
住所の欄は接近して記載する。また、金額の欄は通常枡
目状に構成され、各枡目内に文字を記載する。したがっ
て、この様な各フィールド毎の構成の相違を考慮せず全
体を1つのフィールドとして切り出し文字数の設定が行
われる従来の設定方式では、正確な文字認識を行うこと
ができない。
Further, in the conventional setting of the number of characters constituting a character string, the number of characters constituting the form is set without considering the change of so-called fields constituting the form. That is, for example, in the case of a bank transfer form as a form, the transfer form has various fields such as a name field, an address field, and an amount field. The number of characters is set without considering. For example,
Generally, the letters in the name column are written at wide intervals, and conversely, the address column is written closely. Further, the amount column is usually formed in a grid shape, and a character is written in each grid. Therefore, in the conventional setting method in which the number of characters to be cut out is set as one field without considering such a difference in the configuration of each field, accurate character recognition cannot be performed.

【0006】本発明は、帳票のフィールドを考慮して適
切に文字切り出し数を設定し、正確な文字認識を行うと
共に、処理速度の向上を可能とした文字認識装置を提供
することを目的とする。
SUMMARY OF THE INVENTION It is an object of the present invention to provide a character recognizing device capable of appropriately setting the number of character cutouts in consideration of fields of a form, performing accurate character recognition, and improving the processing speed. .

【0007】[0007]

【課題を解決するための手段】本発明の文字認識装置の
ひとつの構成例としては、記載された文字をイメージデ
ータに変換するイメージデータ変換手段と、該イメージ
データから所定の文字を切り出す文字切り出し手段と、
該文字切り出し手段で切り出す文字数を決定するパラメ
ータ値の設定、及び該設定されたパラメータ値を帳票か
ら得られる情報に基づき、常時適正値に保持するパラメ
ータ設定/制御手段と、該パラメータ設定/制御手段で
設定されたパラメータ値を記憶する記憶手段と、該記憶
手段に記憶されたパラメータ値に基づいて決定される文
字切り出し数に従って切り出された文字列の文字認識を
行う文字認識手段とで構成されている。
As one configuration example of a character recognition device of the present invention, an image data conversion means for converting written characters into image data, and a character cutout for cutting out predetermined characters from the image data Means and
Parameter setting / control means for constantly setting the parameter value for determining the number of characters to be cut out by the character cutting means, and the parameter setting / control means for always holding the set parameter value at an appropriate value based on information obtained from a form, and the parameter setting / control means And a character recognition means for recognizing a character string cut out in accordance with the number of character cutouts determined based on the parameter value stored in the storage means. There is.

【0008】また、前記パラメータ設定/制御手段は、
記入フィールドのパラメータ最適値の相関を学習する手
段や、各記入フィールドのパラメータ適正値の相関から
パラメータ適正値を推定する手段で構成されている。
Further, the parameter setting / control means is
It is composed of means for learning the correlation of the optimum parameter values of the entry fields and means for estimating the proper parameter values from the correlation of the optimum parameter values of each entry field.

【0009】[0009]

【作用】本発明は、イメージデータ変換手段で帳票の文
字をイメージデータとして読み取り、この読み取ったイ
メージデータに対して文字切り出し手段で所定の文字数
の文字列として切り出す際、パラメータ設定/制御手段
でフィールド毎に異なるパラメータ適正値を設定し、各
フィールドのパラメータ値を相関式の形で記憶手段に学
習データとして記憶することにより、後にこの学習デー
タを利用して正確な文字認識処理を行い、処理速度を向
上するものである。
According to the present invention, when the characters of the form are read as image data by the image data converting means and the read image data is cut out as a character string having a predetermined number of characters, the parameter setting / control means makes a field. Different parameter proper values are set for each, and the parameter values of each field are stored in the storage means in the form of learning data as learning data, so that the learning data can be used later for accurate character recognition processing, and the processing speed can be improved. Is to improve.

【0010】[0010]

【実施例】以下、本発明の一実施例について、図面を参
照しながら説明する。図1は本実施例の文字認識装置の
システムブロック図である。本システムは帳票読み取り
部1、文字認識前処理部2、文字認識部3、オペレータ
操作部4、パラメータ制御部5で構成されている。帳票
読み取り部1は、例えば用紙上に書かれたイメージデー
タなどを読み取る装置であり、用紙上の文字を読み取る
不図示の光電変換部(文字読み取り部)、及び文字が記
載された用紙を光電変換部へ搬送する不図示の搬送部で
構成されている。光電変換部はCCDセンサやMOS形
イメージセンサで構成され、搬送部へ送られる用紙上の
文字を光電変換して読み取り、デジタルデータとして文
字認識前処理部2へ出力する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention will be described below with reference to the drawings. FIG. 1 is a system block diagram of the character recognition device of this embodiment. This system is composed of a form reading unit 1, a character recognition preprocessing unit 2, a character recognition unit 3, an operator operation unit 4, and a parameter control unit 5. The form reading unit 1 is, for example, a device that reads image data written on paper, and a photoelectric conversion unit (character reading unit) (not shown) that reads characters on the paper and photoelectric conversion is performed on the paper on which the characters are written. It is configured by a transport unit (not shown) that transports to another unit. The photoelectric conversion unit is composed of a CCD sensor or a MOS type image sensor, photoelectrically converts the characters on the paper sent to the conveying unit and reads them, and outputs them as digital data to the character recognition preprocessing unit 2.

【0011】文字認識前処理部2は上記帳票読み取り部
1が読み取ったイメージデータから雑音除去、上述の文
字切り出し等の前処理を行う。例えば、読み取った文字
データに所謂“しみ”、“欠け”等の雑音がある場合に
これを除去(雑音除去)し、読み取った文字データの中
の後述する所定数の文字列を切り出し、切り出した文字
を文字認識部3へ出力する。
The character recognition preprocessing unit 2 carries out preprocessing such as noise removal and the above character cutout from the image data read by the form reading unit 1. For example, when the read character data has noise such as so-called “stain” or “chip”, this is removed (noise removal), and a predetermined number of character strings to be described later in the read character data are cut out and cut out. The character is output to the character recognition unit 3.

【0012】文字認識部3は単語辞書を有し、上記文字
認識前処理部2が切り出した文字を認識し、類似する候
補文字を検索し文字認識処理を行う。オペレータ操作部
4はディスプレイ及びキーボードで構成され、例えば上
記文字認識部3で認識された文字の表示処理や、オペレ
ータが指示する誤認識文字の修正等の操作信号の入力処
理を行う。
The character recognition unit 3 has a word dictionary, recognizes the characters cut out by the character recognition preprocessing unit 2, searches for similar candidate characters, and performs character recognition processing. The operator operation unit 4 is composed of a display and a keyboard, and performs, for example, display processing of characters recognized by the character recognition unit 3 and input processing of operation signals such as correction of erroneously recognized characters instructed by the operator.

【0013】また、パラメータ制御部5は上述の文字認
識前処理部2が文字切り出しを行う際、切り出す文字数
を設定する装置であり、後述するパラメータ値に基づい
て、文字認識の対象となる帳票に対して最も文字認識率
の高い切り出し文字数のデータを文字認識前処理部2へ
出力する。また、パラメータ制御部5で設定するパラメ
ータ値は、オペレータ操作部4から入力する操作信号
や、文字認識前処理部2、文字認識部3から出力される
データに基づいて設定される。
The parameter control unit 5 is a device for setting the number of characters to be cut out when the above-mentioned character recognition preprocessing unit 2 cuts out a character, and based on a parameter value described later, a character recognition target sheet is selected. On the other hand, the data of the cut-out character number having the highest character recognition rate is output to the character recognition preprocessing unit 2. The parameter value set by the parameter control unit 5 is set based on the operation signal input from the operator operation unit 4 and the data output from the character recognition preprocessing unit 2 and the character recognition unit 3.

【0014】以上の構成の文字認識装置において、以下
にその処理動作を説明する。先ず、前述のように帳票読
み取り部1により不図示の用紙上の文字が光電変換さ
れ、イメージデータ(デジタルデータ)として読み取ら
れる。このイメージデータは文字認識前処理部2によ
り、前述の如く雑音が除去され、パラメータ制御部5か
ら出力される文字切り出し数のデータに従って、指示さ
れる文字数の文字列をイメージデータから切り出し、文
字認識部3へ出力する。文字認識部3は、入力する文字
列毎に文字認識処理を行う。
The processing operation of the character recognition apparatus having the above-mentioned configuration will be described below. First, as described above, the form reading unit 1 photoelectrically converts characters on a sheet (not shown) to read them as image data (digital data). Noise is removed from the image data by the character recognition preprocessing unit 2 as described above, and a character string of the designated number of characters is cut out from the image data according to the character cutout number data output from the parameter control unit 5, and the character recognition is performed. Output to the part 3. The character recognition unit 3 performs character recognition processing for each input character string.

【0015】そして、パラメータ制御部5は、この間、
パラメータ値の設定及び変更処理を図2に示すフローチ
ャートに基づいて行う。すなわち、パラメータ制御部5
は文字認識前処理部2から出力されるデータを入力し、
このデータに基づいて処理を実行する。
Then, the parameter controller 5
Parameter value setting and changing processing is performed based on the flowchart shown in FIG. That is, the parameter control unit 5
Inputs the data output from the character recognition preprocessing unit 2,
The process is executed based on this data.

【0016】先ず、パラメータ制御部5は文字認識前処
理部2から帳票認識データ(帳票認識結果)を受け取る
と、このデータに基づいて帳票の学習データがあるか判
断する(ステップ(以下STという)1)。この判断
は、文字認識前処理部2から読み込んだ帳票認識データ
に基づいて、記入フィールドとパラメータ値の学習デー
タが存在するか否かの判断である。記入フィールドとは
前述の例の如く、帳票として例えば銀行の振込用紙の例
の如く、氏名を記載する欄、住所を記載する欄、金額を
記載する欄、等の文字の記載条件が異なると思われる範
囲をいい、既に学習が行われている帳票については不図
示のメモリに学習データが記憶されている。したがっ
て、この学習データを検索することにより、対応するパ
ラメータ値が記憶されているか判断できる。ここで、学
習データが既に記憶されている場合(ST1がYES
(イエス))、処理(ST9〜ST11)を実行する。
尚、この処理(ST9〜ST11)については説明上後
述する。
First, when the parameter control unit 5 receives the form recognition data (form recognition result) from the character recognition preprocessing unit 2, it determines whether there is learning data of the form based on this data (step (hereinafter referred to as ST)). 1). This determination is based on the form recognition data read from the character recognition preprocessing unit 2 and whether or not there is learning data for the entry field and the parameter value. Like the above example, it seems that the conditions for writing characters such as a name entry field, an address entry field, an amount entry field, etc. are different, as in the above example, such as a bank transfer form. The learning data is stored in a memory (not shown) for a form that has already been learned. Therefore, by searching this learning data, it can be determined whether or not the corresponding parameter value is stored. Here, when the learning data is already stored (ST1 is YES
(Yes)) and processing (ST9 to ST11).
Incidentally, this processing (ST9 to ST11) will be described later on.

【0017】したがって、先ず学習データがない場合
(ST1がNO(ノー))、帳票一枚について以下の処
理をフィールド(記入フィールド)毎に行う。先ず、初
期設定時の任意の文字切り出し数と正解切り出し数との
差を計算し、パラメータ適正値検索方向を判断する(S
T2)。この処理は、初期設定時の任意の文字切り出し
数を例えば「6」とし文字認識処理を行い、オペレータ
の修正処理後の正解文字切り出し数が例えば「4」と判
かると、その差「2」を算出するものであり、さらに、
この結果に基づいてパラメータ制御部5でパラメータの
検索方向を決定するものである。この検索方向の決定は
“正解切り出し文字数<文字切り出し数”であればパラ
メータ値が大きくなる方向に検索し、一方、“正解切り
出し文字数>文字切り出し数”であればパラメータ値が
小さくなる方向に検索する。すなわち、ある帳票につい
て特定の記入フィールドに記載された文字には一定の傾
向があり、その傾向に基づいてパラメータ適正値の検索
方向を判断する。したがって、上述の例では、正解切り
出し文字数が「4」であり、文字切り出し数が「6」で
あるので、“正解切り出し文字数<文字切り出し数”と
なり、パラメータ値が大きくなる方向に検索する。尚、
通常パラメータ値の幅は“126”〜“516”の範囲
で設定される。
Therefore, first, when there is no learning data (ST1 is NO), the following process is performed for each field (entry field) for one form. First, the difference between the arbitrary character cutout number and the correct answer cutout number at the time of initial setting is calculated to determine the parameter proper value search direction (S
T2). In this processing, character recognition processing is performed by setting an arbitrary number of character cutouts at the time of initial setting to, for example, "6", and when it is determined that the correct number of character cutouts after correction processing by the operator is, for example, "4", the difference "2" To calculate
Based on this result, the parameter control unit 5 determines the parameter search direction. This search direction is determined in the direction in which the parameter value increases if "the number of correct cut characters is less than the number of character cuts", and in the direction that the parameter value is smaller if "the number of correct cut characters> the number of cut characters". To do. That is, the characters written in a specific entry field for a certain form have a certain tendency, and the search direction for the appropriate parameter value is determined based on the tendency. Therefore, in the above-mentioned example, the number of correct cut-out characters is “4” and the number of cut-out characters is “6”, so that “the number of correct-cut cut-out characters is smaller than the number of cut-out characters”, and the parameter value is searched in the direction of increasing. still,
The width of the normal parameter value is set in the range of "126" to "516".

【0018】次に、上述の処理により決定した方向に、
予め設定された一定のパラメータ値(例えば30とか、
40等)を変更する(ST3)。例えば、パラメータ値
が大きい方向へ移動する上述の例の場合、現在のパラメ
ータ値(例えば“256”)に対して、所定値(例えば
“30”)を増加する。また、逆にパラメータ値が小さ
い方向へ移動する場合、現在のパラメータ値(例えば
“256”)に対して、所定値(例えば“30”)を減
少する。
Next, in the direction determined by the above processing,
A preset constant parameter value (for example, 30,
40) is changed (ST3). For example, in the case of the above example in which the parameter value is moved in the larger direction, the predetermined value (eg, “30”) is increased with respect to the current parameter value (eg, “256”). On the contrary, when moving in the direction in which the parameter value is smaller, the predetermined value (eg, “30”) is decreased with respect to the current parameter value (eg, “256”).

【0019】この様にして設定したパラメータ値に基づ
いて文字認識前処理部2は文字切り出し処理を行う(S
T4)。そして、上述の処理により切り出した文字数
と、オペレータ操作部4から出力される正解文字切り出
し数から再度両者の差を計算する(ST5)。そして、
このように計算して得られた差の絶対値と、一つ前の同
じ処理(ST2)により得られた差を比較し、現文字切
り出し数差が前の文字切り出し数差より大きいか判断す
る(ST6)。ここで、現文字切り出し数差が前の文字
切り出し数差より小さい時(ST6がNO)、順次パラ
メータ値が適正な方向へ移動し、正解切り出し文字数と
文字切り出し数の差が小さくなってきたものと判断し、
さらに処理(ST3)に戻り新たなパラメータ値に換え
る。
The character recognition preprocessing unit 2 performs a character cutting process based on the parameter values set in this way (S).
T4). Then, the difference between the number of characters cut out by the above-described processing and the number of correct character cutouts output from the operator operation unit 4 is calculated again (ST5). And
The absolute value of the difference calculated in this way is compared with the difference obtained by the same process (ST2) immediately before, and it is determined whether the difference in the current character cutout number is larger than the difference in the previous character cutout number. (ST6). Here, when the current character cutout number difference is smaller than the previous character cutout number difference (ST6 is NO), the parameter value is sequentially moved in the proper direction, and the difference between the correct answer cutout character number and the character cutout number is becoming smaller. And judge
Further, the process returns to the process (ST3) and a new parameter value is replaced.

【0020】一方、現文字切り出し数差が前の文字切り
出し数差より大きい時(ST6がYES)、次の処理
(ST7)へ移行する。すなわち、この場合は正解切り
出し文字数と文字切り出し数の差が小さくなるのが通常
であるが、その差が大きくなることは、同一フィールド
内の文字ではないと判断し、記入フィールドが変わった
と判断する。したがって、この時それまでに測定した文
字切り出し数と正解文字切り出し数の差の中で最もその
差が小さくなる範囲でパラメータ値毎に正解率を求め、
最も正解率が高くなるパラメータ値をそれまで測定した
記入フィールドの適正値とする(ST7)。したがっ
て、この処理により帳票の1つの記入フィールドのパラ
メータ適正値とする。すなわち、上述の例で説明すれ
ば、帳票としての銀行の振込用紙の1つのフィールド
(例えば氏名の欄)のパラメータ適正値が求まったこと
になる。
On the other hand, when the difference between the current character cutout numbers is larger than the previous character cutout number difference (YES in ST6), the process proceeds to the next process (ST7). That is, in this case, the difference between the number of correct characters and the number of extracted characters is usually small, but if the difference is large, it is determined that the characters are not in the same field, and it is determined that the entry field has changed. . Therefore, at this time, the correct answer rate is obtained for each parameter value within the range where the difference between the number of character cutouts measured up to that point and the number of correct character cutouts is the smallest.
The parameter value with the highest correct answer rate is set as the appropriate value of the entry field measured up to that point (ST7). Therefore, by this processing, the parameter appropriate value of one entry field of the form is set. That is, in the case of the above-mentioned example, it means that the appropriate parameter values of one field (for example, the name field) of the bank transfer sheet as a form have been obtained.

【0021】次に、1枚の帳票についての全てのフィー
ルドのパラメータ値が設定されたか判断し、上述の処理
ではまだ1つの記入フィールドしかパラメータ値が設定
されていない為、処理(ST2)に戻り、次の記入フィ
ールドの文字切り出し処理を実行する。すなわち、次の
記入フィールド(例えば住所の欄)について文字切り出
し数と正解切り出し数との差を計算してパラメータ適正
値検索方向を決定し(ST2)、予め設定された一定値
分パラメータを変更する(ST3)。そして、この様に
して設定したパラメータ値に基づいて文字切り出しを行
い(ST4)、前述と同様再度差を計算し(ST5)、
一つ前の同じ処理により得られた差を比較し(ST
6)、現文字切り出し数差が前の文字切り出し数差より
小さい時(ST6がNO)、処理(ST3)に戻り、一
方現文字切り出し数差が前文字切り出し数差より大きい
時(ST6がYES)、前述と同様処理(ST7)を実
行する。
Next, it is judged whether or not the parameter values of all the fields for one form have been set. In the above-mentioned processing, since the parameter values of only one entry field have been set yet, the processing returns to the processing (ST2). , Executes character cutting processing for the next entry field. That is, in the next entry field (for example, address field), the difference between the number of character cutouts and the number of correct answer cutouts is calculated to determine the parameter proper value search direction (ST2), and the parameters are changed by a predetermined constant value. (ST3). Then, character cutting is performed based on the parameter values set in this way (ST4), and the difference is calculated again as described above (ST5).
Compare the differences obtained by the previous same processing (ST
6) When the difference between the current character cutout numbers is smaller than the previous character cutout number difference (ST6 is NO), the process returns to ST3, while when the current character cutout number difference is larger than the previous character cutout number difference (ST6 is YES). ), And the same processing (ST7) as described above is executed.

【0022】この様にして順次記入フィールドが変わる
毎にパラメータ適正値を設定し、1枚の帳票について全
ての記入フィールドのパラメータ適正値が設定されると
処理(ST8)に移行する。この処理は、上述の処理を
帳票中のフィールド全てについて行い、この処理が終了
したらフィールド間相関式を求め、学習データとして記
憶する処理である。この相関式は第1フィールド(例え
ば銀行の振込用紙の例の場合では「名称の欄」)と第2
フィールド(例えば銀行の振込用紙の例の場合では「住
所の欄」)以降の記入フィールドを対応させて求める。
例えば、第1フィールドのパラメータをX、第2フィー
ルドのパラメータをYとすると、Y=aX+b(a、b
は定数)の定数a、bを求める。第2フィールド以降の
フィールドについても同様に相関式で求められる。この
様にして求めた相関式を帳票の種類と共に学習データと
して不図示のメモリに記憶する(ST8)。
In this way, the appropriate parameter values are set every time the entry fields change in sequence, and when the appropriate parameter values for all entry fields are set for one sheet, the process proceeds to the process (ST8). In this processing, the above-described processing is performed for all fields in the form, and when this processing is completed, an inter-field correlation equation is obtained and stored as learning data. This correlation formula is calculated using the first field (for example, “name column” in the case of bank transfer paper) and the second field.
Fields (for example, “address field” in the case of the bank transfer form) are to be associated and obtained.
For example, if the parameter of the first field is X and the parameter of the second field is Y, then Y = aX + b (a, b
Is a constant). Correlation equations are similarly obtained for the second and subsequent fields. The correlation equation thus obtained is stored in a memory (not shown) as learning data together with the type of form (ST8).

【0023】そして、パラメータ適正値をセットし(S
T11)、この様にしてセットしたパラメータ適正値は
前述の文字認識前処理部2へ出力する。文字認識前処理
部2は、このパラメータ値に基づいて文字切り出し処理
を行う。すなわち、帳票読み取り部1で読み取られたイ
メージデータを、パラメータ制御部5から出力されるパ
ラメータ値に基づいて所定の文字数分切り出す。この様
にして切り出された文字列に対して文字認識部3で文字
認識を行う。また、この文字認識の結果はオペレータ操
作部4のディスプレイに表示され、パラメータ制御部5
にその認識結果が知らされる。
Then, a proper parameter value is set (S
(T11), the parameter proper value thus set is output to the character recognition preprocessing unit 2 described above. The character recognition preprocessing unit 2 performs character cutting processing based on this parameter value. That is, the image data read by the form reading unit 1 is cut out by a predetermined number of characters based on the parameter value output from the parameter control unit 5. The character recognition unit 3 performs character recognition on the character string cut out in this manner. Further, the result of this character recognition is displayed on the display of the operator operation unit 4, and the parameter control unit 5
The recognition result is notified to.

【0024】一方、前述の判断(ST1)において、既
に学習データが存在すると判断する時、第1フィールド
のみについて上述の処理(ST2〜ST8)を実行す
る。すなわち、この場合には第1フィールドについて上
述の処理(ST2〜ST8)を行ない、第1フィールド
のパラメータ値を設定すると、第2フィールド以降につ
いては前述の様にして求めた相関式(ST8)をメモリ
から読み出し、第1フィールドのパラメータ適正値と上
述の相関式より第2フィールドのパラメータ適正値を求
める(ST10)。さらに、第2フィールド以降につい
ても同様に相関式を利用してパラメータ適正値を求め
る。すなわち、既にメモリに学習データが存在する時、
第2フィールド以降についてはこの学習データを利用し
てパラメータ適正値を知ることができる。
On the other hand, in the above-mentioned judgment (ST1), when it is judged that the learning data already exists, the above-mentioned processing (ST2-ST8) is executed only for the first field. That is, in this case, when the above-mentioned processing (ST2 to ST8) is performed for the first field and the parameter value of the first field is set, the correlation formula (ST8) obtained as described above is obtained for the second field and thereafter. It is read from the memory, and the parameter proper value of the second field is obtained from the parameter proper value of the first field and the above correlation equation (ST10). Furthermore, for the second and subsequent fields, the correlation parameter is used in the same manner to obtain the appropriate parameter value. That is, when the learning data already exists in the memory,
For the second and subsequent fields, the learning data can be used to know the proper parameter values.

【0025】このようにして求めたパラメータ適正値
は、パラメータ制御部5内にセットされ(ST11)、
文字認識前処理部2へ出力される。文字認識前処理部2
は、このパラメータ値に基づいて前述と同様文字切り出
し処理を行い、帳票読み取り部1で読み取ったイメージ
データを、パラメータ値に基づいて所定の文字数分切り
出し、文字認識部3で文字認識を行う。
The parameter proper value thus obtained is set in the parameter control unit 5 (ST11),
It is output to the character recognition preprocessing unit 2. Character recognition preprocessing unit 2
Performs the character cut-out processing based on this parameter value as described above, cuts out the image data read by the form reading unit 1 by a predetermined number of characters based on the parameter value, and the character recognition unit 3 performs character recognition.

【0026】尚、本実施例では帳票として銀行の振込用
紙の例の場合について説明したが、複数の記入フィール
ドを有する他の帳票、例えば所定の枡目を有する原稿用
紙や、企業等で使用する各種フォーマットの用紙でも同
様に適用できる。
In this embodiment, the case of the bank transfer form as a form has been described, but it is used for other forms having a plurality of entry fields, for example, manuscript paper having a predetermined mesh or a company. The same applies to paper of various formats.

【0027】[0027]

【発明の効果】以上詳細に説明したように、本発明によ
れば複数のフィールドを有する帳票についても、フィー
ルド毎に適正なパラメータ値を設定し、このパラメータ
値に基づいて文字切り出し処理を行うので、極めて正解
率の高い文字認識を行うことができる。
As described in detail above, according to the present invention, even for a form having a plurality of fields, an appropriate parameter value is set for each field, and character cutting processing is performed based on this parameter value. , Character recognition with an extremely high accuracy rate can be performed.

【0028】また、適正なパラメータ値はメモリに学習
データとして相関式の形で記憶されるので、後にこの学
習データを利用してパラメータ値を求め、適正な文字切
り出しを行うことができ、文字認識処理を短時間で行う
ことができる。
Further, since proper parameter values are stored in the memory as learning data in the form of a correlation equation, it is possible to obtain parameter values later by using this learning data and perform proper character segmentation. The processing can be performed in a short time.

【図面の簡単な説明】[Brief description of drawings]

【図1】一実施例の文字認識装置のシステム構成図であ
る。
FIG. 1 is a system configuration diagram of a character recognition device according to an embodiment.

【図2】一実施例の文字認識装置の動作を説明するフロ
ーチャートである。
FIG. 2 is a flowchart illustrating an operation of the character recognition device according to the embodiment.

【符号の説明】[Explanation of symbols]

1 帳票読み取り部 2 文字認識前処理部 3 文字認識部 4 オペレータ操作部 5 パラメータ制御部 1 Form reading unit 2 Character recognition preprocessing unit 3 Character recognition unit 4 Operator operation unit 5 Parameter control unit

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】 記載された文字をイメージデータに変換
するイメージデータ変換手段と、 該イメージデータから所定の文字を切り出す文字切り出
し手段と、 該文字切り出し手段で切り出す文字数を決定するパラメ
ータ値の設定、及び該設定されたパラメータ値を帳票か
ら得られる情報に基づき、常時適正値に保持するパラメ
ータ設定/制御手段と、 該パラメータ設定/制御手段で設定されたパラメータ値
を記憶する記憶手段と、 該記憶手段に記憶されたパラメータ値に基づいて決定さ
れる文字切り出し数に従って切り出された文字列の文字
認識を行う文字認識手段と、 を有することを特徴とする文字認識装置。
1. Image data conversion means for converting the described characters into image data, character cutout means for cutting out predetermined characters from the image data, and setting of a parameter value for determining the number of characters cut out by the character cutout means, And parameter setting / control means for always holding the set parameter value at an appropriate value based on information obtained from a form, storage means for storing the parameter value set by the parameter setting / control means, and the storage A character recognition device, comprising: character recognition means for recognizing a character string cut out according to the number of character cutouts determined based on a parameter value stored in the means.
【請求項2】 前記パラメータ設定/制御手段は、記入
フィールドのパラメータ最適値の相関を学習する手段を
具備することを特徴とする請求項1記載の文字認識装
置。
2. The character recognition device according to claim 1, wherein the parameter setting / control means comprises means for learning the correlation of the optimum parameter values of the entry field.
【請求項3】 前記パラメータ設定/制御手段は、記入
フィールドのパラメータ適正値の相関からパラメータ適
正値を推定する手段を具備することを特徴とする請求項
1記載の文字認識装置。
3. The character recognition device according to claim 1, wherein the parameter setting / control means comprises means for estimating a parameter appropriate value from a correlation of parameter appropriate values in the entry field.
JP5143965A 1993-06-15 1993-06-15 Character recognition device Withdrawn JPH076203A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5143965A JPH076203A (en) 1993-06-15 1993-06-15 Character recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5143965A JPH076203A (en) 1993-06-15 1993-06-15 Character recognition device

Publications (1)

Publication Number Publication Date
JPH076203A true JPH076203A (en) 1995-01-10

Family

ID=15351177

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5143965A Withdrawn JPH076203A (en) 1993-06-15 1993-06-15 Character recognition device

Country Status (1)

Country Link
JP (1) JPH076203A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011238199A (en) * 2010-04-13 2011-11-24 Planning Of Healthcare And Environmental Wellbeing Corp Data processing device and insurance card collation system
CN109726101A (en) * 2018-05-07 2019-05-07 平安普惠企业管理有限公司 Parameter identification method, parameter identification terminal, device and readable storage medium storing program for executing

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011238199A (en) * 2010-04-13 2011-11-24 Planning Of Healthcare And Environmental Wellbeing Corp Data processing device and insurance card collation system
CN109726101A (en) * 2018-05-07 2019-05-07 平安普惠企业管理有限公司 Parameter identification method, parameter identification terminal, device and readable storage medium storing program for executing

Similar Documents

Publication Publication Date Title
JP3689455B2 (en) Information processing method and apparatus
US7970213B1 (en) Method and system for improving the recognition of text in an image
CN100356392C (en) Post-processing approach of character recognition
JP2003308480A (en) On-line handwritten character pattern recognizing editing device and method, and computer-aided program to realize method
JP7149721B2 (en) Information processing device, character recognition engine optimization method and program
JP2000293626A (en) Method and device for recognizing character and storage medium
JPH076203A (en) Character recognition device
JPH06215184A (en) Labeling device for extracted area
KR950001061B1 (en) Correcting apparatus for recognizing document
JP2001147990A (en) Device and method for processing image data and storage medium to be utilized therefor
JP3159745B2 (en) Character recognition method and apparatus
JPH051512B2 (en)
JPH11338975A (en) Character segmentation system and recording medium having recorded character segmentation program
JP4209511B2 (en) Character recognition method, character recognition device, and computer-readable recording medium recording a program for causing a computer to execute the character recognition method
JP4320124B2 (en) Pattern recognition method, apparatus and program
KR100292352B1 (en) Data editing method for recognizer by using morpheme analysis
JP2746345B2 (en) Post-processing method for character recognition
JPH076207A (en) Character recognition device
JP3101073B2 (en) Post-processing method for character recognition
JPH1069494A (en) Image retrieval method and device therefor
JP3162419B2 (en) Recognition dictionary update method
JPS60138689A (en) Character recognizing method
JP2969751B2 (en) Character recognition processing method
JPH0562020A (en) Character recognition device
JP3310063B2 (en) Document processing device

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20000905