JPH0520797B2 - - Google Patents

Info

Publication number
JPH0520797B2
JPH0520797B2 JP61237924A JP23792486A JPH0520797B2 JP H0520797 B2 JPH0520797 B2 JP H0520797B2 JP 61237924 A JP61237924 A JP 61237924A JP 23792486 A JP23792486 A JP 23792486A JP H0520797 B2 JPH0520797 B2 JP H0520797B2
Authority
JP
Japan
Prior art keywords
character
word
recognition
character code
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP61237924A
Other languages
Japanese (ja)
Other versions
JPS6297081A (en
Inventor
Hiromichi Fujisawa
Yasuaki Nakano
Michio Yasuda
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP61237924A priority Critical patent/JPS6297081A/en
Publication of JPS6297081A publication Critical patent/JPS6297081A/en
Publication of JPH0520797B2 publication Critical patent/JPH0520797B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 〓発明の利用分野〓 本発明は、漢字のように文字カテゴリが多い場
合に適した、誤読文字修正機能を備えた文字認識
装置に関する。
DETAILED DESCRIPTION OF THE INVENTION FIELD OF APPLICATION OF THE INVENTION The present invention relates to a character recognition device having a function of correcting misread characters, which is suitable for cases where there are many character categories such as Chinese characters.

〓従来技術〓 従来、たとえば官公庁などの各種申請書の処理
の多くは人手によつてなされている。これらの申
請書は、普通漢字仮名混り文で書かれており、こ
れらの申請処理業務を機械化しようとすると、漢
字も含めた日本語文字の認識装置が入力部に必要
となる。現在、研究室のレベルでは、実用上満足
し得る読取精度を有する印刷漢字認識装置の原理
実験に成功しており(たとえば電子通信学会論文
誌,58−D巻,2号,94頁参照)、上記の各種申
請書の大半は和文タイプによる比較的高品質のタ
イプ印字文書であることを考えると、上記の申請
書処理業務において、印刷漢字認識装置を使用す
る環境条件は整つているといえる。
〓Prior Art〓 Conventionally, most of the processing of various applications in government offices, etc., has been done manually. These application forms are usually written in a mixture of kanji and kana, and if the application processing task were to be automated, the input unit would need a recognition device for Japanese characters, including kanji. Currently, at the laboratory level, we have successfully conducted a principle experiment of a printed kanji recognition device with reading accuracy that is satisfactory for practical use (see, for example, Journal of the Institute of Electronics and Communication Engineers, Vol. 58-D, No. 2, p. 94). Considering that most of the various application forms mentioned above are relatively high-quality type-printed documents in Japanese type, it can be said that the environmental conditions for using the printed kanji recognition device in the above application processing work are in place.

しかし、実際に印刷漢字認識装置を実用化しよ
うとする場合、申請業務の性格上かなり高度の認
識請度が要求される。一方、漢字は文字類が極め
て多いことや、印字品質が比較的良好であるとい
えども比較的品質の悪い申請書が入力されること
もあり得ることを考えると、読取精度は全く十分
であるとは言えない。
However, if a printed kanji recognition device is to be put into practical use, a fairly high degree of recognition is required due to the nature of the application process. On the other hand, considering that kanji has an extremely large number of characters, and even if the print quality is relatively good, it is possible that an application form of relatively poor quality may be input, so the reading accuracy is quite sufficient. It can not be said.

しかるに、認識結果が正しいか否かを検定する
ことにより、誤認識率を著しく減少せしめること
が考えられる。従来、上記の考え方は次のように
行われていた。数字を対象とした文字認識装置で
は、金額を扱うことが多いので、たとえば帳票上
には各項目の金額とともにそれらの総計をも記載
しておき、認識装置では各項目の認識結果の総計
と、総計の認識結果とを比較して誤りを検出する
方法が取られている。また英字を対象とする文字
認識装置では、各英文字はある限定された語彙の
中の1つの単語を構成しているということを前提
として、N−gramという手法を用いたが検定方
法が考えられる。
However, it is conceivable that the rate of misrecognition can be significantly reduced by testing whether or not the recognition results are correct. Conventionally, the above idea was carried out as follows. Character recognition devices that target numbers often handle monetary amounts, so for example, the amount of each item and the total amount are written on the form, and the recognition device records the total amount of recognition results for each item, A method is used to detect errors by comparing the total recognition results. In addition, in character recognition devices that target English letters, a method called N-gram is used on the premise that each English letter constitutes one word in a limited vocabulary. It will be done.

しかし、上記従来の方法はそのまま漢字を対象
とした文字認識装置に適用することができない。
その理由は、漢字の場合は字種が英数字(多くて
50字)などの場合に比較して2000〜4000と多く、
たとえばN−gramの表の記憶容量が膨大になり、
そのままでは実現不可能になる。
However, the above conventional method cannot be directly applied to a character recognition device for Chinese characters.
The reason for this is that in the case of kanji, the character types are alphanumeric (at most
50 characters), it is 2000 to 4000, which is more.
For example, the storage capacity of an N-gram table becomes enormous.
It will become impossible to do so.

〓発明の目的〓 したがつて、本発明の目的は、字種の多い場合
に適した手法として単語情報を用いて読取結果を
修正する手段を与え、全体として誤認識率を下げ
ることにある。
<Object of the Invention> Therefore, an object of the present invention is to provide a means for correcting the reading result using word information as a method suitable for cases where there are many character types, and to reduce the overall recognition error rate.

〔発明の概要〕[Summary of the invention]

上記の目的を達成するために、本発明では、文
字パターンを入力する入力手段と、入力手段にて
入力された文字パターンと標準パターンとを照合
して得られる読取結果を単語毎に出力する出力手
段とを備えた文字認識装置において、単語情報を
記憶する手段と、単語毎の読取結果と単語情報と
を照合する手段と、照合手段にて、単語毎の読取
結果が単語情報のいずれかの単語とも一致しない
ときには、読取結果として出力された単語の各文
字に対応する標準文字パターンと単語情報内の候
補単語の各文字に対応する標準文字パターンとの
間の類似度を求めることにより単語が特定できる
か否かを検定する検定手段と、検定手段にて、単
語が特定できる場合には読取結果を特定された単
語に修正する修正手段と、修正手段にて、修正で
きない単語は他の単語と区別して表示する表示手
段を備えたことに特徴がある。
In order to achieve the above object, the present invention includes an input means for inputting a character pattern, and an output for outputting a reading result obtained by comparing the character pattern inputted by the input means with a standard pattern for each word. means for storing word information; means for collating the reading result for each word with the word information; If it does not match any word, the word is determined by calculating the degree of similarity between the standard character pattern corresponding to each character of the word output as a reading result and the standard character pattern corresponding to each character of the candidate word in the word information. A test means for testing whether the word can be identified; a correction means for correcting the reading result to the specified word if the word can be identified by the test means; and a correction means for changing the word that cannot be corrected to another word. The feature is that it is equipped with a display means to display the information separately.

〓発明の実施例〓 たとえば、次のような文書をもつ申請書を考え
る。
〓Example of the invention〓 For example, consider an application with the following documents.

(例) 申請書の種類 登録申請書 登録の目的 全部移転 原 因 昭和52年2月2日売買 権利者 氏 名 甲山太郎 所 在 東京都国立市1−1 持 分 3分の1 義務者 氏 名 乙川次郎 住 所 東京都立川市2−2 : 申請目 昭和52年3月3日 以上 本発明装置の原理の概略を、第1図の流れ図を
用いて説明する。まず、201,202で帳票上の文字
を光電変換し、一定枠内に切り出し、1行毎に認
識し、認識結果を文字コードの形で1行分出力す
る。認識部は上記動作を帳票上の全文字が認識さ
れるまで続ける。以上までは従来の文字認識装置
と同じである。つぎに、認識結果検定部は、キー
項目(1行の左側の所定の長さのフイールドに印
刷される文字列)に対応する認識結果の文字系列
を抽出し、全キー項目が記憶される辞書の中か
ら、この文字系列が何番目のキー項目に該当する
かを203で認識する。これをキー項目の単語認識
という。なお、文字認識は誤まることも考えられ
るので、上記単語認識の手法は工夫する必要があ
る。手法は後述する。
(Example) Type of application Registration application Purpose of registration Full transfer Cause February 2, 1972 Holder of right to purchase Name Taro Koyama Location 1-1 Kunitachi-shi, Tokyo Equity 1/3 Obligor Name Jiro Otokawa Address: 2-2 Tachikawa-shi, Tokyo Application date: March 3, 1978 The principle of the apparatus of the present invention will be briefly explained using the flowchart shown in FIG. First, at 201 and 202, characters on a form are photoelectrically converted, cut out within a certain frame, recognized line by line, and the recognition results are output for each line in the form of a character code. The recognition unit continues the above operation until all characters on the form are recognized. Everything up to this point is the same as the conventional character recognition device. Next, the recognition result verification unit extracts the character sequence of the recognition result corresponding to the key item (character string printed in a field of a predetermined length on the left side of one line), and creates a dictionary in which all key items are stored. 203 recognizes which key item this character sequence corresponds to among the following. This is called key item word recognition. Note that character recognition may be incorrect, so the word recognition method described above needs to be devised. The method will be described later.

何番目のキー項目かが分ると、このキー項目に
続く固定項目に出現し得る字種が限定可能となり
204で字種を指定する。従つて、文字認識結果の
文字コード列の中で固定項目に対応する文字コー
ドを調べて、上記の許容される字種に含まれるか
否かを次に205で調べる。このとき、含まれない
ことが分れば、文字認識の結果が誤りであるか、
帳票の文字が誤字であつたかのどちらかである。
したがつて、この場合は上記の旨を認識結果に付
随して出力する。たとえば文字コードの符号を反
転させる。検定の結果、許容字種に含まれていれ
ば、正読と見做して、そのまま文字コードを出力
する。
Once you know the number of the key item, you can limit the character types that can appear in the fixed items following this key item.
204 specifies the character type. Therefore, in the character code string resulting from character recognition, the character code corresponding to the fixed item is checked to see if it is included in the above-mentioned permissible character types in step 205. At this time, if it is found that it is not included, the result of character recognition is incorrect.
Either the characters on the form were misspelled.
Therefore, in this case, the above information is output along with the recognition result. For example, reverse the sign of the character code. As a result of the test, if the character type is included in the allowable character types, it is assumed to be read correctly and the character code is output as is.

以上の動作を帳票上の文字がなくなるまで続け
る。
Continue the above operations until there are no more characters on the form.

つぎに、本発明の要点である認識結果の文字系
列を単語として認識する手順を説明する。一般に
単語認識をするためには単語の辞書(各単語を構
成する文字コード列からなる表)を用意して、入
力された字系列がどの辞書項目と一致するかを調
べればよい。しかし、実際には入力された文字系
列がすべて正しく読取られているとは限らないの
で、どの辞書項目とも完全一致がとれない場合が
ある。したがつて、辞書項目と一致がとれるか否
かではなく、入力文字系列と各辞書項目との距離
または等価的に類似度(後で定義する)を求め
て、単語認識をする必要がある。
Next, a procedure for recognizing a character sequence resulting from recognition as a word, which is the main point of the present invention, will be explained. Generally, in order to recognize words, it is sufficient to prepare a word dictionary (a table consisting of character code strings that make up each word) and check which dictionary item the input character sequence matches. However, in reality, not all input character sequences are read correctly, so there may be cases where a complete match cannot be achieved with any dictionary entry. Therefore, it is necessary to perform word recognition by determining the distance or equivalently the degree of similarity (to be defined later) between the input character sequence and each dictionary item, rather than determining whether or not there is a match with the dictionary item.

たとえば「申請日」が読取つた結果として「甲
請日」が得られることがあるが、「甲請日」とい
う辞書項目は明らかに存在しない。
For example, "application date" may be obtained as a result of reading "application date," but there is clearly no dictionary entry for "application date."

文字系列と辞書項目との類似度を各文字同志の
類似度とすると、上記例では「申」と「甲」との
類似度が必要になる。しかし、このような2つの
文字の組合せは、読取対象字種を2000字として
400000の組合せとなり、記憶しておくことは不可
能である。したがつて、本発明装置では、異なる
文字同志(上記例では「甲」と「申」)の類似度
が必要になつた場合は認識装置内の該当する標準
パターン同志の類似度を計算してその値を用い
る。同じ文字同志の類似度は常に1とする。
If the degree of similarity between a character series and a dictionary entry is the degree of similarity between each character, then in the above example, the degree of similarity between "Monkey" and "A" is required. However, such a combination of two characters is difficult to read when the number of characters to be read is 2000.
There are 400,000 combinations, which are impossible to remember. Therefore, in the device of the present invention, when it becomes necessary to measure the similarity between different characters (in the above example, “A” and “Mon”), the device calculates the similarity between the corresponding standard patterns in the recognition device. Use that value. The similarity between the same characters is always 1.

ここで類似度とは0から1までの値をとる数値
で、二つの文字パターン同志の間に定義され、専
用計算回路により容易に計算され、公知であるの
で、ここでは説明を省略する。
Here, the degree of similarity is a numerical value ranging from 0 to 1, defined between two character patterns, easily calculated by a dedicated calculation circuit, and is well known, so its explanation will be omitted here.

上記手法による単語認識のアルゴリズムを第4
図の流れ図を用いて説明する。まず、各辞書項目
は、単語を構成する文字数Nkと、文字コード列
Wk={wi(k)〓i=1,2,…,Nk}とで表現さ
れている。全辞書項目の数をKとする。上でk
は、項目番号(単語番号)であり、lからKまで
の値をとる。また単語認識部へ入力される文字認
識結果の文字系列(文字コード列)をS={si〓
i=1,2,…,N}で表わす。文字系列Sと
Wkとの類似度を〓kで表わす。
The word recognition algorithm using the above method is
This will be explained using the flowchart shown in the figure. First, each dictionary entry consists of the number of characters N k that make up the word and the character code string
It is expressed as W k = {wi(k)〓i=1, 2,..., N k }. Let K be the total number of dictionary items. k above
is an item number (word number) and takes values from l to K. In addition, the character sequence (character code string) of the character recognition result input to the word recognition unit is S = {si〓
i=1, 2,...,N}. character series S and
The degree of similarity with W k is expressed as 〓k.

第2図に単語認識に必要な辞書の構成を示す。 Figure 2 shows the structure of a dictionary necessary for word recognition.

辞書の最初の語501(番号D)はキー項目の数K
を保持し、つぎに各項目の文字コード列を記憶す
る番地A1,A2,…,AKを記憶する語502が続く。
つぎは各キー項目の文字コード列を記憶する語が
つづく。たとえばA1番地503は、項目番号1の単
語を構成する文字の長さ(文字数)N1を保持し、
以下のN1語504は各文字コードを記憶している。
The first word 501 (number D) in the dictionary is the number of key items K
, followed by a word 502 that stores addresses A 1 , A 2 , . . . , A K for storing character code strings of each item.
Next follows a word that stores the character code string of each key item. For example, A 1 address 503 holds the length (number of characters) N 1 of the word of item number 1,
The following N1 word 504 stores each character code.

第3図に単語認識の対象となる文字コード列を
図示する。文字コード列はメモリの作業用領域に
一担格納され、N語からなる。
FIG. 3 illustrates a character code string that is a target of word recognition. The character code string is stored in a working area of the memory and consists of N words.

第4図において、単語認識は次のように実行さ
れる。まず101,102で初期化をする。
In FIG. 4, word recognition is performed as follows. First, initialize with 101 and 102.

103において、単語長が入力文字系列長に一致
するか否かを判定して、一致しないときは類似度
〓kは0のままとして、次の単語を調べる。単語
長が一致するときは、105〜112の過程で類似度〓
kを求める。
In step 103, it is determined whether the word length matches the input character sequence length or not, and if they do not match, the similarity 〓k remains at 0 and the next word is examined. When the word lengths match, the similarity 〓
Find k.

104で初期化を行い、105で辞書内k番目の項目
のi番目の文字コードwi(k)と入力文字系列のi
番目の文字コードsiとが一致するか否かを調べ、
一致しないときは、106で〓kに1を加え、一致
しないときは107において判定不能であつたかど
うかを調べる。sk=0のときは判定不能を示し、
このときは106を実行し、si≠0のときは108にお
いて、認識装置内の標準パターンを用いてwi(k)
の標準パターンとsiの標準パターンの類似度を計
算し、〓kに加える。そこまでの文字数iで〓k
を割つた値がしきい値〓を越えるかどうかを109
で判定し、越えない場合は項目kは候補から113
において除外する。越える場合は次の文字に進
み、全文字に対して105〜111の処理が終了したと
きは112において、文字系列同志の類似度を文字
数Nで割つて正規化する。
Initialization is performed in step 104, and in step 105, the i-th character code wi(k) of the k-th item in the dictionary and i of the input character sequence are
Check whether the th character code si matches or not,
If they do not match, 1 is added to 〓k in step 106, and if they do not match, it is checked in step 107 whether it is impossible to determine. When s k = 0, it indicates that it is impossible to determine,
In this case, 106 is executed, and when s i ≠ 0, in 108, wi(k) is executed using the standard pattern in the recognition device.
The similarity between the standard pattern of and the standard pattern of si is calculated and added to 〓k. With the number of characters i up to that point 〓k
109 to determine whether the divided value exceeds the threshold value
If it does not exceed 113, item k is selected from the candidates.
Excluded in If the number exceeds the number, the process advances to the next character, and when the processing in steps 105 to 111 is completed for all characters, in step 112, the degree of similarity between the character series is divided by the number of characters N to normalize it.

115において全辞書項目の処理が済んだことが
検知されたときは、116で求められた全類似度
{〓k〓k=1,2,…,K}の中の最大値〓1
次大値〓2を求め、絶対しきい値〓と〓1を比較し
て117,さらに〓1と〓2の差に十分な開きがある
か否かを相対しきい値〓により検定し、十分なと
きは119で〓を与える単語番号k*を出力十分でな
いときは判定不能を120で出力する。
When it is detected in 115 that all dictionary items have been processed, the maximum value of all similarities {〓k〓k=1,2,...,K} calculated in 116 is 1 and the next Find the value 〓 2 , compare the absolute threshold 〓 and 〓 1 , and then test whether there is a sufficient difference between 〓 1 and 〓 2 using the relative threshold 〓. outputs the word number k * that gives 〓 at 119. If it is not sufficient, it outputs undeterminable at 120.

つぎに、キー項目に続く固定項目に出現し得る
字種を指定する手段を説明する。本発明では、フ
ラグ表なるものを第5図に示すごとく、またビツ
ト番号変換表なるものを第6図に示すごとく用意
する。キー項目の単語認識結果k*のときは、ま
ずビツト番号変換表を参照してフラグ表のどのビ
ツトを利用するかを示すビツト位置番号b(k*
を求める。つぎに任意の文字に対するフラグ表の
内容を取り出し、b(k*)ビツト項目の値が1で
あるときは同文字は同キー項目に続く字種として
許され、0であるときは許されないということが
分る。
Next, a method for specifying character types that can appear in fixed items following a key item will be explained. In the present invention, a flag table as shown in FIG. 5 and a bit number conversion table as shown in FIG. 6 are prepared. When the word recognition result for the key item is k * , first refer to the bit number conversion table and select the bit position number b (k * ) that indicates which bit in the flag table is to be used.
seek. Next, extract the contents of the flag table for an arbitrary character, and if the value of the b(k * ) bit item is 1, the same character is allowed as a character type following the same key item, and if it is 0, it is not allowed. I understand.

したがつて、この結果を用いて、原理の説明で
述べたように認識結果を検定することができる。
Therefore, using this result, the recognition result can be tested as described in the explanation of the principle.

以下、本発明を実施例を参照して詳細に説明す
る。
Hereinafter, the present invention will be explained in detail with reference to Examples.

第7図は本発明装置の一実施例のブロツク図で
ある。以下、同図に従つて実施例を説明する。
FIG. 7 is a block diagram of one embodiment of the apparatus of the present invention. An example will be described below with reference to the same figure.

同図において1は従来の文字認識装置で、3が
未知パターンを観測する文字観測部、4が文字認
識処理装置、5は標準パターン記憶装置である。
上記の部分は公知であるのでここでは詳述しな
い。認識処理装置4の出力6は、帳票上の文字を
行単位に認識した結果で、文字コード列の形で転
送される。ここで、文字コード0のときは、その
文字は認識不能であつたことを表わす。
In the figure, 1 is a conventional character recognition device, 3 is a character observation section for observing unknown patterns, 4 is a character recognition processing device, and 5 is a standard pattern storage device.
The above portions are well known and will not be described in detail here. The output 6 of the recognition processing device 4 is the result of recognizing characters on a form line by line, and is transferred in the form of a character code string. Here, when the character code is 0, it means that the character is unrecognizable.

検定処理装置10は、メモリ11と類似度計算
回路30と、マイクロプロセツサ20から成つて
いる。回路30は、マイクロプロセツサ20から
2個の文字コードを受けて、同文字コードに対応
する2個の標準パターンを5より受けて同標準パ
ターン同志の類似度を計算し、結果の類似度を20
へ転送する。回路30は、第4図の処理108を
実行するときに用いられる。
The verification processing device 10 includes a memory 11, a similarity calculation circuit 30, and a microprocessor 20. The circuit 30 receives two character codes from the microprocessor 20, receives two standard patterns corresponding to the same character code from 5, calculates the similarity between the same standard patterns, and calculates the resulting similarity. 20
Transfer to. Circuit 30 is used when performing process 108 of FIG.

メモリ11は、第5図に示したフラグ表を記憶
する部分12と、第6図に示したビツト番号変換
表を記憶する部分13と、第2に示したキー項目
辞書を記憶する部分14と、さらに作業用領域1
5とからなつている。
The memory 11 includes a section 12 for storing the flag table shown in FIG. 5, a section 13 for storing the bit number conversion table shown in FIG. 6, and a section 14 for storing the key item dictionary shown in FIG. , and further work area 1
It consists of 5.

マイクロプロセツサ20は20内に持つマイク
ロプログラムに従つて、第4図で説明したアルゴ
リズムにより単語認識(キー項目認識)を行い、
固定項目の字種の指定を12に用いて行い、固定
項目の認識結果である文字コードを検定する。
The microprocessor 20 performs word recognition (key item recognition) using the algorithm explained in FIG. 4 according to the microprogram contained in the microprocessor 20.
The character type of the fixed item is specified using step 12, and the character code that is the recognition result of the fixed item is verified.

つぎに、文字認識装置としての処理の流れに沿
つて説明する。
Next, the flow of processing as a character recognition device will be explained.

帳票上に印加された文字パターンは3により光
電変換され、一定の枠内に切り出され、4へ転送
される。4では3から送られてきた未知パターン
と5内の各標準パターンとの類似度を計算し、最
大類似度を与える文字のコードを、1行分まとめ
て、文字コード列として出力線6上に出力する。
ただし、ここで4は最大類似度が所定のしきい値
以上になつているかどうかを検定し、しきい値に
達しない場合は出力コードを0とする。
The character pattern applied on the form is photoelectrically converted by 3, cut out within a certain frame, and transferred to 4. In step 4, the degree of similarity between the unknown pattern sent from step 3 and each standard pattern in step 5 is calculated, and the character codes that give the maximum degree of similarity are summarized for one line and output as a character code string on output line 6. Output.
However, here, 4 tests whether the maximum similarity is equal to or higher than a predetermined threshold, and if it does not reach the threshold, the output code is set to 0.

検定処理装置10内のマイクロプロセツサ20
は1行ごとの認識結果の文字コード列を6を通し
て受け取りメモリ15に格納する。まず1行分の
文字系列(ブランクも1つの文字コードを与えら
れている)からキー項目に対応する文字コード系
列を抽出し、単語認識に移る。1行分の文字コー
ド列の例を第8図に示す。1行は25文字からな
り,先頭の8文字801がキー項目に対応し、後半
の17文字802が固定項目に対応する。文字コード
9999はブランクを意味する。欄801内のブランク
でない文字コード(第8図に於いてはs1,s2
…,s6)がキー項目の文字を認識した結果の文字
コード列である。
Microprocessor 20 in the verification processing device 10
receives the character code string of the recognition result for each line through 6 and stores it in memory 15. First, a character code sequence corresponding to a key item is extracted from a character sequence for one line (blanks are also given one character code), and the process moves on to word recognition. An example of a character code string for one line is shown in FIG. One line consists of 25 characters, the first 8 characters 801 correspond to key items, and the latter 17 characters 802 correspond to fixed items. Character code
9999 means blank. Non-blank character codes in column 801 (in Figure 8, s 1 , s 2 ,
..., s 6 ) is the character code string resulting from recognizing the characters of the key items.

単語認識はマイクロプログラムにより、第4図
に示したアルゴリズムに従つて行う。ただし、同
アルゴリズムにおいて、第4図の処理108は、
類似度計算回路によつて行う。すなわち、20は
2個の文字コードsiとk番目の辞書項目のi番目
の文字コードwi(k)(第4図参照)を30に転送し、
類似度計算の命令を30に対して発する。30は同
命令を受けて、siとwi(k)に対応する2個の標準パ
ターンを5より読み出し、同標準パターン同志の
類似度〓*を計算し、20に対し返送する。以上は
第1図の処理203である。
Word recognition is performed by a microprogram according to the algorithm shown in FIG. However, in the same algorithm, the process 108 in FIG.
This is done by a similarity calculation circuit. That is, 20 transfers the two character codes s i and the i-th character code wi(k) of the k-th dictionary entry (see Figure 4) to 30,
Issue a similarity calculation command to 30. 30 receives the same command, reads out two standard patterns corresponding to si and wi(k) from 5, calculates the degree of similarity 〓 * between the same standard patterns, and returns it to 20. The above is the process 203 in FIG.

マイクロプログラム単語認識が終了すると、検
定処理に移る。まず第1図の処理204を行う。
まず、キー項目認識の結果のキー項目番号が分る
と、メモリ13内のビツト番号変換表を調べて、
同キー項目に続く固定項目の字種を指定する所の
フラグ表のビツト番号b*を得る。続いて固定項
目の認識結果の検定処理205を行う。20はメ
モリ15内の認識結果文字コード列(第8図)の
内、固定項目に対応する文字コード802から1
つづつ取り出し、メモリ12内のフラグ表(第5
図参照)の各文字コードに対応するフラグのb*
ビツト目を調べる。同ビツトが1のときは、許容
される字種であるので、その時は何もしないが、
0のときは許容されない字種であるので、同結果
を与えた802内の文字コードの符号を反転させる。
たとえば、固定項目のある認識結果文字コードが
500であり、検定の結果許容されない文字のとき
は同符号を反転させて−500とする。
When the microprogram word recognition is completed, the process moves to verification processing. First, processing 204 in FIG. 1 is performed.
First, when the key item number as a result of key item recognition is known, the bit number conversion table in the memory 13 is checked.
Obtain the bit number b * of the flag table that specifies the character type of the fixed item following the same key item. Subsequently, a verification process 205 of the fixed item recognition results is performed. 20 is the character code 802 to 1 corresponding to the fixed item in the recognition result character code string (FIG. 8) in the memory 15.
The flag table in memory 12 (fifth
b * of flags corresponding to each character code (see figure)
Examine the bits. When the same bit is 1, it is an acceptable character type, so nothing is done at that time, but
If it is 0, the character type is not allowed, so the sign of the character code in 802 that gave the same result is inverted.
For example, if the recognition result character code with a fixed item is
500, and if the character is not allowed as a result of the verification, the same sign is reversed and it becomes -500.

ここで、固定項目の認識結果の文字コードが4
から送出された段階で負の符号のときは、同文字
コードに対する検定処理は行わない。
Here, the character code of the fixed item recognition result is 4.
If the code is negative when sent from , no verification processing is performed for the same character code.

また、キー項目に対応する文字コードについて
は、単語認識結果の辞書の文字コード列を第8図
に示したキー項目の文字コード列に代入する。例
えば、文字認識結果801が「甲請日」であつて
も単語認識の結果が「申請日」に対応するキー項
目番号であるとすると、マイクロプロセツサ20
は「甲請日」の代りに「申請日」に対応する文字
コード列をメモリ14に格納してある辞書から取
り出して801を書き替えるので、文字認識結果に
誤りがあつても正しく修正される。キー項目の単
語認識の結果が判定不能であつた場合は、以後の
文字コードの検定ができないので同行の文字コー
ドをすべて負に反転させる。
Regarding the character code corresponding to the key item, the character code string of the dictionary resulting from word recognition is substituted into the character code string of the key item shown in FIG. For example, if the character recognition result 801 is "Application date" but the word recognition result is a key item number corresponding to "Application date", the microprocessor 20
retrieves the character code string corresponding to "application date" instead of "application date" from the dictionary stored in memory 14 and rewrites 801, so even if there is an error in the character recognition result, it will be corrected correctly. . If the result of word recognition for a key item is undeterminable, subsequent character codes cannot be verified, so all accompanying character codes are inverted to negative values.

検定が終了して第8図に示した文字コード列が
書き替えられると(誤りがない場合は結果的には
変更がない。)20は同文字コード列801,802を
出力線50上に出力する。
When the verification is completed and the character code string shown in FIG. do.

以上の過程は帳票の行単位に実行される。 The above process is executed for each line of the form.

〔発明の効果〕 以上説明したごとく、本発明装置は文字認識結
果の誤認識が正しく修正されて出力されるので、
誤認識率を低下させることができる。
[Effects of the Invention] As explained above, the device of the present invention correctly corrects erroneous recognition of character recognition results and outputs them.
The misrecognition rate can be reduced.

本文字認識装置の結果を、たとえばつぎのよう
に表示、人手により最終判定を仰ぐことができ
る。すなわち、正の文字コードが出力された場合
は通常に表示し、負の文字コードが出力された場
合は、誤認識の可能性が高いので、輝度や、色を
変えてデイスプレイしたり、樋示文字の脇に特殊
記号を付して表示したりでき、人手を介して修正
できる。本発明装置の特徴は、従来の文字認識装
置の後段に付ければよいので大きな変更を必要と
しないこと、本検定処理を容易に取除くことがで
き認識部はそのまま従来の認識装置として動作で
きるので、本検定処理部をオプシヨンとして取扱
えることである。
The results of this character recognition device can be displayed, for example, as shown below, and the final judgment can be made manually. In other words, if a positive character code is output, it will be displayed normally, but if a negative character code is output, there is a high possibility of misrecognition, so please change the brightness or color of the display, or change the gutter display. Characters can be displayed with special symbols added to the side, and can be corrected manually. The features of the device of the present invention are that it does not require major changes as it can be installed after a conventional character recognition device, and that the verification process can be easily removed and the recognition unit can operate as a conventional character recognition device as is. , the main verification processing section can be handled as an option.

また、単語認識に際して、誤りを含んだ文字コ
ード系列から辞書を検索する手法で必要になる任
意の二つの文字の近さの測度を、標準パターン同
志の類似度によつて得ている点も特徴である。し
たがつて、近さの測度を貯えるための膨大な記憶
装置が不必要である。なお、本明細書に述べた実
施例においては、第5図で10の中に類似度計算回
路30を設けたが、類似度計算機能は4が本来持
つているので、4を若干変更することにより、3
0を4の中に含め、全体として効率的なものにす
ることができる。
Another feature of word recognition is that the measure of the closeness between any two characters, which is required when searching a dictionary from a character code sequence containing errors, is obtained from the similarity between standard patterns. It is. Therefore, extensive storage for storing proximity measures is unnecessary. In the embodiment described in this specification, the similarity calculation circuit 30 is provided in 10 in FIG. 5, but since 4 originally has the similarity calculation function, 4 may be slightly modified. Accordingly, 3
0 can be included in 4 to make it more efficient overall.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の原理を説明するための流れ図
である。第2図は、単語辞書の構成の図、第3図
はキー項目に対応する文字コード列の図である。
第4図は単語認識(キー項目認識)アルゴリズム
を説明するための流れ図、第5図はフラグ表、第
6図はビツト番号変換表の図である。第7図は本
発明の一実施例のブロツク図である。第8図は文
字認識結果の文字コード列の図である。
FIG. 1 is a flow chart for explaining the principle of the present invention. FIG. 2 is a diagram of the structure of a word dictionary, and FIG. 3 is a diagram of character code strings corresponding to key items.
FIG. 4 is a flow chart for explaining the word recognition (key item recognition) algorithm, FIG. 5 is a flag table, and FIG. 6 is a bit number conversion table. FIG. 7 is a block diagram of one embodiment of the present invention. FIG. 8 is a diagram of a character code string resulting from character recognition.

Claims (1)

【特許請求の範囲】 1 文字パターンを入力する入力手段と、 上記入力された文字パターンと標準パターンと
を照合して得られる読取結果を単語毎に出力する
出力手段とを備えた文字認識装置において、 単語情報を記憶する記憶手段と、 上記出力手段により出力される単語毎の読取結
果と上記単語情報とを照合手段と、 上記照合手段にて、上記単語毎の読取結果が上
記単語情報のいずれの単語とも一致しないときに
は、読取結果として出力された単語の各文字に対
応する標準文字パターンと単語情報内の候補単語
の各文字に対応する標準文字パターンとの間の類
似度を求めることにより単語が特定できるか否か
を検定する検定手段と、 上記検定手段にて、単語が特定できる場合には
上記読取結果を特定された単語に修正する修正手
段と、 上記修正手段にて、修正できない単語は他の単
語と区別して表示する表示手段と、 を備えたことを特徴とする文字認識装置。
[Scope of Claims] 1. A character recognition device comprising an input means for inputting a character pattern, and an output means for outputting a reading result obtained by comparing the input character pattern with a standard pattern for each word. , storage means for storing word information; means for comparing the word information with the reading result for each word outputted by the output means; If the word does not match, the word is determined by calculating the similarity between the standard character pattern corresponding to each character of the word output as a reading result and the standard character pattern corresponding to each character of the candidate word in the word information. a test means for testing whether a word can be identified by the test means; a correction means for correcting the reading result to the specified word if the word can be identified by the test means; and a word that cannot be corrected by the correction means. A character recognition device comprising: display means for displaying words in a manner that distinguishes them from other words;
JP61237924A 1986-10-08 1986-10-08 Character recognizer Granted JPS6297081A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61237924A JPS6297081A (en) 1986-10-08 1986-10-08 Character recognizer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61237924A JPS6297081A (en) 1986-10-08 1986-10-08 Character recognizer

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP58079399A Division JPS6055866B2 (en) 1983-05-09 1983-05-09 character recognition device

Publications (2)

Publication Number Publication Date
JPS6297081A JPS6297081A (en) 1987-05-06
JPH0520797B2 true JPH0520797B2 (en) 1993-03-22

Family

ID=17022471

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61237924A Granted JPS6297081A (en) 1986-10-08 1986-10-08 Character recognizer

Country Status (1)

Country Link
JP (1) JPS6297081A (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4945014A (en) * 1972-09-07 1974-04-27
JPS50137037A (en) * 1974-04-10 1975-10-30
JPS529377A (en) * 1975-07-05 1977-01-24 Bosch Gmbh Robert Electronic control unit

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4945014A (en) * 1972-09-07 1974-04-27
JPS50137037A (en) * 1974-04-10 1975-10-30
JPS529377A (en) * 1975-07-05 1977-01-24 Bosch Gmbh Robert Electronic control unit

Also Published As

Publication number Publication date
JPS6297081A (en) 1987-05-06

Similar Documents

Publication Publication Date Title
US5161245A (en) Pattern recognition system having inter-pattern spacing correction
JPH0684006A (en) Method of online handwritten character recognition
JPS6359660A (en) Information processor
JPS5854433B2 (en) Difference detection device
JPH0520797B2 (en)
JP3975825B2 (en) Character recognition error correction method, apparatus and program
JPS6262388B2 (en)
JP3958722B2 (en) Image data document retrieval system
JPS58213381A (en) Character recognizing device
JPS594071B2 (en) character recognition device
JP3548372B2 (en) Character recognition device
JP3361258B2 (en) Character reader
JP2000090193A (en) Character recognition device and item classifying method
JPH0256086A (en) Method for postprocessing for character recognition
JP2939945B2 (en) Roman character address recognition device
JP4069093B2 (en) REPLACEMENT PATTERN GENERATION DEVICE, METHOD, AND PROGRAM
JPS63268082A (en) Pattern recognizing device
JPS5930176A (en) Character discrimination processing system
JPH03257693A (en) Character recognized result correcting system
JPH03156589A (en) Method for detecting and correcting erroneously read character
JPH0652367A (en) Post-processing method for character recognition result
JP3058706B2 (en) How to convert address kana to kanji
JPH0546806A (en) Character recognition method
JPH0212481A (en) Character string recognizing device
JPH0546815A (en) Address word collating method in optical character reader