JP3157557B2 - Character recognition device - Google Patents
Character recognition deviceInfo
- Publication number
- JP3157557B2 JP3157557B2 JP24487891A JP24487891A JP3157557B2 JP 3157557 B2 JP3157557 B2 JP 3157557B2 JP 24487891 A JP24487891 A JP 24487891A JP 24487891 A JP24487891 A JP 24487891A JP 3157557 B2 JP3157557 B2 JP 3157557B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- confusion
- candidate
- pattern
- additional registration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Character Discrimination (AREA)
Description
【0001】[0001]
【産業上の利用分野】本発明は、文字認識装置に係り、
特に、装置利用者側で誤認された文字を認識可能とする
ために文字追加登録の機能を持つ文字認識装置に関す
る。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character recognition device,
In particular, the present invention relates to a character recognition device having a function of additionally registering a character so that a character misidentified by a device user can be recognized.
【0002】[0002]
【従来の技術】誤認された文字について、それより抽出
された文字パターン(特徴量)をパターン辞書に追加登
録する機能を備えた文字認識装置が知られれている。例
えば、特開昭57−187781号公報に述べられた装
置は、システムのパターン辞書の補助辞書としてユーザ
ー辞書を持ち、装置利用者は誤認された文字の文字パタ
ーンをユーザー辞書に追加登録することができる。2. Description of the Related Art There is known a character recognition apparatus having a function of additionally registering a character pattern (feature amount) extracted from a misidentified character in a pattern dictionary. For example, the device described in Japanese Patent Application Laid-Open No. 57-187781 has a user dictionary as an auxiliary dictionary of a system pattern dictionary, and the device user can additionally register a character pattern of a misidentified character in the user dictionary. it can.
【0003】また、パターン辞書に登録されている文字
パターンと類似したコンフュージョン文字を登録したテ
ーブル(コンフュージョンテーブル)を持ち、パターン
辞書とのパターンマッチングにより求められた候補文字
のコンフュージョン文字をコンフュージョンテーブルか
ら取り出し、このコンフュージョン文字も候補文字とと
もに後処理部に与え、最終的な認識結果を決定する構成
の文字認識装置が知られている。[0003] In addition, a table (confusion table) in which confusion characters similar to character patterns registered in the pattern dictionary are registered, and confusion characters of candidate characters obtained by pattern matching with the pattern dictionary are converted. There is known a character recognition device configured to take out a confusion character from a fusion table and provide the confusion character together with a candidate character to a post-processing unit to determine a final recognition result.
【0004】[0004]
【発明が解決しようとする課題】一般的にパターン辞書
は、可能な限り少ないレコード数で高い認識性能を達成
できるように、クラスタリング等の様々な工夫をこらし
て編成されているため(例えば特開昭59−16368
1号)、装置利用者によるパターン辞書への文字パター
ンの追加登録を無条件に許容すると、他の文字の認識に
対する悪影響が懸念される。Generally, pattern dictionaries are organized by various means such as clustering so as to achieve high recognition performance with as few records as possible. Showa 59-16368
No. 1), if additional registration of a character pattern in the pattern dictionary by the device user is allowed unconditionally, there is a concern that adverse effects on recognition of other characters may be caused.
【0005】コンフュージョンテーブルを備える文字認
識装置においては、誤認文字を、その候補文字のコンフ
ュージョン文字としてコンフュージョンテーブルに追加
登録することにより、誤認文字が認識できるようになる
可能性がある。しかし、コンフュージョンテーブルへの
追加登録を利用者の判断に任せた場合、パターン辞書に
登録された文字のコンフュージョン文字が無闇に増加
し、後処理での誤修正の原因となるような悪影響が懸念
され、あるいは、パターン辞書へ追加登録しなければ認
識可能とならない誤認文字が、コンフュージョンテーブ
ルへ無意味に追加される心配がある。[0005] In a character recognition device provided with a confusion table, there is a possibility that the misrecognized character can be recognized by additionally registering the misrecognized character as a confusion character of the candidate character in the confusion table. However, if additional registration in the confusion table is left to the discretion of the user, the confusion characters of the characters registered in the pattern dictionary will increase unnecessarily, causing adverse effects such as erroneous correction in post-processing. There is a concern that erroneous characters that would otherwise become recognizable unless additionally registered in the pattern dictionary may be meaninglessly added to the confusion table.
【0006】本発明の目的は、パターンマッチングによ
る候補文字に、そのコンフュージョン文字を付加する手
段、及び文字の切り出し情報や言語知識等を用いる後処
理の手段を備える文字認識装置において、誤認され文字
を認識可能にするための合理的な文字追加登録を装置利
用者ができるようにすることにある。SUMMARY OF THE INVENTION It is an object of the present invention to provide a character recognition apparatus having means for adding a confusion character to a candidate character by pattern matching, and means for post-processing using character cut-out information or linguistic knowledge. It is an object of the present invention to allow a user of a device to perform reasonable additional character registration so that a device can be recognized.
【0007】[0007]
【課題を解決するための手段】本発明は、入力画像より
文字を切り出す手段と、該手段により切り出された文字
より文字パターンを抽出し、これとパターン辞書とのパ
ターンマッチングにより複数の候補文字を求めるパター
ン認識手段と、文字パターンが類似したコンフュージョ
ン文字が登録されたコンフュージョンテーブルを持ち該
候補文字に、そのコンフュージョン文字を付加する手段
と、該候補文字及びそれに付加されたコンフュージョン
文字を認識結果として、その修正のための後処理を行な
う手段とを有する文字認識装置において、誤認された文
字の登録を指示された場合に、該誤認文字を該パターン
辞書または該コンフュージョンテーブルのいずれに追加
登録すべきか判断する判定手段と、該判定手段の判断が
該コンフュージョンテーブルへの追加登録の場合に該誤
認文字を1個または複数個の候補文字のコンフュージョ
ン文字として該コンフュージョンテーブルに追加登録す
るテーブル追加手段と、該判定手段の判断が該パターン
辞書への追加登録の場合に該パターン認識手段により該
誤認文字より抽出された文字パターンを該パターン辞書
に追加登録する辞書追加手段とを有することを特徴とす
るものである。According to the present invention, there is provided means for extracting a character from an input image, extracting a character pattern from the character extracted by the means, and matching a plurality of candidate characters by pattern matching with the pattern dictionary. A pattern recognition unit to be sought, a confusion table in which confusion characters having similar character patterns are registered, a unit for adding the confusion character to the candidate character, and a process for adding the candidate character and the confusion character added thereto. As a recognition result, in a character recognition device having means for performing post-processing for the correction, when registration of a misidentified character is instructed, the misidentified character is stored in either the pattern dictionary or the confusion table. Determining means for determining whether additional registration should be performed, and determining whether or not the confusion Table addition means for additionally registering the misidentified character as a confusion character of one or more candidate characters in the confusion table in the case of additional registration in the table, and determining by the determination means the addition to the pattern dictionary. In the case of registration, there is provided a dictionary adding means for additionally registering a character pattern extracted from the misrecognized character by the pattern recognition means in the pattern dictionary.
【0008】本発明の第1の実施形態においては、判定
手段は、誤認文字に対して切り出し手段により得られた
切り出し情報を判定のための情報(文字の行に対する相
対的な位置、高さ、幅、面積等)として用いる。 In the first embodiment of the present invention,
Means for determining the cut-out information obtained by the cut-out means for the misrecognized character, as information for determination (a match for the character line);
Position, height, width, area, etc.).
【0009】判定手段は、切り出し情報により後処理の
手段で誤認文字と第1候補文字とを判別可能な場合にコ
ンフュージョンテーブルへ追加登録すべきと判断し、テ
ーブル追加手段は誤認文字を第1候補文字のコンフュー
ジョン文字としてコンフュージョンテーブルに追加登録
する。 When the post-processing means can discriminate the erroneous character from the first candidate character based on the cut-out information , the judging means judges that the character should be additionally registered in the confusion table. Additional registration in the confusion table as a confusion character for the candidate character
I do.
【0010】本発明の第2の実施形態においては、判定
手段は、候補文字の誤認される確率の大小を判定のため
の情報として用いる。 In a second embodiment of the present invention,
The means uses the magnitude of the probability that the candidate character is erroneously recognized as information for determination .
【0011】判定手段は、第1候補文字の誤認される確
率が大きい場合にコンフュージョンテーブルへ追加登録
すべきと判断し、テーブル追加手段は誤認文字を第1候
補文字のコンフュージョン文字としてコンフュージョン
テーブルに追加登録する。 The determining means determines that the first candidate character should be additionally registered in the confusion table when the probability of misrecognition is high, and the table adding means determines the misrecognized character as a confusion character of the first candidate character. Register additionally in the table .
【0012】また、判定手段は、誤認される確率の大き
い候補文字が1個以上ある場合にコンフュージョンテー
ブルへ追加登録をすべきと判断し、テーブル追加手段は
該誤認される確率の大きい各候補文字のコンフュージョ
ン文字として誤認文字をコンフュージョンテーブルに追
加登録する。 The determination means determines that additional registration should be made in the confusion table when there is at least one candidate character having a high probability of being erroneously recognized. A misidentified character is additionally registered in the confusion table as a character confusion character .
【0013】本発明の第3の実施形態においては、判定
手段は、誤認文字の切り出し情報及び候補文字の誤認さ
れる確率の大小を判定のための情報として用いる。 In the third embodiment of the present invention, the judging means uses the cutout information of the erroneous character and the magnitude of the probability of erroneous recognition of the candidate character as information for the judgment .
【0014】判定手段は、第1候補文字の誤認される確
率が大きく、かつ第1候補文字と誤認文字とを切り出し
情報により判別可能である場合にコンフュージョンテー
ブルへ追加登録すべきと判断し、テーブル追加手段は第
1候補文字のコンフュージョン文字として誤認文字をコ
ンフュージョンテーブルに追加登録する。 The determining means determines that the first candidate character should be additionally registered in the confusion table when the probability of being erroneously recognized as the first candidate character is high and the first candidate character and the erroneously recognized character can be distinguished from cutout information. The table addition means additionally registers the erroneously recognized character in the confusion table as the confusion character of the first candidate character .
【0015】また、判定手段は、誤認される確率が大き
く、かつ切り出し情報により誤認文字と判別可能な候補
文字が1個以上ある場合にコンフュージョンテーブルへ
追加登録すべきと判断し、テーブル追加手段は該誤認さ
れる確率が大きくかつ切り出し情報により誤認文字と判
別可能な各候補文字のコンフュージョン文字として誤認
文字をコンフュージョンテーブルに追加登録する。 [0015] If the probability of misrecognition is high and there is at least one candidate character that can be identified as a misrecognized character based on the cut-out information , the determining means determines that additional registration should be made in the confusion table. Additionally registers the misidentified character in the confusion table as a confusion character of each candidate character that has a high probability of being misidentified and can be identified as an erroneous character by cutout information .
【0016】[0016]
【作用】本発明によれば、判定手段の判断によってパタ
ーン辞書またはコンフュージョンーンテーブルに誤認文
字が追加登録されるため、装置利用者の判断に依存する
場合に比べ、誤認文字の追加登録を合理的に制御し、悪
影響を避けつつ追加登録の目的を達成することが可能に
なる。According to the present invention , misidentified characters are additionally registered in the pattern dictionary or the confusion moon table by the judgment of the judging means. It will be possible to achieve the purpose of additional registration with reasonable control and avoiding adverse effects.
【0017】誤認文字に対してパターンマッチングによ
り得られた候補文字のコンフュージョン文字として誤認
文字をコンフュージョンテーブルに追加した場合、以後
は誤認文字も候補文字にコンフュージョン文字として付
加されて後処理に送られる可能性が大きく、後処理でコ
ンフュージョン文字が正解として選択されるならば、誤
認文字をコンフュージョンテーブルに追加登録すること
が有効であり、逆にコンフュージョン文字が正解として
選択されないならば、コンフュージョンテーブルへの追
加登録は無意味・有害であって、誤認文字はパターン辞
書に追加登録すべきである。When a misidentified character is added to the confusion table as a confusion character of a candidate character obtained by pattern matching with respect to the misidentified character, the misidentified character is added to the candidate character as a confusion character, and the post-processing is performed. If the confusion character is likely to be sent and the confusion character is selected as the correct answer in the post-processing, it is effective to additionally register the misidentified character in the confusion table, and conversely, if the confusion character is not selected as the correct answer However, additional registration in the confusion table is meaningless and harmful, and misidentified characters should be additionally registered in the pattern dictionary.
【0018】また、パターンマッチングによる候補文字
にコンフュージョン文字として付加された誤認文字が、
文字(画像)の切り出し情報(文字の行に対する相対的
な位置、高さ、幅、面積等)を利用した後処理によっ
て、正解として選択されるならば、すなわち、切り出し
情報によって候補文字と誤認文字とを判別できるなら
ば、誤認文字のコンフュージョンテーブルへの追加登録
は有効であり、そうでないならば誤認文字をパターン辞
書に追加登録する必要がある。In addition, a misidentified character added as a confusion character to a candidate character by pattern matching is
If it is selected as a correct answer by post-processing using the cutout information of the character (image) (relative position, height, width, area, etc. with respect to the line of the character), that is, a candidate character and a misidentified character according to the cutout information If it can be determined, additional registration of the erroneous character in the confusion table is effective. Otherwise, it is necessary to additionally register the erroneous character in the pattern dictionary.
【0019】本発明の第1の実施形態によれば、このよ
うな切り出し情報に基づいた合理的な追加登録の制御が
可能になる。また、パターンマッチングによる第1候補
文字は、誤認文字と文字パターンが最も類似した文字
で、以後の認識においても候補文字となる可能性が大き
い。本実施形態によれば、このような第1候補文字につ
いてのみコンフュージョンテーブルへ追加登録すべきか
判断し、コンフュージョンテーブルに第1候補のみのコ
ンフュージョン文字として誤認文字を追加登録するた
め、処理が効率的であり、またコンフュージョンテーブ
ルの登録文字数の増加を抑制できる。According to the first embodiment of the present invention , it is possible to perform reasonable additional registration control based on such cut-out information. Further, the first candidate character by pattern matching is a character whose character pattern is most similar to the misrecognized character, and is likely to be a candidate character in subsequent recognition. According to the present embodiment , it is determined whether or not only such first candidate characters should be additionally registered in the confusion table, and an erroneous character is additionally registered as a confusion character of only the first candidate in the confusion table. It is efficient and can suppress an increase in the number of characters registered in the confusion table.
【0020】誤認文字を候補文字のコンフュージョン文
字としてコンフュージョンテーブルに追加登録し、以後
の認識時に誤認文字がコンフュージョン文字として候補
文字に付加されるならば、そのコンフュージョン文字を
後処理で正解として選択することが可能となる。しか
し、同じ文字であっても、原稿状態の違いや僅かな変形
等によって候補文字が変動する場合があり、追加登録以
後の認識時に、同じ候補文字が得られなければ、認識可
能とはならず、コンフュージョンテーブルへの追加登録
は無意味・有害であって、パターン辞書に追加登録すべ
きである。The misidentified character is additionally registered in the confusion table as a confusion character of the candidate character. If the misidentified character is added to the candidate character as a confusion character at the time of subsequent recognition, the confusion character is correctly corrected in post-processing. Can be selected. However, even for the same character, the candidate character may fluctuate due to a difference in the document state or slight deformation, and if the same candidate character is not obtained at the time of recognition after additional registration, the character cannot be recognized. The additional registration in the confusion table is meaningless and harmful, and should be additionally registered in the pattern dictionary.
【0021】本発明の第2の実施形態によれば、候補文
字の誤認される確率の大小、すなわち、以後の認識時に
おいても、同じ文字に対しパターンマッチングで候補文
字となる可能性の大小によって、追加登録先を判断する
ため、そのような不適切な判断・追加登録を回避でき
る。また、本実施形態によれば、このような誤認される
確率の大小による判断を第1候補文字についてだけ行な
い、誤認文字を第1候補文字のみのコンフュージョン文
字としてコンフュージョンテーブルへ追加登録するた
め、処理が効率的であり、コンフュージョンテーブルの
登録文字数の増加を抑制できる。また、本実施形態によ
れば、誤認される確率が大きい各候補文字のコンフュー
ジョン文字として誤認文字をコンフュージョンテーブル
に追加登録するため、以後の認識時に候補文字の順位が
入れ替わったような場合にも、正しい文字をコンフュー
ジョン文字として付加し、後処理によって正解を得られ
る可能性が高くなる。According to the second embodiment of the present invention, the probability of erroneous recognition of a candidate character, that is, the possibility of becoming a candidate character by pattern matching with respect to the same character even in subsequent recognition, is determined by the magnitude of the probability. Since the additional registration destination is determined, such inappropriate determination and additional registration can be avoided. Further , according to the present embodiment , such a determination based on the magnitude of the probability of being misrecognized is performed only for the first candidate character, and the misrecognized character is additionally registered as a confusion character of only the first candidate character in the confusion table. The processing is efficient, and an increase in the number of registered characters in the confusion table can be suppressed. Further, according to the present embodiment , since the misrecognition character is additionally registered in the confusion table as a confusion character of each candidate character having a high probability of being misrecognized, when the order of the candidate characters is changed during subsequent recognition. Also, it is more likely that a correct character is added as a confusion character and a correct answer can be obtained by post-processing.
【0022】本発明の第3の実施形態によれば、切り出
し情報により誤認文字と識別可能な候補文字が得られた
場合にのみ、その候補文字のコンフュージョン文字とし
て誤認文字をコンフュージョンテーブルに追加登録する
ことができ、切り出し情報による1文字単位の後処理の
みを行なうような場合に合理的な追加登録の制御が可能
となる。また、単語知識等を用いた文字列単位の後処理
も行なう装置においても、ある文字をコンフュージョン
文字として追加した場合に、1文字単位で修正できない
限り修正が不可能な場合も起こるが、本実施形態によれ
ば、かかる不都合が起こるようなコンフュージョン文字
の追加登録を回避できる。According to the third embodiment of the present invention , only when a candidate character that can be identified as an erroneous character is obtained from the cut-out information, the erroneous character is added to the confusion table as a confusion character of the candidate character. Registration can be performed, and rational additional registration control can be performed when only post-processing is performed on a character-by-character basis using cutout information. Further, even in the post-processing also performs device string units using the word knowledge such as, when you add a certain character as confusion character 1 is modified as long as that can not be corrected in characters occurs even be impossible, the According to the embodiment , it is possible to avoid additional registration of a confusion character that causes such inconvenience.
【0023】[0023]
【実施例】以下、図面を用い本発明のいくつかの実施形
態(実施例)について説明する。EXAMPLES Hereinafter, some implementation of the invention with reference to the drawings
An embodiment (example) will be described.
【0024】実施例1 図1は、文字認識装置の概略ブロック図である。スキャ
ナー1によって原稿が2値画像として読み取られ、切り
出し部2に入力される。切り出し部2は、入力画像より
行画像と個々の文字(文字画像)を切り出すが、この際
に個々の文字の行に対する相対的位置、高さ、幅、面積
等も切り出し情報として得る。Embodiment 1 FIG. 1 is a schematic block diagram of a character recognition device. The original is read as a binary image by the scanner 1 and input to the cutout unit 2. The cutout unit 2 cuts out a line image and individual characters (character images) from the input image. At this time, the relative position, height, width, area, and the like of each character with respect to the line are also obtained as cutout information.
【0025】パターン認識部3においては、切り出し部
2より入力した文字の大きさの正規化を正規化部4で行
なった後、特徴抽出部5で正規化後の文字の特徴量(文
字パターン)を抽出する。パターンマッチング部6は、
入力文字の文字パターンとパターン辞書7中の文字パタ
ーンとのパターンマッチングを行ない、文字パターンが
類似した複数個の文字を距離の小さいものから順に候補
文字として出力する。なお、ここでは類似度として距離
を用いるので、類似度が小さいほど文字パターンが似て
いることを意味する。In the pattern recognition unit 3, a cut-out unit
After normalizing the size of the character input from 2 in the normalizing section 4, the feature extracting section 5 extracts the characteristic amount (character pattern) of the character after the normalization. The pattern matching unit 6
Pattern matching is performed between the character pattern of the input character and the character pattern in the pattern dictionary 7, and a plurality of characters having similar character patterns are output as candidate characters in ascending order of distance. Here, since the distance is used as the similarity, the smaller the similarity, the more similar the character patterns are.
【0026】コンフュージョン文字付加部8は、パター
ン辞書7に登録されている特定の文字と文字パターンが
類似したコンフュージョン文字が予め登録されたコンフ
ュージョンテーブル9を内部に持ち、パターン認識部3
より入力した各候補文字のコンフュージョン文字をコン
フュージョンテーブル9より取り出し、これを候補文字
とともに後処理部10へ出力する。The confusion character adding unit 8 has therein a confusion table 9 in which confusion characters similar in character pattern to specific characters registered in the pattern dictionary 7 are registered in advance.
The confusion character of each input candidate character is extracted from the confusion table 9 and output to the post-processing unit 10 together with the candidate character.
【0027】図2は、パターン認識部3とコンフュージ
ョン文字付加部8までの構成概念図である。30は入力
画像から切り出された文字(門)、31はその文字パタ
ーン(特徴量)、32はパターン辞書7に登録された一
部の文字パターン(特徴量)、33はパターンマッチン
グで得られた候補文字(ここでは第3候補まで)、34
はコンフュージョンテーブル9の登録内容の一部、35
はコンフュージョン文字が付加された認識結果である。
ここに示す例では、1個のコンフュージョン文字(門)
が第4候補として付加されている。FIG. 2 is a conceptual diagram showing the configuration up to the pattern recognition unit 3 and the confusion character adding unit 8. 30 is a character (gate) cut out from the input image, 31 is its character pattern (feature amount), 32 is a part of character patterns (feature amount) registered in the pattern dictionary 7, and 33 is obtained by pattern matching. Candidate characters (here, up to the third candidate), 34
Is a part of the registered contents of the confusion table 9, 35
Is a recognition result to which a confusion character is added.
In the example shown here, one confusion character (gate)
Is added as a fourth candidate.
【0028】図1において、後処理部10は、パターン
マッチング部3により得られた候補文字と、コンフュー
ジョン文字付加部8によって付加されたコンフュージョ
ン文字を、いずれも候補文字として扱い、知識辞書11
に登録されている後処理知識を用いて、候補文字から正
解文字を選ぶことにより、認識結果の修正を行なう。こ
の後処理には、文字の切り出し情報による1文字単位の
処理と、単語知識や文字種に関する知識等を利用した文
字列単位の言語処理が含まれる。切り出し情報による後
処理のために、後処理部10には切り出し部2で得られ
た切り出し情報も入力される。In FIG. 1, the post-processing unit 10 treats both the candidate characters obtained by the pattern matching unit 3 and the confusion characters added by the confusion character adding unit 8 as candidate characters, and
The recognition result is corrected by selecting the correct character from the candidate characters by using the post-processing knowledge registered in. This post-processing includes processing on a character-by-character basis based on character cut-out information, and language processing on a character string basis using word knowledge, knowledge on character types, and the like. For post-processing based on the cutout information, the cutout information obtained by the cutout unit 2 is also input to the post-processing unit 10.
【0029】12はディスプレイとキーボード等の入力
装置を持つコンソールである。後処理後の認識結果の表
示、装置利用者による認識誤りの修正や誤認された(認
識できなかった)文字の追加登録の操作はコンソール1
2を介して行なわれる。Reference numeral 12 denotes a console having an input device such as a display and a keyboard. The operation of displaying the recognition result after the post-processing, correcting the recognition error by the device user, and additionally registering a misrecognized (unrecognizable) character is performed on the console 1.
2 is performed.
【0030】装置利用者より指示された誤認文字の追加
登録に関連して、追加登録判定部20、テーブル追加登
録部21及び辞書追加登録部22が設けられている。追
加登録判定部20は、誤認文字をパターン辞書7または
コンフュージョンテーブル9のいずれに追加登録すべき
かを判断し、判断結果に応じてテーブル追加登録部21
と辞書追加登録部22を制御する部分である。An additional registration determination unit 20, a table additional registration unit 21, and a dictionary additional registration unit 22 are provided in association with the additional registration of misidentified characters specified by the apparatus user. The additional registration determination unit 20 determines whether the misrecognized character should be additionally registered in the pattern dictionary 7 or the confusion table 9, and according to the determination result, the table additional registration unit 21
And a section for controlling the dictionary addition registration unit 22.
【0031】図3は追加登録の処理フロー図である。誤
認文字の追加登録が指示されると、追加登録判定部20
は、この誤認文字を候補文字に付加して後処理部10に
入力した場合に、候補文字と第1候補とを切り出し情報
によって判別できるか、すなわち切り出し情報による後
処理で誤認文字を正解文字として選択できるか、判断す
る(処理101,103,105,107)。このよう
な判断のため、追加登録判定部20は、誤認文字の切り
出し情報を切り出し部2より取り込むとともに、パター
ン認識部3より第1候補文字を取り込み、また知識辞書
11より切り出し情報による後処理のための知識を取り
込む。FIG. 3 is a flowchart of the additional registration process. When additional registration of a misrecognized character is instructed, the additional registration determination unit 20
When the erroneous character is added to the candidate character and input to the post-processing unit 10, whether the candidate character and the first candidate can be determined by the cutout information, that is, the erroneous character is determined as the correct character in the post-processing by the cutout information It is determined whether selection can be made (processes 101, 103, 105, 107). For such a determination, the additional registration determination unit 20 captures cutout information of erroneously recognized characters from the cutout unit 2, captures first candidate characters from the pattern recognition unit 3, and performs post-processing based on the cutout information from the knowledge dictionary 11. Capture the knowledge for
【0032】本実施例は、判断のための切り出し情報と
して、一般に切り出した文字に付加されている当該文字
の行に対する相対的位置(処理101)、文字の高さ
(処理103)、文字幅(処理105)及び文字面積
(処理利107)を用いるが、その判断の順序は任意で
あり、また、その中の一部についてのみ判断を行なうよ
うにしてもよい。In this embodiment, as the cut-out information for determination, the relative position of the character generally added to the cut-out character with respect to the line (process 101), the height of the character (process 103), and the character width ( Although the processing 105) and the character area (processing rate 107) are used, the order of the determination is arbitrary, and the determination may be made only for a part of the determination.
【0033】例えば入力した文字「,」が誤認され、そ
の第1候補文字が「’」であったとする。この誤認文字
の「,」は行の下側に位置する文字であるのに対し、第
1候補文字の「’」は行の上側に位置する文字であっ
て、後処理にて文字の位置情報により判別・修正し得る
ため、処理101の条件が成立する。したがって、追加
登録判定部20はコンフュージョンテーブル9へ追加登
録すべきと判断し、テーブル追加登録部21によって第
1候補文字のコンフュージョン文字として誤認文字をコ
ンフュージョンテーブル9に追加登録させる(処理10
9)。For example, it is assumed that the input character "," is erroneously recognized and the first candidate character is "'". The misidentified character “,” is a character located on the lower side of the line, whereas the first candidate character “′” is a character located on the upper side of the line. Therefore, the condition of the process 101 is satisfied. Therefore, the additional registration determination unit 20 determines that additional registration should be performed in the confusion table 9, and causes the table additional registration unit 21 to additionally register a misidentified character as a first candidate character confusion character in the confusion table 9 (process 10).
9).
【0034】入力した文字「x」が誤認され、その第1
候補文字が「X」であったとする。この誤認文字の
「x」は文字高さが低く、第1候補文字の「X」は文字
高さが高いので、これらは文字高さ情報による後処理で
判別・修正できるため、処理103の条件が成立する。
したがって、追加登録判定部20はテーブル追加登録部
20により、誤認文字を第1候補文字のコンフュージョ
ン文字としてコンフュージョンテーブル9に追加登録さ
せる(処理109)。The input character “x” is misidentified, and its first character is “x”.
It is assumed that the candidate character is “X”. Since the misidentified character “x” has a low character height and the first candidate character “X” has a high character height, these can be determined and corrected by post-processing based on character height information. Holds.
Therefore, the additional registration determination unit 20 causes the table additional registration unit 20 to additionally register the erroneously recognized character in the confusion table 9 as a confusion character of the first candidate character (process 109).
【0035】「っ」が誤認され、その第1候補文字が
「つ」であった場合、「っ」は文字幅が狭く「つ」は全
角文字の文字幅であるので、後処理で文字幅情報により
判別・修正できるため、処理105の条件が成立する。
したがって、この誤認文字は第1候補文字のコンフュー
ジョン文字としてコンフュージョンテーブル9に追加さ
れる。If "tsu" is erroneously recognized and the first candidate character is "tsu", "tsu" has a narrow character width and "tsu" has the full-width character width. Since the information can be determined and corrected based on the information, the condition of the process 105 is satisfied.
Therefore, this misidentified character is added to the confusion table 9 as a confusion character of the first candidate character.
【0036】「ぁ」が誤認され、その第1候補文字が
「あ」であった場合、「ぁ」は文字面積が小さく、
「あ」は全角文字分の文字面積を持つので、これらは後
処理において文字幅情報に基づき判別・修正できるた
め、処理107の条件が成立する。したがって、この誤
認文字は第1候補文字のコンフュージョン文字としてコ
ンフュージョンテーブル9に追加登録される(処理10
9)。If "@" is erroneously recognized and the first candidate character is "a", "@" has a small character area,
Since “A” has a character area of two-byte characters, these can be determined and corrected based on the character width information in post-processing, so that the condition of the process 107 is satisfied. Therefore, this misidentified character is additionally registered in the confusion table 9 as a confusion character of the first candidate character (process 10).
9).
【0037】他方、誤認文字について処理101〜10
7のいずれの条件も成立しない場合、追加登録判定部2
0は辞書追加登録部22により、特徴抽出部5によって
抽出された誤認文字の文字パターン(特徴量)をパター
ン辞書7に追加登録させる(処理111)。On the other hand, processing 101 to 10 for erroneously recognized characters
If none of the conditions 7 is satisfied, the additional registration determination unit 2
0 causes the dictionary additional registration unit 22 to additionally register the character pattern (feature amount) of the erroneously recognized character extracted by the feature extraction unit 5 in the pattern dictionary 7 (process 111).
【0038】以上のように、切り出し情報に基づく後処
理によって修正が可能な誤認文字はコンフュージョンテ
ーブル9に追加し、それ以外の誤認文字のみパターン辞
書7に追加するため、追加登録によるパターン辞書7内
の類似文字パターンの増加を抑え、追加登録による悪影
響を減らすことができる。As described above, erroneous characters that can be corrected by post-processing based on cut-out information are added to the confusion table 9 and only other erroneous characters are added to the pattern dictionary 7. Can be suppressed, and the adverse effect of additional registration can be reduced.
【0039】実施例2 文字認識装置の追加登録に関連する一部構成が図4に示
すように変更され、これ以外の構成は前記実施例1と同
様である。追加登録判定部20Aは、誤認文字に対する
候補文字の誤認される確率の大小を判定の情報に用いる
ため、パターン認識部3より候補文字と類似度(距離)
の情報が入力される。Embodiment 2 A part of the structure relating to the additional registration of the character recognition device is changed as shown in FIG. 4, and the other structure is the same as that of the first embodiment. The additional registration determination unit 20A uses the pattern recognition unit 3 to determine the degree of similarity (distance) between the candidate character and the candidate character in order to use the magnitude of the probability that the candidate character is erroneously recognized with respect to the erroneous character as the determination information.
Information is input.
【0040】図5は追加登録の処理フロー図である。誤
認文字の追加登録を指示された場合、追加登録判定部2
0Aは第1候補文字の誤認確率の大小によって誤認文字
をパターン辞書22に追加すべきかコンフュージョンテ
ーブル9に追加すべきかを判断する(処理121)。本
実施例では、誤認文字と第1候補文字,第2候補文字と
の類似度(距離)をD1,D2とし、FIG. 5 is a flowchart of the additional registration process. When additional registration of a misrecognized character is instructed, additional registration determination unit 2
OA determines whether to add a misrecognized character to the pattern dictionary 22 or the confusion table 9 based on the magnitude of the misrecognition probability of the first candidate character (process 121). In the present embodiment, the similarities (distances) between the erroneously recognized character and the first and second candidate characters are D1 and D2,
【数1】D1/(D2−D1)<10 の条件が成立した場合に、第1候補文字が誤認される確
率が大きい、すなわち誤認文字を入力した場合に第1候
補文字が候補文字となる確率が大きいと判定し、コンフ
ュージョンテーブル9に追加登録すべきと判断し、テー
ブル追加登録部21により誤認文字を第1候補文字のコ
ンフュージョン文字としてコンフュージョンテーブル9
に追加登録させる(処理123)。(数1)の条件が成
立しない場合、追加登録判定部20Aはパターン辞書7
に追加登録すべきと判断し、辞書追加登録部22により
誤認文字の文字パターンをパターン辞書7に追加登録さ
せる(処理125)。なお(数1)は一例であって、他
の判定式を用いてもよい。## EQU1 ## When the condition of D1 / (D2-D1) <10 is satisfied, there is a high probability that the first candidate character is erroneously recognized, that is, the first candidate character becomes a candidate character when an erroneous character is input. It is determined that the probability is large, it is determined that additional registration should be made in the confusion table 9, and the misrecognized character is set as a first candidate confusion character by the table additional registration unit 21.
(Step 123). If the condition of (Equation 1) is not satisfied, the additional registration determination unit 20A sets the pattern dictionary 7
Is determined to be additionally registered, and the character pattern of the misrecognized character is additionally registered in the pattern dictionary 7 by the dictionary additional registration unit 22 (process 125). (Equation 1) is merely an example, and another determination formula may be used.
【0041】例えば、「太」が誤認され、第1候補文字
が「大」、その類似度が80、第2候補文字が「天」、
その類似度が120であったとする。なお、文字パター
ンの類似度として距離を用いているので、文字パターン
が似ているほど類似度の値は小さい。この誤認文字の場
合、(数1)の条件が成立するため、コンフュージョン
テーブル9へ追加登録される。他方、「問」が誤認さ
れ、第1候補文字が「間」、その類似度が150、第2
候補文字が「関」、その類似度が160であったとす
る。この場合、(数1)の条件は成立しないため、誤認
文字はパターン辞書7へ追加登録される。For example, "thick" is erroneously recognized, the first candidate character is "large", its similarity is 80, the second candidate character is "heaven",
It is assumed that the similarity is 120. Since the distance is used as the similarity of the character pattern, the value of the similarity is smaller as the character pattern is more similar. In the case of this misidentified character, since the condition of (Equation 1) is satisfied, the character is additionally registered in the confusion table 9. On the other hand, the “question” is misidentified, the first candidate character is “between”, its similarity is 150,
It is assumed that the candidate character is “Seki” and the similarity is 160. In this case, since the condition of (Equation 1) is not satisfied, the erroneously recognized character is additionally registered in the pattern dictionary 7.
【0042】実施例3 文字認識装置の構成は前記実施例2と同様である。Embodiment 3 The configuration of the character recognition device is the same as that of Embodiment 2.
【0043】図6は追加登録の処理フロー図である。処
理131,135は図5の処理121,125と同一の
処理である。処理123は誤認文字と誤認される確率の
大きな第2位以下の候補文字がある場合には、そのコン
フュージョン文字としても誤認文字を追加登録すること
が図5の処理123と異なる。FIG. 6 is a flowchart of the additional registration process. Processes 131 and 135 are the same processes as processes 121 and 125 in FIG. The processing 123 differs from the processing 123 in FIG. 5 in that, when there is a second or lower candidate character having a high probability of being erroneously recognized as an erroneous character, the erroneous character is additionally registered as the confusion character.
【0044】すなわち、誤認文字をコンフュージョンテ
ーブル9に追加登録する場合、第1候補文字のコンフュ
ージョン文字として追加登録するだけでなく、第1候補
文字の誤認文字との類似度(距離)をD1、第2位以下
の各候補の類似度をDiとしたときに、That is, when an erroneous character is additionally registered in the confusion table 9, not only is it additionally registered as a confusion character of the first candidate character, but also the similarity (distance) of the first candidate character to the erroneous character is D1. , When the similarity of each of the second and lower candidates is Di,
【数2】Di−D1<30 の条件が成立する第i候補文字がある場合、その第i候
補文字も誤認確率が大きいとみなされるので、そのコン
フュージョン文字としても誤認文字を追加登録する。## EQU2 ## If there is an i-th candidate character that satisfies the condition of Di-D1 <30, the i-th candidate character is also considered to have a high misidentification probability, so that the misidentification character is additionally registered as the confusion character.
【0045】例えば、「臼」が誤認され、第1候補文字
が「白」で類似度が100、第2候補文字が「日」で類
似度が120、第3候補文字が「目」で類似度が140
である場合、(数1)の条件が成立するのでコンフュー
ジョンテーブル9への追加登録が行なわれる。そして、
第2候補について(数2)の条件が成立するので、誤認
文字は第1候補文字及び第2候補文字のコンフュージョ
ン文字として追加登録される。For example, "Musu" is misidentified, the first candidate character is "white" and the similarity is 100, the second candidate character is "day" and the similarity is 120, and the third candidate character is "eye" and similar. Degree 140
In the case of, the condition of (Equation 1) is satisfied, and additional registration in the confusion table 9 is performed. And
Since the condition of (Equation 2) is satisfied for the second candidate, the misidentified character is additionally registered as a confusion character of the first candidate character and the second candidate character.
【0046】実施例4 文字認識装置の構成は前記実施例2,3と同様である。
また、追加登録処理は前記実施例3と同様に図6のフロ
ー図で表現される。ただし、処理131では、第1候補
文字の類似度が固定の閾値例えば100以下の場合に、
コンフュージョンテーブル9に追加登録すべきと判断さ
れる。そして、処理133では、その閾値以下の類似度
の各候補文字のコンフュージョン文字として誤認文字が
追加登録される。Embodiment 4 The configuration of a character recognition device is the same as in Embodiments 2 and 3.
Further, the additional registration processing is expressed by the flowchart of FIG. 6 similarly to the third embodiment. However, in the process 131, when the similarity of the first candidate character is a fixed threshold value, for example, 100 or less,
It is determined that additional registration should be made in the confusion table 9. Then, in the process 133, an erroneously recognized character is additionally registered as a confusion character of each candidate character having a similarity lower than the threshold.
【0047】例えば「合」が誤認され、第1候補文字が
「含」で類似度(距離)が80、第2候補文字が「舎」
で類似度が95、第3候補文字が「倉」で類似度が12
0の場合、第2候補文字までは誤認される確率が大きい
とみなされ、誤認文字は「含」及び「舎」のコンフュー
ジョン文字として追加登録される。他方、「識」が誤認
され、第1候補文字「構」の類似度が115であった場
合、この類似度は閾値を超えるので、誤認文字はパター
ン辞書7に追加登録される。For example, "go" is erroneously recognized, the first candidate character is "contained", the similarity (distance) is 80, and the second candidate character is "sha".
And the similarity is 95, the third candidate character is “kura” and the similarity is 12
In the case of 0, it is considered that the probability of being erroneously recognized up to the second candidate character is large, and the erroneously recognized character is additionally registered as a confusion character of “contain” and “sha”. On the other hand, if the “sense” is misidentified and the similarity of the first candidate character “composition” is 115, the similarity exceeds the threshold, and the misidentified character is additionally registered in the pattern dictionary 7.
【0048】実施例5 文字認識装置の追加登録に関連する部分の構成が図7に
示すように変更され、これ以外の構成は前記実施例1と
同様である。追加登録判定部20Bは、誤認文字の切り
出し情報と候補文字の誤認される確率の大小を判定の情
報に用いるため、パターン認識部3から候補文字と類似
度(距離)の情報が、切り出し部2から切り出し情報
が、知識辞書11から切り出し情報による後処理のため
の知識がそれぞれ与えられる。Fifth Embodiment The configuration of a portion related to additional registration of a character recognition device is changed as shown in FIG. 7, and the other configuration is the same as that of the first embodiment. The additional registration determination unit 20B uses the cutout information of the erroneous character and the magnitude of the probability that the candidate character is erroneously recognized as the determination information. , And knowledge for post-processing based on the cut-out information is given from the knowledge dictionary 11.
【0049】図8は追加登録処理のフロー図である。処
理140は、前記実施例2の処理121または前記実施
例3もしくは4の処理131と同様の処理である。この
処理141の条件が不成立の場合、パターン辞書7へ追
加登録すべきと判断し、そして辞書追加登録部22によ
り誤認文字をパターン辞書7に追加登録させる(処理1
47)。FIG. 8 is a flowchart of the additional registration process. The process 140 is the same as the process 121 of the second embodiment or the process 131 of the third or fourth embodiment. If the condition of this process 141 is not satisfied, it is determined that additional registration in the pattern dictionary 7 is to be performed, and the misrecognized character is additionally registered in the pattern dictionary 7 by the dictionary additional registration unit 22 (process 1).
47).
【0050】しかし、処理141の条件が成立した場
合、追加登録判定部20Bは処理143の判定を行な
う。この処理143では、第1候補文字並びに(数2)
の条件を満たす、あるいは類似度が固定の閾値以下の下
位候補文字(誤認確率が大きい候補文字)のそれぞれに
ついて、切り出し情報に基づく後処理によって誤認文字
と判別・修正が可能であるかを判定する。この判定内容
は前記実施例1における処理101〜107と同様でよ
い。そして、いずれの候補文字も判別・修正が不可能で
あるときは、パターン辞書7へ追加登録すべきと判断す
るが、判別・修正が可能な候補文字が1個でもあればコ
ンフュージョンテーブル9へ追加登録すべきと判断し、
テーブル追加登録部21により、誤認確率が大きくかつ
判別・修正が可能な各候補文字のコンフュージョン文字
として誤認文字をコンフュージョンテーブル9に追加登
録させる(処理145)。However, when the condition of the process 141 is satisfied, the additional registration judging unit 20B makes the judgment of the process 143. In this process 143, the first candidate character and (Equation 2)
For each of the lower candidate characters (candidate characters having a high misrecognition probability) satisfying the above condition or having a similarity value equal to or less than a fixed threshold, it is determined whether the post-processing based on the cutout information can determine and correct the misrecognition character. . The contents of this determination may be the same as the processing 101 to 107 in the first embodiment. If it is impossible to determine and correct any of the candidate characters, it is determined that the candidate character should be additionally registered in the pattern dictionary 7, but if there is at least one candidate character that can be determined and corrected, the confusion table 9 is entered. Judging that additional registration is required,
The table addition registration unit 21 additionally registers the erroneous recognition character in the confusion table 9 as a confusion character of each candidate character that has a high misrecognition probability and can be determined and corrected (process 145).
【0051】実施例6 文字認識装置の構成は前記実施例5と同様である。Embodiment 6 The configuration of the character recognition device is the same as that of Embodiment 5.
【0052】図9は追加登録の処理フロー図である。追
加登録判定部20Bは、まず切り出し情報により誤認文
字と判別可能な候補文字があるか判定する(処理15
1)。この判定方法は前記実施例1と同様でよい。切り
出し情報で判別・修正が可能な候補文字がない場合は、
パターン辞書7へ追加登録すべきと判断し、その追加登
録を辞書追加登録部22に行なわせる(処理157)。FIG. 9 is a flowchart of the additional registration process. The additional registration determination unit 20B first determines whether there is any candidate character that can be determined to be an erroneous character based on the cutout information (Process 15).
1). This determination method may be the same as in the first embodiment. If there is no candidate character that can be identified and corrected in the cutout information,
It is determined that additional registration should be made in the pattern dictionary 7, and the additional registration is performed by the dictionary additional registration unit 22 (process 157).
【0053】切り出し情報により判別・修正が可能な候
補文字がある場合、その候補文字中に誤認確率が大きい
ものがあるか判定する(処理153)。誤認確率の大小
判定は前記実施例5の処理141と同様でよい。そし
て、誤認確率が大きい候補文字が1個もなければパター
ン辞書7へ追加登録すべきと判断するが、そうでなけれ
ば、誤認確率の大きな各候補文字のコンフュージョン文
字としての誤認文字の追加登録をテーブル追加登録部2
1に行なわせる(処理155)。If there is a candidate character that can be determined and corrected based on the cut-out information, it is determined whether or not any of the candidate characters has a high false recognition probability (process 153). The determination of the magnitude of the misrecognition probability may be the same as the processing 141 of the fifth embodiment. If there is no candidate character having a high misrecognition probability, it is determined that the candidate character should be additionally registered in the pattern dictionary 7. Otherwise, the additional registration of the misrecognition character as a confusion character of each candidate character having a large misrecognition probability is made. Add table registration unit 2
1 (process 155).
【0054】実施例7 前記実施例5の処理141において、第1候補文字につ
いてのみ誤認確率の大小を判定し、また処理143にお
いて第1候補のみについて切り出し情報による判別・修
正の可能性を判定する。さらに処理145において、第
1候補のみのコンフュージョン文字として誤認文字を追
加登録する。これ以外は前記実施例5と同様である。Embodiment 7 In the processing 141 of the fifth embodiment, the magnitude of the misrecognition probability is determined only for the first candidate character, and in the processing 143, the possibility of determination / correction based on the cutout information is determined for only the first candidate. . Further, in processing 145, an erroneous character is additionally registered as a confusion character of only the first candidate. Except for this, it is the same as the fifth embodiment.
【0055】実施例8 前記実施例6の処理151において、第1候補文字につ
いてのみ切り出し情報による判別・修正の可能性を判定
し、処理153において第1候補文字の誤認確率の大小
のみを判定し、処理155において第1候補のみのコン
フュージョン文字として誤認文字を追加登録する。これ
以外は前記実施例6と同様である。Eighth Embodiment In the processing 151 of the sixth embodiment, the possibility of discrimination / correction based on the cut-out information is determined only for the first candidate character, and only the magnitude of the misrecognition probability of the first candidate character is determined in the processing 153. In processing 155, an erroneously recognized character is additionally registered as a confusion character of only the first candidate. Other than this, it is the same as the sixth embodiment.
【0056】[0056]
【発明の効果】本発明によれば、判定手段の判断によっ
てパターン辞書またはコンフュージョンーンテーブルに
誤認文字が追加登録されるため、装置利用者の判断に依
存する場合に比べ、誤認文字の追加登録を合理的に制御
し、悪影響を避けつつ追加登録の目的を達成することが
可能になる。According to the present invention , misidentified characters are additionally registered in the pattern dictionary or the confusion moon table by the judgment of the judging means. It allows you to control registration reasonably and achieve the purpose of additional registration while avoiding adverse effects.
【0057】したがって、パターンマッチングによる候
補文字に、そのコンフュージョン文字を付加する手段、
及び文字の切り出し情報や言語知識等を用いる後処理の
手段を備える文字認識装置において、誤認された文字を
認識可能にするための合理的な文字追加登録を装置利用
者ができるようなる。 Therefore, means for adding the confusion character to the candidate character by pattern matching,
In a character recognition device provided with post-processing means using character cut-out information, linguistic knowledge, and the like, the device user can make reasonable additional character registration for enabling recognition of misidentified characters.
【図1】実施例1の装置構成を示すブロック図である。FIG. 1 is a block diagram illustrating a device configuration according to a first embodiment.
【図2】パターン認識からコンフュージョン文字付加ま
での構成概念図である。FIG. 2 is a conceptual diagram illustrating a configuration from pattern recognition to addition of a confusion character.
【図3】実施例1における誤認文字の追加登録処理を説
明するためのフロー図である。FIG. 3 is a flowchart for explaining additional registration processing of a misrecognized character in the first embodiment.
【図4】実施例2,3または4の装置構成の変更部分を
示すブロック図である。FIG. 4 is a block diagram showing a changed part of the device configuration of the second, third or fourth embodiment.
【図5】実施例2における誤認文字の追加登録処理の説
明のためのフロー図である。FIG. 5 is a flowchart for explaining additional registration processing of a misrecognized character in a second embodiment.
【図6】実施例3または4における誤認文字の追加登録
処理の説明のためのフロー図である。FIG. 6 is a flowchart for explaining additional registration processing of a misrecognized character in the third or fourth embodiment.
【図7】実施例5,6,7または8の装置構成の変更部
分を示すブック図である。FIG. 7 is a book diagram showing a changed portion of the device configuration of the fifth, sixth, seventh or eighth embodiment.
【図8】実施例5または7における誤認文字の追加登録
処理の説明のためのフロー図である。FIG. 8 is a flowchart for explaining additional registration processing of a misrecognized character according to the fifth or seventh embodiment.
【図9】実施例6または8における誤認文字の追加登録
処理の説明のためのフロー図である。FIG. 9 is a flowchart for explaining additional registration processing of a misrecognized character in the sixth or eighth embodiment.
1 スキャナー 2 切り出し部 3 パターン認識部 4 正規化部 5 特徴抽出部 6 パターンマッチング部 7 パターン辞書 8 コンフュージョン文字付加部 9 コンフュージョンテーブル 10 後処理部 11 知識辞書 12 コンソール 20,20A,20B 追加登録判定部 21 テーブル追加登録部 22 辞書追加登録部 DESCRIPTION OF SYMBOLS 1 Scanner 2 Extraction part 3 Pattern recognition part 4 Normalization part 5 Feature extraction part 6 Pattern matching part 7 Pattern dictionary 8 Confusion character addition part 9 Confusion table 10 Post-processing part 11 Knowledge dictionary 12 Console 20, 20A, 20B Additional registration Judgment unit 21 Table addition registration unit 22 Dictionary addition registration unit
Claims (1)
手段により切り出された文字より文字パターンを抽出
し、これとパターン辞書とのパターンマッチングにより
複数の候補文字を求めるパターン認識手段と、文字パタ
ーンが類似したコンフュージョン文字が登録されたコン
フュージョンテーブルを持ち該候補文字に、そのコンフ
ュージョン文字を付加する手段と、該候補文字及びそれ
に付加されたコンフュージョン文字を認識結果として、
その修正のための後処理を行なう手段とを有する文字認
識装置において、誤認された文字の登録を指示された場
合に、該誤認文字を該パターン辞書または該コンフュー
ジョンテーブルのいずれに追加登録すべきか判断する判
定手段と、該判定手段の判断が該コンフュージョンテー
ブルへの追加登録の場合に該誤認文字を1個または複数
個の候補文字のコンフュージョン文字として該コンフュ
ージョンテーブルに追加登録するテーブル追加手段と、
該判定手段の判断が該パターン辞書への追加登録の場合
に該パターン認識手段により該誤認文字より抽出された
文字パターンを該パターン辞書に追加登録する辞書追加
手段とを有することを特徴とする文字認識装置。1. A means for extracting a character from an input image, a character recognizing means for extracting a character pattern from the character extracted by the means, and obtaining a plurality of candidate characters by pattern matching with the pattern dictionary, and a character pattern A means for adding a confusion character to the candidate character having a confusion table in which confusion characters similar to each other are registered, and as a recognition result of the candidate character and the confusion character added thereto,
In a character recognition device having means for performing post-processing for the correction, when registration of a misrecognized character is instructed, which of the pattern dictionary or the confusion table should be used to additionally register the misrecognized character A judging means for judging, and a table addition for additionally registering the misidentified character as a confusion character of one or more candidate characters in the confusion table when the judgment by the judging means is additional registration in the confusion table. Means,
Dictionary adding means for additionally registering, in the pattern dictionary, a character pattern extracted from the misrecognized character by the pattern recognizing means when the judgment of the judging means is additional registration in the pattern dictionary. Recognition device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP24487891A JP3157557B2 (en) | 1991-08-30 | 1991-08-30 | Character recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP24487891A JP3157557B2 (en) | 1991-08-30 | 1991-08-30 | Character recognition device |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0562020A JPH0562020A (en) | 1993-03-12 |
JP3157557B2 true JP3157557B2 (en) | 2001-04-16 |
Family
ID=17125343
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP24487891A Expired - Lifetime JP3157557B2 (en) | 1991-08-30 | 1991-08-30 | Character recognition device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3157557B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101102581B1 (en) * | 2009-05-15 | 2012-01-03 | 주식회사 유니온 | Assembly type Bobbin of Transformer |
JP7268389B2 (en) * | 2019-02-15 | 2023-05-08 | 富士フイルムビジネスイノベーション株式会社 | Information processing device and program |
-
1991
- 1991-08-30 JP JP24487891A patent/JP3157557B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH0562020A (en) | 1993-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100412317B1 (en) | Character recognizing/correcting system | |
JP2022095391A (en) | Information processing apparatus and information processing program | |
JP3157557B2 (en) | Character recognition device | |
JP2000089786A (en) | Method for correcting speech recognition result and apparatus therefor | |
JPH11232296A (en) | Document filing system and document filing method | |
JP2001022883A (en) | Character recognizing system and recording medium for realizing function for the same | |
JP3812719B2 (en) | Document search device | |
JPH11328315A (en) | Character recognizing device | |
JPH09134410A (en) | Method for determining degree of certainty of recognition result and character recognition system | |
JP2985813B2 (en) | Character string recognition device and knowledge database learning method | |
JP2005339039A (en) | Document processor and document processing method | |
JPH06223121A (en) | Information retrieving device | |
JPH07319880A (en) | Keyword extraction/retrieval device | |
JPH0256086A (en) | Method for postprocessing for character recognition | |
JP2746345B2 (en) | Post-processing method for character recognition | |
JP3085107B2 (en) | Character recognition device | |
JP2974145B2 (en) | Correcting character recognition results | |
JP2963474B2 (en) | Similar character identification method | |
JP4633271B2 (en) | Dictionary learning method and dictionary learning program | |
JP2977244B2 (en) | Character recognition method and character recognition device | |
JPH0950488A (en) | Method for reading different size characters coexisting character string | |
JP3033554B2 (en) | Character recognition device | |
JPS60138689A (en) | Character recognizing method | |
JP3033904B2 (en) | Character recognition post-processing method | |
JPH01171080A (en) | Recognizing device for error automatically correcting character |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080209 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090209 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100209 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110209 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120209 Year of fee payment: 11 |
|
EXPY | Cancellation because of completion of term | ||
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120209 Year of fee payment: 11 |