JPH08202827A - Character recognition method - Google Patents

Character recognition method

Info

Publication number
JPH08202827A
JPH08202827A JP7012795A JP1279595A JPH08202827A JP H08202827 A JPH08202827 A JP H08202827A JP 7012795 A JP7012795 A JP 7012795A JP 1279595 A JP1279595 A JP 1279595A JP H08202827 A JPH08202827 A JP H08202827A
Authority
JP
Japan
Prior art keywords
character
separated
recognition result
integrated
evaluation value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7012795A
Other languages
Japanese (ja)
Inventor
Takakuni Minewaki
隆邦 嶺脇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP7012795A priority Critical patent/JPH08202827A/en
Publication of JPH08202827A publication Critical patent/JPH08202827A/en
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

PURPOSE: To reduce recognition errors owing to the separation or synthesis of characters and to reduce processing quantity for correcting the evaluation value of a recognized result. CONSTITUTION: In a step 204a, a final result is selected in accordance with rules on the combination of the separated characters and the synthesized characters, which is mentioned in a rule table. When it is not selected here, a correction value α for improving the priority of the synthesized characters is added in a step 204b. In a step 204c, a correction value β for improving the priority of the synthesized characters is added when a character element size is half and the character type of the separated characters is not appropriate for en. In a step 204d, a correction value γ for improving the priority of the separated characters is added when the separated characters are alphanumerics. In a step 204e, the recognized result of either the separated characters or the synthesized characters is selected as a final result by large or small of the evaluation value average value of the corrected separated characters and the evaluation value of the synthesized characters.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は文字認識に係り、特に、
隣合う二つの文字素を別々の文字として認識すべきか、
または、一つの統合した文字として認識すべきかを判断
する技術に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to character recognition, and in particular,
Should two adjacent phonemes be recognized as separate characters,
Alternatively, the present invention relates to a technique for determining whether to recognize as one integrated character.

【0002】[0002]

【従来の技術】光学的文字読取装置(OCR)におい
て、一つの文字のパターンが二つの部分パターン(文字
素)に分離して切り出され、それぞれの文字素が別々の
文字として誤認されることがある。例えば漢字の「加」
が「力」と「口」という二つの文字として認識されるよ
うなケースである。これと逆に別々の文字が統合された
ものが1文字と認識されることもある。このような誤り
を避けるために、隣合う二つの文字素を分離した別々の
文字として認識すべきか、一つの統合した文字として認
識すべきかを判断するための工夫が必要であるが、その
ための従来技術の例として次に挙げる二つの方法が知ら
れている。
2. Description of the Related Art In an optical character reader (OCR), a pattern of one character is separated and cut into two partial patterns (character elements), and each character element is erroneously recognized as a separate character. is there. For example, the kanji for "ka"
Is recognized as two characters, "power" and "mouth". On the contrary, a combination of different characters may be recognized as one character. In order to avoid such an error, it is necessary to devise whether to recognize two adjacent character elements as separate characters that are separated or as one integrated character. The following two methods are known as examples of the technique.

【0003】一つは特開平3−291779号公報に述
べられている方法である。この方法においては、個々の
文字素からなるパターン(分離文字)と文字素の統合パ
ターン(統合文字)とをそれぞれ文字として一旦認識し
た後、分離文字または統合文字を評価することによって
一方を文字として選択するが、注目した文字素の先後の
空白幅を比較し、いずれの空白幅が広いかによって、選
択のために用いる評価値及び選択方法を切り替える。
One is the method described in Japanese Patent Laid-Open No. 3-291779. In this method, after recognizing a pattern (separated character) consisting of individual character elements and an integrated pattern (integrated character) of character elements as characters respectively, one of them is regarded as a character by evaluating the separated character or the integrated character. Although the selection is made, the blank widths before and after the noted character element are compared, and the evaluation value and the selection method used for the selection are switched depending on which blank width is wider.

【0004】もう一つは特開平4−37970号公報に
述べられている方法である。この方法では、二つの分離
文字とその統合文字とをそれぞれ文字認識し、各分離文
字の認識結果の辞書との類似度に1未満の補正値を乗じ
ることにより類似度を補正した後、前後二つの分離文字
の類似度の平均値(代表値)と統合文字の認識結果の辞
書との類似度とを比較し、前者の値のほうが大きいとき
に分離文字を選択し、そうでないときに統合文字を選択
する。
The other is the method described in JP-A-4-37970. In this method, two separated characters and their integrated characters are individually recognized, and the similarity between the separated character recognition result and the dictionary is multiplied by a correction value of less than 1 to correct the similarity. The average value (representative value) of the similarity of two separated characters is compared with the similarity of the dictionary of integrated character recognition results, and when the former value is larger, the separated character is selected, and when it is not, the integrated character is selected. Select.

【0005】前記2方法は、ある文字が偏や旁に分離し
て誤認識となる場合(「化」が「イ」と「ヒ」に分離す
るケース、「加」が「力」と「口」に分離するケースな
ど)や、二つの文字が一文字に統合されて誤認識される
場合(「15」が順に統合されるケースなど)を、正しく
処理することを目的としている。要するに、文字素(行
画像の垂直射影をとったり黒画素の連結を追跡したりし
て検出される黒画素の塊)を個々に文字として認識した
場合の類似度(または確からしさの評価値)と、二つの
文字素を組み合わせたものを文字として認識した場合の
類似度(または確からしさの評価値)とを求め、それら
に何等かの処理を施したのち、類似度(または評価値)
の高いほうの文字(分離文字または統合文字)を正しい
ものとして選択するというものである。しかし、前記各
方法には次に述べるような解決すべき問題点がある。
In the above-mentioned two methods, when a character is separated into a bias and a whit and is misrecognized (in which "ka" is separated into "a" and "hi", "add" is "force" and "mouth"). It is intended to correctly handle cases such as "separating into") and cases in which two characters are combined into a single character and misrecognized (such as the case where "15" is combined in order). In short, the similarity (or the evaluation value of the certainty) when each character element (a block of black pixels detected by taking a vertical projection of a line image or tracking the connection of black pixels) is individually recognized as a character. , Similarity (or evaluation value of certainty) when a combination of two character elements is recognized as a character, and after performing some processing on them, similarity (or evaluation value)
The higher character (separated character or integrated character) is selected as the correct one. However, each of the above methods has the following problems to be solved.

【0006】特開平3−291779号の方法では、注
目する文字素の先後の空白幅の比較結果に応じて選択方
法を切り替えるので、問題となる文字のイメージが全く
同じものであっても、隣接する文字との間隔の関係によ
って選択方法が切り替わってしまう。しかるに、文字間
隔は文章中で一定とは限らず、行ごと文字間隔が調整さ
れている文書もあり、この場合には行ごとに隣接文字と
の間隔の関係は変わってしまう。したがって、文章中に
複数回現われる同じ文字が、出現する位置ごとに分離さ
れたり統合されたりする。この不安定さが、この従来方
法の解決すべき問題点の一つである。
In the method disclosed in Japanese Patent Laid-Open No. 3-291779, the selection method is switched according to the result of comparison of the blank width before and after the character element of interest. Therefore, even if the image of the problematic character is exactly the same, The selection method is switched depending on the relationship with the character to be used. However, the character spacing is not always constant in a sentence, and in some documents, the character spacing is adjusted line by line, and in this case, the relationship between the space and the adjacent character changes line by line. Therefore, the same character that appears multiple times in a sentence is separated or integrated depending on the position where it appears. This instability is one of the problems to be solved by this conventional method.

【0007】一方、特開平4−37970号の方法で
は、分離文字の類似度に1未満の補正値が乗じられるこ
とにより類似度が補正されるが、この補正処理を計算機
上で実現するには小数の乗算を行なわなければならず、
計算量が重く処理に時間がかかるという問題点がある。
On the other hand, in the method disclosed in Japanese Patent Laid-Open No. 4-37970, the similarity is corrected by multiplying the similarity of the separated characters by a correction value of less than 1. To realize this correction processing on a computer. You have to do decimal multiplication,
There is a problem that the calculation amount is heavy and the processing takes time.

【0008】もう一つの問題点は、類似度の補正される
幅が元の類似度の値に比例するので、類似度の値が小さ
くなると補正が不十分になって判別能力が低下し、逆
に、類似度の値が大きい場合には補正が過剰になるケー
スが増える、という傾向があることである。
Another problem is that the width of correction of the similarity is proportional to the value of the original similarity. Therefore, when the value of the similarity becomes smaller, the correction becomes insufficient and the discrimination ability deteriorates. In addition, there is a tendency that when the value of the degree of similarity is large, the number of cases of overcorrection increases.

【0009】また、この方法では、分離文字の類似度に
1未満の補正値を乗ずることにより、一様に分離文字を
統合文字より選択されにくくするので、この補正を行な
わない場合にくらべ、みかけの認識率は向上するであろ
う。すなわち、「加」「化」「記」(統合が正解)のよ
うな左右に2文字に分離可能な統合文字の場合や、「カ
ロ」「イヒ」「言己」(分離文字が正解)のように統合
しても分離しても文字として成立する場合に、分離文字
としての認識結果の類似度も統合文字としての認識結果
の類似度も共に高い値をとることになるが、実際の文書
における文字の出現頻度を考慮すると、かかる場合には
統合文字が正解となるケースが割合としては多い(例え
ば「カロ」「イヒ」「言己」より「加」「化」「記」が
正解となるケースの割合が多い)。したがって、統合文
字の優先によって、全体としての認識率は向上する。し
かしながら、稀なケースとはいっても、「カロ」「イ
ヒ」のような本来の分離文字の統合誤りが発生しやす
く、特に、類似度の補正が過剰な場合に分離文字が常に
統合されてしまう、という問題点がある。
Further, in this method, the similarity of the separated characters is multiplied by a correction value of less than 1 to uniformly select the separated characters from the integrated characters. Recognition rate will improve. That is, in the case of an integrated character that can be separated into two characters on the left and right, such as "add", "ka", "ki" (correct is correct), or "caro", "ihi", "kotomi" (correct is correct) In this way, both the recognition result as a separated character and the similarity of the recognition result as an integrated character have a high value when the characters are satisfied even if they are integrated or separated. Considering the frequency of occurrence of characters in, the ratio of cases where the integrated character is correct is high in such cases (for example, "Karo", "Ihi", "Kotomi", "add", "ka", "ki" are correct answers. There are many cases that become). Therefore, the priority of the integrated character improves the recognition rate as a whole. However, even if it is a rare case, it is easy to cause an error in combining original separation characters such as "Karo" and "Ihi", and especially when the correction of similarity is excessive, the separation characters are always combined. , There is a problem.

【0010】[0010]

【発明が解決しょうとする課題】よって、本発明の目的
は、光学的文字認識装置等において、本来の分離文字と
本来の統合文字との識別精度を改善すること、並びに、
その識別のための処理量の削減及び処理の高速化を図る
ことである。
SUMMARY OF THE INVENTION Therefore, an object of the present invention is to improve the accuracy of distinguishing an original separated character from an original integrated character in an optical character recognition device and the like, and
It is to reduce the processing amount for the identification and speed up the processing.

【0011】[0011]

【課題を解決するための手段】請求項1乃至5の各項記
載の発明の文字認識方法は、画像より抽出された隣合う
二つの文字素に対して二つの分離した文字としての文字
認識及び一つの統合した文字としての文字認識を行な
い、該分離した文字の認識結果及びその確からしさを表
わす評価値並びに該統合した文字の認識結果及びその確
からしさを表わす評価値を得る段階と、該分離した文
字の評価値及び該統合した文字の評価値に対する補正処
理を行なう段階と、該補正処理後の該分離した文字の
評価値の平均値と該統合した文字の評価値との大小関係
に従って、該分離した文字の認識結果または該統合した
文字の認識結果を最終的な認識結果として選択する段階
とを有する。
According to the character recognition method of the invention described in each of claims 1 to 5, character recognition as two separated characters for two adjacent character elements extracted from an image, and Performing character recognition as one integrated character, obtaining a recognition result of the separated character and an evaluation value representing the certainty thereof, and a recognition result of the integrated character and an evaluation value representing the certainty, and the separating A step of performing correction processing on the evaluation value of the character and the evaluation value of the integrated character, and according to the magnitude relationship between the average value of the evaluation values of the separated characters after the correction processing and the evaluation value of the integrated character, Selecting the separated character recognition result or the integrated character recognition result as a final recognition result.

【0012】そして、請求項1記載の発明の文字認識方
法においては、該補正処理段階において、該分離した
文字の評価値もしくはその平均値または該統合した文字
の評価値に補正値が加算される。
In the character recognition method of the present invention, the correction value is added to the evaluation value of the separated character or its average value or the evaluation value of the integrated character in the correction processing step. .

【0013】請求項2記載の発明の文字認識方法におい
ては、該補正処理段階において、該文字素のサイズが
半角文字相当サイズ以下であり、かつ分離した文字の認
識結果が半角文字として不適当な特定の文字種に属する
場合に、該統合した文字の認識結果の選択される優先度
を高めるために、該分離した文字の評価値もしくはその
平均値または該統合した文字の評価値に補正値が加算さ
れる。
In the character recognition method according to the second aspect of the present invention, in the correction processing step, the size of the character element is equal to or smaller than the half-width character equivalent size, and the recognition result of the separated character is unsuitable as the half-width character. When the character belongs to a specific character type, a correction value is added to the evaluation value of the separated character or its average value or the evaluation value of the integrated character in order to increase the selected priority of the recognition result of the integrated character. To be done.

【0014】請求項3記載の発明の文字認識方法におい
ては、該補正処理段階において、該文字素のサイズが
半角文字相当サイズ以下であり、かつ分離した文字の認
識結果が半角文字として不適当な特定の文字種に属し、
かつ、該分離した文字の認識結果が予め指定した文字で
ない場合に、該統合した文字の認識結果の選択される優
先度を高めるために、該分離した文字の評価値もしくは
その平均値または該統合した文字の評価値に補正値が加
算される。
In the character recognition method according to the third aspect of the present invention, in the correction processing step, the size of the character element is equal to or smaller than the half-size character equivalent size, and the recognition result of the separated character is inappropriate as the half-size character. Belongs to a specific character type,
Further, when the recognition result of the separated character is not a previously designated character, the evaluation value of the separated character or its average value or the integrated value is increased in order to increase the priority of selection of the recognition result of the integrated character. The correction value is added to the evaluation value of the selected character.

【0015】請求項4記載の発明の文字認識方法におい
ては、該補正処理段階において、該二つの分離した文
字の認識結果が両方とも英字または数字である場合に、
該分離した文字の認識結果の選択される優先度を高める
ために、該統合した文字の評価値または該分離した文字
の評価値もしくはその平均値に補正値が加算される。
In the character recognition method of the present invention as defined in claim 4, in the correction processing step, when the recognition results of the two separated characters are both letters or numbers,
A correction value is added to the evaluation value of the integrated character or the evaluation value of the separated character or its average value in order to increase the selected priority of the recognition result of the separated character.

【0016】請求項5記載の発明の文字認識方法におい
ては、該補正処理段階において、該二つの分離した文
字の認識結果が両方とも英字または数字であり、かつ、
該統合した文字の認識結果がローマ数字でない場合に、
該分離した文字の認識結果の選択される優先度を高める
ために、該統合した文字の評価値または該分離した文字
の評価値もしくはその平均値に補正値が加算される。
According to the character recognition method of the present invention, in the correction processing step, the recognition results of the two separated characters are both alphabetic characters or numerals, and
When the integrated character recognition result is not a Roman numeral,
A correction value is added to the evaluation value of the integrated character or the evaluation value of the separated character or its average value in order to increase the selected priority of the recognition result of the separated character.

【0017】また、請求項6記載の発明の特徴は、請求
項1乃至5の各項記載の発明の文字認識方法において、
該補正処理段階に先立って、該分離した文字としての
認識結果と該統合した文字としての認識結果の組合せが
予め定められた複数の特定文字組合せの一つと一致する
か調べ、一致した場合に該一致した特定文字組合せに関
し予め定められたルールに従って最終的な認識結果を決
定する段階を有し、該段階により最終的な認識結果
が決定されない場合にのみ該段階及び該段階が実行
されることである。
The feature of the invention described in claim 6 is that in the character recognition method of the invention described in each of claims 1 to 5,
Prior to the correction processing step, it is checked whether the combination of the recognition result as the separated character and the recognition result as the integrated character matches with one of a plurality of predetermined specific character combinations. A step of determining a final recognition result according to a predetermined rule regarding the matched specific character combination, and the step and the step are executed only when the final recognition result is not determined by the step. is there.

【0018】[0018]

【作用】二つの分離文字(隣合う二つの文字素)のそれ
ぞれの評価値の平均値を横軸Xに、統合文字の評価値を
縦軸Yにとって、その分布を大まかにプロットすると、
例えば図1に示すような分布図が得られる。なお、評価
値としては、ここでは辞書との距離を輪郭数で除した値
であるとする。このように輪郭数で除することによっ
て、文字のサイズの大小に関係なく、辞書との相違度が
小さいほど低い評価値が得られ、辞書との相違度が大き
いほど高い評価値が得られる。
When the average value of the respective evaluation values of the two separated characters (two adjacent character elements) is set on the horizontal axis X and the evaluation value of the integrated character is set on the vertical axis Y, its distribution is roughly plotted.
For example, a distribution chart as shown in FIG. 1 can be obtained. The evaluation value is a value obtained by dividing the distance from the dictionary by the number of contours. By dividing by the number of contours in this way, a lower evaluation value is obtained as the degree of difference with the dictionary is smaller, and a higher evaluation value is obtained as the degree of difference with the dictionary is larger, regardless of the size of the character.

【0019】図1において、1は分離文字が正解の集
合、2は統合文字が正解の集合である。このような分布
の場合、Y=Xの境界線3を引いて、統合文字の評価値
と分離文字の評価値の平均値との大小関係が境界線3の
上下どちら側であるかを調べることによって、分離文字
を正解とするか統合文字を正解とするかを判断すること
ができる。
In FIG. 1, 1 is a set in which separated characters are correct answers, and 2 is a set in which integrated characters are correct answers. In the case of such a distribution, the boundary line 3 of Y = X is drawn, and it is checked which of the upper and lower sides of the boundary line 3 the magnitude relationship between the evaluation value of the integrated character and the average value of the evaluation values of the separated characters is. This makes it possible to determine whether the separated character is the correct answer or the integrated character is the correct answer.

【0020】しかし、実際の分布は、分離文字が正解の
集合と統合文字が正解の集合とが重なり、さらに、各集
合を最もよく分離する境界線がY=Xの境界線から上ま
たは下にずれていることがあり、分離文字の評価値の平
均値と統合文字の評価値との比較によって分離文字/統
合文字の選択を正しく行なうには、このような境界線の
ずれを補正する必要がある。請求項1記載の発明によれ
ば、分離文字の評価値もしくはその平均値または統合文
字の評価値に予め定められた適当な補正値を加算するこ
とによって、かかる境界線のずれが補正される。
However, the actual distribution is such that the set of separated characters that are correct and the set of integrated characters that are correct overlap each other, and the boundary that best separates each set is above or below the boundary of Y = X. There is a possibility that there is a deviation, and in order to correctly select the separated character / integrated character by comparing the average value of the separated character evaluation values with the integrated character evaluation value, it is necessary to correct such a boundary line deviation. is there. According to the first aspect of the invention, the deviation of the boundary line is corrected by adding a predetermined appropriate correction value to the evaluation value of the separated character or its average value or the evaluation value of the integrated character.

【0021】例えば、図2に示す分布の例では、各集合
1,2を最もよく分離する境界線4は、Y=Xの境界線
3をY方向にαだけ移動すればよい。請求項1記載の発
明によれば、分離文字の評価値の平均値と統合文字の評
価値との比較に先立って、分離文字の評価値もしくはそ
の平均値にプラスの補正値αが加算され、結果としてY
=Xの境界線3を上へαだけ移動させた境界線4によっ
て、分離文字/統合文字の選択が行なわれることにな
る。ただし、補正値がマイナス値ならば、統合文字の評
価値に補正値を加算することになる。
For example, in the example of the distribution shown in FIG. 2, the boundary line 4 that best separates the sets 1 and 2 may be obtained by moving the boundary line 3 of Y = X by α in the Y direction. According to the invention of claim 1, prior to the comparison between the average value of the separated character evaluation values and the integrated character evaluation value, a positive correction value α is added to the separated character evaluation value or the average value thereof. As a result Y
The boundary line 4 obtained by moving the boundary line 3 of = X upward by α selects the separated character / integrated character. However, if the correction value is a negative value, the correction value is added to the integrated character evaluation value.

【0022】そして、このような境界線の補正は(請求
項2乃至5の各項の発明における補正も同様である)、
補正値を加算することよって行なわれるため、1未満の
補正値の乗算(小数乗算)に比べ、必要な計算処理量が
はるかに減少し、処理も高速化できるという利点があ
る。また、評価値または評価値の平均値が小さい場合に
も大きい場合にも一定した補正幅で安定な補正が可能で
ある。
Then, the correction of such a boundary line (the same applies to the correction in the inventions of claims 2 to 5),
Since it is performed by adding the correction values, there is an advantage that the required calculation processing amount is much reduced and the processing can be speeded up as compared with the multiplication of the correction value less than 1 (decimal multiplication). Further, stable correction can be performed with a constant correction width regardless of whether the evaluation value or the average value of the evaluation values is small or large.

【0023】さて、図2の分布図に例示した如き各集合
1,2の重なり部分については、上に述べたような境界
線の補正によっても、分離文字/統合文字の選択精度の
それ以上の向上を期待できない。請求項2乃至5の各項
記載の発明は、個別の文字を考慮した評価値の補正処理
によって、かかる重なり部分についての選択精度の向上
を達成しようとするものである。
With respect to the overlapping portions of the sets 1 and 2 as illustrated in the distribution chart of FIG. 2, even if the boundary line correction as described above is performed, the separation character / integrated character selection accuracy is further improved. Can't expect improvement. The invention described in each of claims 2 to 5 is intended to achieve the improvement of the selection accuracy for the overlapping portion by the correction processing of the evaluation value in consideration of individual characters.

【0024】まず、請求項2記載の発明にあっては、分
離した文字としての認識結果の文字種と文字素サイズを
参照し、文字素サイズが半角文字相当サイズ以下で、か
つ認識結果の文字種が半角文字として不適当な文字種
(ひらがな、カタカナ、漢字)の場合には、統合した文
字の認識結果を優先させるように、補正値の加算が行な
われる(例えば、プラスの補正値を分離文字の評価値ま
たはその平均値に加算する)。このような補正によっ
て、「加」「化」「記」「請」等々、偏と旁に分離する
文字の誤認識を減らすことができる。
First, in the invention according to claim 2, the character type of the recognition result as a separated character and the character element size are referenced, and the character element size is equal to or less than the half-width character equivalent size and the character type of the recognition result is If the character type is inappropriate as half-width characters (Hiragana, Katakana, Kanji), the correction value is added to give priority to the recognition result of the integrated character (for example, a positive correction value is evaluated as a separated character. Value or its average). By such a correction, it is possible to reduce erroneous recognition of characters such as "addition", "ization", "writing", "contract", etc.

【0025】しかし、請求項2の発明によれば統合文字
が優先させられるような文字種にも、少数ではあるが、
分離文字が正解となる文字も存在する。例えば、ひかが
な、カタカナの中で、文字幅が小さな「く」「と」
「も」「り」「イ」「ィ」「ト」「ッ」「リ」などの文
字である。ただし、これは対象とするフォントによって
多少の変動があるので、フォントにあわせて調整する必
要がある。このような特定の文字について誤って統合文
字が選択されないように、請求項3記載の発明において
は、文字素のサイズが半角文字相当サイズ以下であり、
かつ分離文字の認識結果が半角文字として不適当な特定
の文字種に属しても、該分離文字の認識結果が予め指定
した文字でない場合に限って、該統合文字の認識結果を
優先させるように、補正値の加算が行なわれる。
However, according to the invention of claim 2, the number of character types in which the integrated character is prioritized is small,
There is also a character in which the separated character is the correct answer. For example, in hiragana and katakana, the width of the characters is small.
Characters such as "mo""ri""i""i""to""tsu""ri". However, this varies slightly depending on the target font, so it must be adjusted according to the font. In order to prevent the integrated character from being mistakenly selected for such a specific character, in the invention according to claim 3, the size of the character element is equal to or less than a half-width character equivalent size,
And even if the recognition result of the separated character belongs to an unsuitable specific character type as a half-width character, only when the recognition result of the separated character is not a previously designated character, the recognition result of the integrated character is prioritized, The correction value is added.

【0026】英数字は文字幅が狭いので、統合文字が選
択されるケースが多い。逆に、統合文字が正解で、分離
した2文字が両方とも英数字となるケースは少ない。請
求項4の発明では、かかる性質を利用して、英数字の誤
認識を防止しようとするものである。請求項1の発明に
より予め全体的に統合文字の選択優先度を高めるように
補正値の加算を行なっておいた場合に、特に、請求項4
の発明による補正が効果的である。
Since alphanumeric characters have a narrow character width, integrated characters are often selected. On the contrary, it is rare that the integrated character is the correct answer and the two separated characters are both alphanumeric. The invention according to claim 4 is intended to prevent erroneous recognition of alphanumeric characters by utilizing such a property. According to the invention of claim 1, when the correction value is added in advance so as to raise the selection priority of the integrated character as a whole,
The correction according to the invention is effective.

【0027】統合文字がローマ数字の場合、請求項4の
発明のよる補正では分離文字の選択優先度が高められる
ことによる誤認識が起こる可能性がある。請求項5の発
明によれば、分離文字が2文字とも英数字であっても統
合文字がローマ数字であるときは、分離文字の優先度を
高める補正を行なわないので、ローマ数字の認識精度を
高めることができる。
When the integrated character is a Roman numeral, the correction according to the invention of claim 4 may cause erroneous recognition due to the increased selection priority of the separated character. According to the invention of claim 5, when the integrated character is a Roman numeral even if both of the separated characters are alphanumeric, the correction for increasing the priority of the separated character is not performed. Can be increased.

【0028】なお、ここまでの説明及び後記実施例の説
明から理解されるように、請求項1乃至5の各項の発明
は、適宜組み合わせて実施し得るものである。
As will be understood from the above description and the description of the examples below, the inventions of the first to fifth aspects can be implemented in an appropriate combination.

【0029】前記各項記載の発明は、文字組合せの傾向
を大まかに補正しようとするものであるので、その補正
処理では結果が不確実となるケースがある。また、その
ようなケースの中には、分離文字と統合文字の認識結果
の組合せと、その正解とを予め特定できるケースが存在
する。請求項6の発明は、そのようなケースに関する特
定の認識結果の組合せと正解のルールをテーブル等の形
に記述しておき、段階でこれを参照することによっ
て、記述されているケースに該当する場合には直ちに正
解を選択し、段階及びを省略する。こうすることに
より、より確実な分離文字/統合文字の選択が可能とな
るとともに、処理の効率化、高速化を達成できる。
Since the inventions described in the above items are intended to roughly correct the tendency of character combinations, there are cases where the results are uncertain in the correction process. In addition, among such cases, there is a case in which the combination of the recognition results of the separated character and the integrated character and the correct answer can be specified in advance. The invention of claim 6 corresponds to the described case by describing a combination of specific recognition results and a correct rule regarding such a case in the form of a table or the like, and referring to this at a stage. In this case, select the correct answer immediately and omit steps and. By doing so, it is possible to more reliably select the separated character / integrated character, and it is possible to achieve the efficiency and speed of the processing.

【0030】なお、予め記述したルールに従って分離文
字/統合文字の選択を行なう手法の一例は、特開平1−
113239号公報に見られる。
An example of a method of selecting a separated character / integrated character according to a rule described in advance is disclosed in Japanese Patent Laid-Open No.
See, for example, 113239.

【0031】[0031]

【実施例】以下、図面を参照して本発明の一実施例を詳
細に説明する。図3は本発明による文字認識装置のブロ
ック構成の一例を示す。図12は、この文字認識装置の
文字切り出し以降の処理の概略を示すフローチャートで
ある。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention will be described in detail below with reference to the drawings. FIG. 3 shows an example of a block configuration of the character recognition device according to the present invention. FIG. 12 is a flowchart showing an outline of the processing after the character segmentation of this character recognition device.

【0032】図3において、2値画像入力部101はス
キャナ等より原稿の2値イメージデータを入力する。こ
の2値イメージデータはイメージメモリ102に記憶さ
れる。行切り出し部103はイメージメモリ102内の
2値イメージデータより行イメージを切り出す。文字切
り出し部104は、この行イメージより、垂直射影をと
る方法や黒画素の連結を追跡する方法等によって、文字
素を切り出す(図12のステップ201の処理)。この
文字素は、単独で一つの文字を構成する場合と文字の部
分を構成する場合とがある。文字組合せ生成部105
は、文字を構成する可能性のある文字素の組合せ(単独
の文字素も含む)を生成し、その組合せの情報を組合せ
情報メモリ106に書き込む(図12のステップ202
の処理)。
In FIG. 3, a binary image input unit 101 inputs binary image data of a document from a scanner or the like. This binary image data is stored in the image memory 102. The line cutout unit 103 cuts out a line image from the binary image data in the image memory 102. The character cutout unit 104 cuts out a character element from this line image by a method such as a vertical projection method or a method of tracking the connection of black pixels (the processing of step 201 in FIG. 12). This character element may be a single character or may be a character portion. Character combination generation unit 105
Generates a combination of character elements (including a single character element) that may form a character, and writes information on the combination in the combination information memory 106 (step 202 in FIG. 12).
Processing).

【0033】ある文字列中に現われた「加」の文字の処
理例を図4に示す。ここに示すように、漢字の「加」に
ついては、その左側の「カ」の部分に対応する文字素1
51と右側の「ロ」の部分に対応する文字素152とが
抽出される。そして、文字素151単独の文字(分離文
字左)、文字素152単独の文字(分離文字右)、文字
素151,152の組合せ文字(統合文字)とが生成さ
れるが、当然、正解は文字素151,152の組合せか
らなる統合文字である。
FIG. 4 shows a processing example of the character "add" appearing in a character string. As shown here, for the Chinese character “K”, the character element 1 corresponding to the “K” part on the left side
51 and the character element 152 corresponding to the right portion "b" are extracted. Then, a character including only the character element 151 (separated character left), a character including only the character element 152 (separated character right), and a combined character (integrated character) of the character elements 151 and 152 are generated. It is an integrated character composed of a combination of primes 151 and 152.

【0034】文字認識部107は、組合せ情報メモリ1
06の内容を参照することにより、各分離文字及び統合
文字をそれぞれ文字として、そのイメージをイメージメ
モリより読み込み、それぞれの特徴を抽出し、その特徴
を辞書108と照合することによって認識結果(文字コ
ード)と、その確からしさを表わす評価値とを求めて認
識情報メモリ109に格納する(図12のステップ20
3の処理)。
The character recognizing unit 107 includes a combination information memory 1
By referring to the content of 06, the separated character and the integrated character are treated as characters, the image is read from the image memory, the respective features are extracted, and the features are collated with the dictionary 108 to recognize the recognition result (character code ) And an evaluation value representing the certainty thereof are stored in the recognition information memory 109 (step 20 in FIG. 12).
Process 3).

【0035】本実施例では、文字サイズの影響を受けな
いようにするために、辞書との距離を輪郭数で除した値
が評価値として用いられる。したがって、評価値が小さ
いほど辞書との相違度が小さいことを意味する。なお、
辞書との類似度を評価値として用いることも可能である
が、これは値の大きさと辞書との相違度との関係が本実
施例で用いられる評価値とは逆になるので、後述の評価
値の大小比較による認識結果の選び方や、後述の補正値
の加算を分離文字/統合文字のいずれの側に行なうかの
決め方を適宜変更する必要がある。
In the present embodiment, a value obtained by dividing the distance from the dictionary by the number of contours is used as the evaluation value in order to avoid the influence of the character size. Therefore, the smaller the evaluation value, the smaller the degree of difference from the dictionary. In addition,
It is also possible to use the similarity with the dictionary as the evaluation value, but this is because the relationship between the magnitude of the value and the dissimilarity with the dictionary is opposite to the evaluation value used in the present embodiment, and therefore the evaluation described later It is necessary to appropriately change the method of selecting the recognition result by comparing the magnitudes of the values and the method of determining which side of the separated character / integrated character the correction value described later is added to.

【0036】補正/選択部110は、認識情報メモリ1
09内の情報及びルールテーブル111の内容を参照す
ることによって、最終的な認識結果の選択と、それに関
連する評価値の補正処理を行なう部分である(図12の
ステップ204の処理)。この処理は図12に示すよう
に5つのステップ204a〜204eに分けることがで
きる。以下、この処理の内容を説明する。
The correction / selection unit 110 includes the recognition information memory 1
By referring to the information in 09 and the contents of the rule table 111, the final selection of the recognition result and the correction process of the evaluation value related thereto are performed (the process of step 204 in FIG. 12). This process can be divided into five steps 204a to 204e as shown in FIG. The contents of this process will be described below.

【0037】まずステップ204aにおいて、分離文字
及び統合文字の認識結果の組合せとルールテーブル11
1に登録されている文字の組み合わせとを比較する。同
じ文字の組合せが見つかった場合には、当該文字組合せ
に関して記述されているルールに従って最終的な認識結
果を決定する。一致する文字組合せが見つからない場合
に限ってステップ204bの処理に進む。
First, in step 204a, the combination of the recognition results of the separated character and the integrated character and the rule table 11
The character combination registered in 1 is compared. When the same character combination is found, the final recognition result is determined according to the rules described for the character combination. Only when no matching character combination is found, the process proceeds to step 204b.

【0038】ルールテーブル111の内容の例を図6に
示す。例えば、分離文字左の認識結果が「イ」、分離文
字右の認識結果が「ヒ」、統合文字の認識結果が「化」
であったとする。この組合せはルールテーブル111の
「ルール1」と一致するが、ルール1の「選択」は”統
合”と記述されている。したがって、統合文字の認識結
果である「化」が最終的な認識結果として選ばれる。同
様に、分離文字左の認識結果が「弓」、分離文字右の認
識結果が「l」、統合文字が「引」の場合には、ルール
2と一致するが、ルール2の「選択」は”統合”と記述
されているので、最終的な認識結果として「引」が選ば
れる。
An example of the contents of the rule table 111 is shown in FIG. For example, the recognition result on the left of the separated character is "i", the recognition result on the right of the separated character is "hi", and the recognition result of the integrated character is "ka".
Assume that This combination matches the "rule 1" of the rule table 111, but the "selection" of the rule 1 is described as "integration". Therefore, "ka" which is the recognition result of the integrated character is selected as the final recognition result. Similarly, when the recognition result of the separated character left is “bow”, the recognition result of the separated character right is “l”, and the integrated character is “pull”, the rule 2 is matched, but the “selection” of the rule 2 is Since "Integration" is described, "Hiki" is selected as the final recognition result.

【0039】このようなルールを利用することによっ
て、頻繁に起こる分離/統合の判断を、ステップ204
b以降の評価値による処理によらず、確実迅速に行なう
ことが可能になる。なお、分離文字の認識結果でも統合
文字の認識結果でもない文字を最終的な認識とするルー
ルもあり得る。この点は、ステップ204eで分離文字
の認識結果または統合文字の認識結果のいずれか一方を
最終的な認識結果として選択することと異なる。
By utilizing such rules, the frequent separation / integration decisions are made in step 204.
It is possible to surely and quickly perform the processing regardless of the processing by the evaluation value after b. It should be noted that there may be a rule that a character that is neither a recognition result of a separated character nor a recognition result of an integrated character is the final recognition. This is different from selecting either the separated character recognition result or the integrated character recognition result as the final recognition result in step 204e.

【0040】ステップ204bからステップ204dは
評価値に対する補正処理のステップであり、ステップ2
04eは補正処理後の分離文字の評価値の平均値と統合
文字の評価値とを比較し、その値が小さい側の認識結果
を最終的な認識結果に選択する部分である。ステップ2
04の処理に関連して、例えば、認識情報メモリ109
上に、隣合う二つの文字素の組合せ毎に図5に示すよう
なデータ構造が一つ作られる。このデータ構造の要素
は、各分離文字と統合文字に対する「文字コード」「評
価値」「評価値補正」及び「判定」並びに分離文字に対
する「評価値平均値」及び「平均値補正」である。「文
字コード」と「評価値」には認識結果と評価値がそのま
ま格納される。「評価値補正」にはステップ204c及
び204dで評価値に加算されることになる補正値また
はその累積値が格納される。「平均値補正」には、ステ
ップ204bで補正値が格納される。「判定」には、ス
テップ204aまたはステップ204eで正解側にフラ
グが書き込まれる。なお、ステップ204aで決定した
正解が、認識結果とは異なる場合には、その正解の文字
コードによって「文字コード」が書き換えられる。
Steps 204b to 204d are steps of correction processing for the evaluation value, and Step 2
Reference numeral 04e is a part for comparing the average value of the evaluation values of the separated characters after the correction processing with the evaluation value of the integrated character, and selecting the recognition result on the side having the smaller value as the final recognition result. Step 2
In connection with the processing of 04, for example, the recognition information memory 109
One data structure as shown in FIG. 5 is created for each combination of two adjacent character elements. The elements of this data structure are "character code", "evaluation value", "evaluation value correction" and "judgment" for each separated character and integrated character, and "evaluation value average value" and "average value correction" for separated characters. The recognition result and the evaluation value are stored as they are in the “character code” and the “evaluation value”. The “evaluation value correction” stores the correction value or the cumulative value to be added to the evaluation value in steps 204c and 204d. In "average value correction", the correction value is stored in step 204b. In "determination", a flag is written on the correct answer side in step 204a or step 204e. If the correct answer determined in step 204a is different from the recognition result, the "character code" is rewritten with the character code of the correct answer.

【0041】さて、ステップ204bにおいては、分離
文字の評価値の平均値に、予め決められたプラスの補正
値α(例えば10)を加算する処理が行なわれる(統合
文字の選択優先度を上げる方向の補正がなされる)。実
際的には、この加算操作はステップ204eで実行さ
れ、ステップ204bの段階では図5に示したデータ構
造の分離文字左及び分離文字右に対する「平均値補正」
に補正値αが書き込まれる。
In step 204b, a process of adding a predetermined plus correction value α (for example, 10) to the average value of the evaluation values of the separated characters is performed (in the direction of increasing the selection priority of integrated characters). Will be corrected). Practically, this addition operation is executed in step 204e, and in the step 204b, "average value correction" is performed on the separated character left and the separated character right of the data structure shown in FIG.
The correction value α is written in.

【0042】一例を挙げると、ある文字列中に現われた
漢字の「化」を認識する場合、図7に示すように、認識
結果として分離文字左の「イ」、分離文字右の「ヒ」、
統合文字の「化」が得られ、また、それぞれの評価値と
して65、75、70が得られたとする。ステップ20
4b〜204dで補正が加えられないとすると、分離文
字左右の評価値の平均値及び統合文字の評価値は共に7
0となる。
As an example, when recognizing the "ka" of a kanji appearing in a certain character string, as shown in FIG. 7, the separated character "i" on the left and the separated character "hi" on the right. ,
It is assumed that the integrated character “” is obtained, and the evaluation values of 65, 75, and 70 are obtained. Step 20
4b to 204d, if the correction is not added, the average value of the evaluation values on the left and right of the separated character and the evaluation value of the integrated character are both 7
It becomes 0.

【0043】分離文字が文字として可能な文字では、統
合文字も分離文字も評価値が小さくなるので、このよう
なケースはよく起こる。そこで、ステップ204bで、
分離文字の平均値に補正値α=10を加算すれば、図7
に示した例では、分離文字の評価値の平均値が80に増
加し、相対的に統合文字の評価値が下がり(統合文字の
認識結果が選択優先度が上がり)、結果としてステップ
204eで統合文字が正しく選択されるようになる。
In the case of a character that can be a separated character, the evaluation value of both the integrated character and the separated character is small, so such a case often occurs. So, in step 204b,
If the correction value α = 10 is added to the average value of the separated characters, FIG.
In the example shown in, the average value of the evaluation values of the separated characters is increased to 80, and the evaluation value of the integrated character is relatively decreased (the recognition result of the integrated character has a higher selection priority). As a result, the integrated characters are integrated in step 204e. Characters will be selected correctly.

【0044】ステップ204cにおいては、分離文字
(文字素)のサイズが半角文字相当のサイズ以下で、か
つ分離文字の認識結果が半角文字として不適当な文字種
(ひらがな、カタカナ、漢字)であれば、統合文字の選
択優先度を高めるために、プラスの補正値β(例えば1
0)を分離文字の評価値に加算する。実際的には、図5
に示したデータ構造の分離文字左と分離文字右の「評価
値補正」の値(初期値は0)に補正値βを加算する。た
だし、文字素サイズが半角文字相当以下でかつ分離文字
の認識結果が半角文字不適当文字種であっても、その認
識結果が文字幅の狭い特定の文字(例えば、「く」
「と」「も」「り」「イ」「ィ」「ト」「ッ」「リ」な
ど)であるときには、この補正値βの加算を行なわな
い、という例外処理がある。
In step 204c, if the size of the separated character (character element) is equal to or smaller than the size corresponding to the one-byte character and the recognition result of the separated character is an unsuitable character type (hiragana, katakana, kanji), In order to increase the selection priority of integrated characters, a positive correction value β (for example, 1
0) is added to the evaluation value of the separated character. Practically, FIG.
The correction value β is added to the values of the “evaluation value correction” (initial value is 0) on the left and right of the separated characters in the data structure shown in FIG. However, even if the character element size is equal to or less than the half-width character and the recognition result of the separated character is an unsuitable half-width character type, the recognition result is a specific character with a narrow character width (for example, "ku").
There is an exceptional process in which the correction value β is not added when “to”, “mo”, “ri”, “i”, “i”, “to”, “tsu”, “ri”, etc.).

【0045】このステップ204cによる補正の目的に
ついて、具体例により説明する。なお、理解を容易にす
るため、直前のステップ204b及び直後のステップ2
04dの補正がなされないものとして説明する。
The purpose of the correction in step 204c will be described with reference to a concrete example. In order to facilitate understanding, immediately before step 204b and immediately after step 2
The description will be made assuming that the correction of 04d is not performed.

【0046】一例として、ある文字列中に現われた漢字
「記」を処理する場合を考える。図8に示すように、分
離文字左の認識結果は「言」で、その評価値は60、分
離文字右の認識結果は「己」で、その評価値は70、統
合文字の認識結果は「記」で、その評価値は70となっ
たとする。また、文字素のサイズ(文字幅)は全角文字
の半分程度で「半角サイズ」と判断されるとする。しか
し、分離文字左の認識結果の「言」は漢字で、半角サイ
ズが不適当な文字種に属するので、それが選択されにく
くするために、つまり統合文字の選択優先度を高めるた
めに、分離文字左の「評価値補正」に補正値β=10を
加算する。分離文字右も同様であるので、その「評価値
補正」に補正値β=10を加算する。
As an example, consider the case of processing the Chinese character "ki" appearing in a certain character string. As shown in FIG. 8, the recognition result of the separated character left is “Koto”, the evaluation value thereof is 60, the recognition result of the separated character right is “O”, the evaluation value thereof is 70, and the recognition result of the integrated character is “ Note that the evaluation value is 70. Further, it is assumed that the size of a character element (character width) is about half of a full-width character and is determined to be “half-width size”. However, the word "Koto" in the recognition result to the left of the separated character is Kanji and belongs to a character type with an incorrect half-size character. Therefore, in order to prevent it from being selected, that is, to increase the selection priority of integrated characters, The correction value β = 10 is added to the “evaluation value correction” on the left. Since the same applies to the right of the separated character, the correction value β = 10 is added to the “evaluation value correction”.

【0047】したがって、分離文字の「評価値」の値に
「評価値補正」の値を加算した後の値の平均値は75と
なり、統合文字の「評価値」の値70より大きくなり、
結果として正解である統合文字の認識結果「記」が最終
的な認識結果として選択されることになる。
Therefore, the average value of the values after adding the value of "evaluation value correction" to the value of "evaluation value" of the separated character is 75, which is larger than the value 70 of "evaluation value" of the integrated character,
As a result, the correct recognition result "" of the integrated character is selected as the final recognition result.

【0048】これに対して、この補正値βの加算を行な
わないと、分離文字の評価値の平均値は65となり統合
文字の表価値70より小さいので分離文字が誤って選択
されてしまう。このような誤りはステップ204cの補
正によって起き難くなる。
On the other hand, if the correction value β is not added, the average value of the evaluation values of the separated characters becomes 65, which is smaller than the table value 70 of the integrated characters, so that the separated characters are erroneously selected. Such an error is less likely to occur by the correction in step 204c.

【0049】次に、上記例外処理につい具体的に説明す
る。一例として、ある文字列中に現われた「イト」なる
文字列を処理する場合を考える。この文字列「イト」の
各文字はそれぞれ単独の文字であるが、幅が狭い文字で
あるので、プロポーショナルピッチで印字されると文字
間が詰まり、それらの統合された文字が生成される場合
がある。また、それぞれの文字は縦長であるので、半角
サイズと判断されることがある。
Next, the exception processing will be specifically described. As an example, consider the case of processing a character string "ito" appearing in a character string. Each character in this string "ito" is a single character, but since it is a character with a narrow width, when printed at proportional pitch, the spaces between the characters may be clogged, and these integrated characters may be generated. is there. In addition, since each character is vertically long, it may be determined to be a half-size character.

【0050】この文字列「イト」について図9に示すよ
うな認識結果と評価値が得られている場合、図8の例と
同様に分離文字「イ」「ト」の評価値に補正値β=10
が加算されると、分離文字の評価値の平均値が統合文字
の評価値より大きくなる結果、統合文字「イト」が選択
されてしまう。しかし、この分離文字「イ」「ト」は例
外処理の対象となる特定文字に該当するので、それぞれ
の評価値に補正値β=10は加算されない。したがっ
て、分離文字の評価値の平均値は70で統合文字の評価
値75より小さくなる結果、統合文字の認識結果ではな
く分離文字の認識結果である「イ」「ト」が正しく選択
される。
When the recognition result and the evaluation value as shown in FIG. 9 are obtained for this character string "ito", the correction value β is added to the evaluation value of the separated characters "a" and "to" as in the example of FIG. = 10
Is added, the average value of the evaluation values of the separated characters becomes larger than the evaluation value of the integrated character, so that the integrated character “Ito” is selected. However, since the separated characters “a” and “to” correspond to the specific character that is the target of the exception processing, the correction value β = 10 is not added to each evaluation value. Therefore, the average value of the evaluation values of the separated characters is 70, which is smaller than the evaluation value 75 of the integrated characters. As a result, "i" and "to", which are the recognition results of the separated characters, are correctly selected instead of the recognition results of the integrated characters.

【0051】次のステップ204dにおいては、二つの
分離文字の認識結果が両方とも英字または数字である場
合に、分離文字の認識結果の選択優先度を高めるため
に、統合文字の評価値にプラスの補正値γ(例えば1
0)を加算する。実際的には、図5に示したデータ構造
の統合文字に対する「評価値補正」の値(初期値は0)
に補正値γ=10を加算する。ただし、分離文字の認識
結果が両方とも英字または数字であっても、統合文字の
認識結果がローマ数字である場合には、この補正値γの
加算を行なわない、という例外処理がある。
In the next step 204d, when the recognition results of the two separated characters are both letters or numbers, a positive value is added to the evaluation value of the integrated character in order to increase the selection priority of the recognition result of the separated characters. Correction value γ (for example, 1
0) is added. Practically, the value of "evaluation value correction" for the integrated character of the data structure shown in FIG. 5 (initial value is 0)
The correction value γ = 10 is added to. However, there is an exception process in which the correction value γ is not added when the recognition result of the integrated character is a Roman numeral even if both recognition results of the separated characters are alphabetic characters or numbers.

【0052】このステップ204dによる補正の目的に
ついて、具体例により説明する。なお、理解を容易にす
るため、ステップ204b,204cの補正がなされな
いものとして説明する。
The purpose of the correction in step 204d will be described with reference to a concrete example. In addition, in order to facilitate understanding, it is assumed that the corrections in steps 204b and 204c are not performed.

【0053】一例として、ある文字列中に現われた「2
5」なる文字列を処理する場合を考える。「2」「5」が
それぞれ半角サイズで印刷された文字であると、文字幅
が狭いために統合文字「25」が生成される。
As an example, "2 appearing in a character string
Consider the case of processing the character string "5". When the characters "2" and "5" are printed in half-size characters, the integrated character "25" is generated because the character width is narrow.

【0054】図10に示すように、分離文字の認識結果
が「2」と「5」、その評価値が45と65、統合文字
の認識結果が「幻」、その評価値が50であるとする。
したがって、補正をしない場合には、分離文字の評価値
の平均値55は統合文字の評価値50より大きいので、
統合文字「25」が選択されてしまい、これは正解ではな
い。しかし、分離文字の認識結果が両方ともに数字であ
るので、統合文字の評価値に補正値γ=10が加算され
る結果、この加算後の統合文字の評価値は60に増加し
分離文字の評価値の平均値55より大きくなるため、分
離文字の認識結果「2」「5」が正しく選択されること
になる。
As shown in FIG. 10, when the recognition results of the separated characters are "2" and "5", the evaluation values thereof are 45 and 65, the recognition result of the integrated characters is "phantom", and the evaluation value thereof is 50. To do.
Therefore, when the correction is not performed, the average value 55 of the separated character evaluation values is larger than the integrated character evaluation value 50.
The integrated character “25” is selected, which is not the correct answer. However, since the recognition results of the separated characters are both numbers, the correction value γ = 10 is added to the evaluation value of the integrated character, and as a result, the evaluation value of the integrated character after this addition is increased to 60 and the evaluation of the separated character is performed. Since the average value of the values is larger than 55, the recognition results “2” and “5” of the separated character are correctly selected.

【0055】次に、上記例外処理につい具体的に説明す
る。一例として、ある文字列中に現われたローマ数字
「IV」を処理する場合を考える。このローマ数字は1文
字であるが、文字切り出しによって「I」と「V」という
2つの文字素に分離し、それぞれが文字として生成され
るとともに、その統合された文字「IV」も生成される。
各分離文字及び統合文字の認識結果と評価値が図11に
示すようになった場合、上に述べたように分離文字が両
方とも英字であるとして、統合文字の評価値に補正値γ
=10が加算されてしまうと、その加算後の評価値が6
0となって分離文字の評価値の平均値55より大きくな
る結果、分離文字の認識結果が誤って選択されてしま
う。しかし、統合文字の認識結果はローマ数字「IV」で
あって上記例外処理に該当するので、統合文字の評価値
への補正値γの加算は行なわれない結果、分離文字の評
価値の平均値55より統合文字の評価値50のほうが小
さくなるため、統合文字の認識結果が正しく選択される
こととなる。
Next, the exception processing will be specifically described. As an example, consider the case of processing a Roman numeral “IV” that appears in a character string. This Roman numeral is one character, but it is separated into two character elements "I" and "V" by character cutting and each is generated as a character, and the integrated character "IV" is also generated. .
When the recognition result and the evaluation value of each separated character and integrated character are as shown in FIG. 11, it is assumed that both separated characters are alphabetic characters as described above, and the correction value γ is added to the integrated character evaluation value.
== 10 is added, the evaluation value after the addition is 6
As a result of becoming 0 and becoming larger than the average value 55 of the separated character evaluation values, the separated character recognition result is erroneously selected. However, since the recognition result of the integrated character is Roman numeral “IV” and corresponds to the above exception processing, the correction value γ is not added to the evaluation value of the integrated character, and as a result, the average value of the evaluation values of the separated characters is obtained. Since the integrated character evaluation value 50 is smaller than 55, the integrated character recognition result is correctly selected.

【0056】ステップ204eにおいては、以上の補正
処理後の分離文字の評価値の平均値と統合文字の評価値
とを比較し、その値が小さいほうの認識結果を最終的な
認識結果として選択する。具体的には、図5に示したデ
ータ構造中の分離文字左、分離文字右の「評価値」の値
に「評価値補正」の値を加算してから、その平均値を求
め、この平均値に「平均値補正」の値を加算して補正平
均値を求める。また、統合文字の「評価値」の値に「評
価値補正」の値を加算して補正評価値を求める。そし
て、 分離文字の補正平均値<統合文字の補正評価値 のときには、分離文字の認識結果を最終的な認識結果と
して選択し、分離文字の「判定」にフラグを立てる。そ
うでないときには、統合文字の認識結果を最終的な認識
結果として選択し、統合文字の「判定」にフラグを立て
る。
In step 204e, the average value of the evaluation values of the separated characters after the above correction processing is compared with the evaluation value of the integrated character, and the recognition result with the smaller value is selected as the final recognition result. . Specifically, after adding the value of "evaluation value correction" to the value of "evaluation value" on the left and right of the separated characters in the data structure shown in FIG. 5, the average value is calculated, and this average is calculated. The value of "average value correction" is added to the value to obtain the corrected average value. Further, the value of "evaluation value correction" is added to the value of "evaluation value" of the integrated character to obtain a corrected evaluation value. When the corrected average value of the separated characters <the corrected evaluation value of the integrated characters, the recognition result of the separated characters is selected as the final recognition result, and the “judgment” of the separated characters is flagged. If not, the recognition result of the integrated character is selected as the final recognition result, and the "judgment" of the integrated character is flagged.

【0057】このようにして得られた最終的な認識結果
は、結果出力部112より出力される。具体的には、認
識情報メモリ109内の図5に示したデータ構造を参照
し、統合文字の「判定」にフラグが立っている場合に
は、統合文字の「文字コード」のコードを出力し、分離
文字の「判定」にフラグが立っている場合には、分離文
字左及び分離文字右の「文字コード」のコードを出力す
る。
The final recognition result thus obtained is output from the result output unit 112. Specifically, referring to the data structure shown in FIG. 5 in the recognition information memory 109, if the flag of “judgment” of the integrated character is set, the code of the “character code” of the integrated character is output. If a flag is set in the "judgment" of the separated character, the code of the "character code" of the separated character left and the separated character right is output.

【0058】なお、以上の説明では図5に示したような
データ構造を用いるとしたが、これは一例に過ぎないも
のであって、具体的な処理アルゴリズムとデータ構造は
適宜変更して構わないものである。
In the above description, the data structure as shown in FIG. 5 is used, but this is only an example, and the specific processing algorithm and data structure may be appropriately changed. It is a thing.

【0059】[0059]

【発明の効果】請求項1乃至6の各項記載の発明によれ
ば、文字の誤分離または誤統合による認識誤りを減ら
し、認識率を向上させることができるとともに、認識結
果の評価値の補正は処理量の少ない加算操作によるた
め、高速の処理が可能であるという効果を得られる。請
求項2記載の発明によれば、文字素サイズと認識結果の
文字種との関係に着目することによって、偏と旁に分離
する文字や半角文字の誤認識を減らすことができる。請
求項3記載の発明によれば、請求項2記載の発明では誤
りが生じるような幅の狭い特定の文字の誤認識を減らす
ことができる。請求項4記載の発明によれば、英数字の
誤認識を減らすことができる。請求項5記載の発明によ
れば、ローマ数字の誤認識を減らすことができる。請求
項6記載の発明によれば、請求項1乃至5の各項記載の
発明によっては誤認識を防止できない文字や、分離また
は統合を予測できる文字に関して、少ない処理量で誤認
識を確実に防止することができる。
According to the invention described in each of claims 1 to 6, it is possible to reduce the recognition error due to the erroneous separation or merging of characters, improve the recognition rate, and correct the evaluation value of the recognition result. Is an addition operation that requires a small amount of processing, so that high-speed processing can be achieved. According to the second aspect of the present invention, by paying attention to the relationship between the character element size and the character type of the recognition result, it is possible to reduce erroneous recognition of a character or a half-width character that is separated into a bias and a drought. According to the invention described in claim 3, in the invention described in claim 2, it is possible to reduce erroneous recognition of a specific character having a narrow width that causes an error. According to the invention described in claim 4, it is possible to reduce erroneous recognition of alphanumeric characters. According to the invention described in claim 5, it is possible to reduce erroneous recognition of Roman numerals. According to the invention as set forth in claim 6, it is possible to reliably prevent erroneous recognition with a small processing amount for a character that cannot be erroneously recognized by the inventions as claimed in each of claims 1 to 5 or a character for which separation or integration can be predicted. can do.

【図面の簡単な説明】[Brief description of drawings]

【図1】分離文字が正解の集合と統合文字が正解の集合
の分布例を、分離文字/統合文字の選択と関連付けて示
す図である。
FIG. 1 is a diagram showing a distribution example of a set in which a separated character is a correct answer and a set in which an integrated character is a correct answer in association with selection of a separated character / integrated character.

【図2】分離文字が正解の集合と統合文字が正解の集合
の分布例を、分離文字/統合文字の選択と関連付けて示
す図である。
FIG. 2 is a diagram showing a distribution example of a set in which a separated character is a correct answer and a set in which an integrated character is a correct answer, in association with selection of a separated character / integrated character.

【図3】本発明による文字認識装置の構成例を示すブロ
ック図である。
FIG. 3 is a block diagram showing a configuration example of a character recognition device according to the present invention.

【図4】文字素の切り出しと文字組合せ生成の説明のた
めの図である。
FIG. 4 is a diagram for explaining extraction of a character element and generation of a character combination.

【図5】認識情報のデータ構造の一例を示す図である。FIG. 5 is a diagram showing an example of a data structure of recognition information.

【図6】ルールテーブルの一例を示す図である。FIG. 6 is a diagram showing an example of a rule table.

【図7】分離文字及び統合文字の認識結果、評価値等の
例を示す図である。
FIG. 7 is a diagram showing an example of recognition results of separated characters and integrated characters, evaluation values, and the like.

【図8】分離文字及び統合文字の認識結果、評価値等の
例を示す図である。
FIG. 8 is a diagram showing an example of recognition results of separated characters and integrated characters, evaluation values, and the like.

【図9】分離文字及び統合文字の認識結果、評価値等の
例を示す図である。
FIG. 9 is a diagram showing examples of recognition results of separated characters and integrated characters, evaluation values, and the like.

【図10】分離文字及び統合文字の認識結果、評価値等
の例を示す図である。
FIG. 10 is a diagram showing examples of recognition results of separated characters and integrated characters, evaluation values, and the like.

【図11】分離文字及び統合文字の認識結果、評価値等
の例を示す図である。
FIG. 11 is a diagram showing an example of recognition results of separated characters and integrated characters, evaluation values, and the like.

【図12】文字切り出しから最終的認識結果の決定まで
の処理概要を示すフローチャートである。
FIG. 12 is a flowchart showing an outline of processing from character extraction to determination of a final recognition result.

【符号の説明】[Explanation of symbols]

101 2値画像入力部 102 イメージメモリ 103 行切り出し部 104 文字切り出し部 105 文字組合せ生成部 106 組合せ情報メモリ 107 文字認識部 108 辞書 109 認識情報メモリ 110 補正/選択部 111 ルールテーブル 112 結果出力部 101 binary image input unit 102 image memory 103 line cutout unit 104 character cutout unit 105 character combination generation unit 106 combination information memory 107 character recognition unit 108 dictionary 109 recognition information memory 110 correction / selection unit 111 rule table 112 result output unit

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】 画像より抽出された隣合う二つの文字素
に対して二つの分離した文字としての文字認識及び一つ
の統合した文字としての文字認識を行ない、該分離した
文字の認識結果及びその確からしさを表わす評価値並び
に該統合した文字の認識結果及びその確からしさを表わ
す評価値を得る段階と、該分離した文字の評価値及び
該統合した文字の評価値に対する補正処理を行なう段階
と、該補正処理後の該分離した文字の評価値の平均値
と該統合した文字の評価値との大小関係に従って、該分
離した文字の認識結果または該統合した文字の認識結果
を最終的な認識結果として選択する段階とを有し、該
補正処理の段階において、該分離した文字の評価値も
しくはその平均値または該統合した文字の評価値に補正
値が加算されることを特徴とする文字認識方法。
1. A character recognition as two separated characters and a character recognition as one integrated character are performed for two adjacent character elements extracted from an image, and the recognition result of the separated characters and the recognition result Obtaining an evaluation value representing the certainty and a recognition result of the integrated character and an evaluation value representing the certainty, and performing a correction process for the evaluation value of the separated character and the integrated character evaluation value, A final recognition result of the recognition result of the separated character or the recognition result of the integrated character according to the magnitude relationship between the average value of the evaluation values of the separated character after the correction process and the evaluation value of the integrated character. And a correction value is added to the evaluation value of the separated character or its average value or the evaluation value of the integrated character in the correction processing step. Character recognition method.
【請求項2】 画像より抽出された隣合う二つの文字素
に対して二つの分離した文字としての文字認識及び一つ
の統合した文字としての文字認識を行ない、該分離した
文字の認識結果及びその確からしさを表わす評価値並び
に該統合した文字の認識結果及びその確からしさを表わ
す評価値を得る段階と、該分離した文字の評価値及び
該統合した文字の評価値に対する補正処理を行なう段階
と、該補正処理後の該分離した文字の評価値の平均値
と該統合した文字の評価値との大小関係に従って、該分
離した文字の認識結果または該統合した文字の認識結果
を最終的な認識結果として選択する段階とを有し、該
補正処理の段階において、該文字素のサイズが半角文
字相当サイズ以下であり、かつ分離した文字の認識結果
が半角文字として不適当な特定の文字種に属する場合
に、該統合した文字の認識結果の選択される優先度を高
めるために、該分離した文字の評価値もしくはその平均
値または該統合した文字の評価値に補正値が加算される
ことを特徴とする文字認識方法。
2. A character recognition as two separated characters and a character recognition as one integrated character are performed for two adjacent character elements extracted from an image, and the recognition result of the separated characters and the recognition result thereof. Obtaining an evaluation value representing the certainty and a recognition result of the integrated character and an evaluation value representing the certainty, and performing a correction process for the evaluation value of the separated character and the integrated character evaluation value, A final recognition result of the recognition result of the separated character or the recognition result of the integrated character according to the magnitude relationship between the average value of the evaluation values of the separated character after the correction process and the evaluation value of the integrated character. In the correction step, the size of the character element is equal to or smaller than the half-width character equivalent size, and the recognition result of the separated character is unsuitable as the half-width character. When the character belongs to a fixed character type, a correction value is added to the evaluation value of the separated character or its average value or the evaluation value of the integrated character in order to increase the selected priority of the recognition result of the integrated character. Character recognition method characterized by being performed.
【請求項3】 画像より抽出された隣合う二つの文字素
に対して二つの分離した文字としての文字認識及び一つ
の統合した文字としての文字認識を行ない、該分離した
文字の認識結果及びその確からしさを表わす評価値並び
に該統合した文字の認識結果及びその確からしさを表わ
す評価値を得る段階と、該分離した文字の評価値及び
該統合した文字の評価値に対する補正処理を行なう段階
と、該補正処理後の該分離した文字の評価値の平均値
と該統合した文字の評価値との大小関係に従って、該分
離した文字の認識結果または該統合した文字の認識結果
を最終的な認識結果として選択する段階とを有し、該
補正処理の段階において、該文字素のサイズが半角文
字相当サイズ以下であり、かつ分離した文字の認識結果
が半角文字として不適当な特定の文字種に属し、かつ、
該分離した文字の認識結果が予め指定した文字でない場
合に、該統合した文字の認識結果の選択される優先度を
高めるために、該分離した文字の評価値もしくはその平
均値または該統合した文字の評価値に補正値が加算され
ることを特徴とする文字認識方法。
3. A character recognition as two separated characters and a character recognition as one integrated character are performed for two adjacent character elements extracted from an image, and the recognition result of the separated characters and the recognition result thereof. Obtaining an evaluation value representing the certainty and a recognition result of the integrated character and an evaluation value representing the certainty, and performing a correction process for the evaluation value of the separated character and the integrated character evaluation value, A final recognition result of the recognition result of the separated character or the recognition result of the integrated character is obtained according to the magnitude relationship between the average value of the evaluation values of the separated characters after the correction processing and the evaluation value of the integrated character. In the correction step, the size of the character element is equal to or smaller than the half-width character equivalent size, and the recognition result of the separated character is unsuitable as the half-width character. Belongs to a certain character type, and
When the recognition result of the separated characters is not a predetermined character, the evaluation value of the separated characters or the average value thereof or the integrated character is increased in order to increase the priority of selection of the recognition result of the integrated characters. A character recognition method characterized in that a correction value is added to the evaluation value of.
【請求項4】 画像より抽出された隣合う二つの文字素
に対して二つの分離した文字としての文字認識及び一つ
の統合した文字としての文字認識を行ない、該分離した
文字の認識結果及びその確からしさを表わす評価値並び
に該統合した文字の認識結果及びその確からしさを表わ
す評価値を得る段階と、該分離した文字の評価値及び
該統合した文字の評価値に対する補正処理を行なう段階
と、該補正処理後の該分離した文字の評価値の平均値
と該統合した文字の評価値との大小関係に従って、該分
離した文字の認識結果または該統合した文字の認識結果
を最終的な認識結果として選択する段階とを有し、該
補正処理の段階において、該二つの分離した文字の認
識結果が両方とも英字または数字である場合に、該分離
した文字の認識結果の選択される優先度を高めるため
に、該統合した文字の評価値または該分離した文字の評
価値もしくはその平均値に補正値が加算されることを特
徴とする文字認識方法。
4. The character recognition as two separated characters and the character recognition as one integrated character are performed on two adjacent character elements extracted from an image, and the recognition result of the separated characters and the recognition result Obtaining an evaluation value representing the certainty and a recognition result of the integrated character and an evaluation value representing the certainty, and performing a correction process for the evaluation value of the separated character and the integrated character evaluation value, A final recognition result of the recognition result of the separated character or the recognition result of the integrated character according to the magnitude relationship between the average value of the evaluation values of the separated character after the correction process and the evaluation value of the integrated character. And a step of selecting the recognition result of the separated characters when both of the recognition results of the two separated characters are alphabetic characters or numbers in the correction step. A character recognition method, wherein a correction value is added to an evaluation value of the integrated character or an evaluation value of the separated character or an average value thereof in order to increase the priority of the character recognition.
【請求項5】 画像より抽出された隣合う二つの文字素
に対して二つの分離した文字としての文字認識及び一つ
の統合した文字としての文字認識を行ない、該分離した
文字の認識結果及びその確からしさを表わす評価値並び
に該統合した文字の認識結果及びその確からしさを表わ
す評価値を得る段階と、該分離した文字の評価値及び
該統合した文字の評価値に対する補正処理を行なう段階
と、該補正処理後の該分離した文字の評価値の平均値
と該統合した文字の評価値との大小関係に従って、該分
離した文字の認識結果または該統合した文字の認識結果
を最終的な認識結果として選択する段階とを有し、該
補正処理の段階において、該二つの分離した文字の認
識結果が両方とも英字または数字であり、かつ、該統合
した文字の認識結果がローマ数字でない場合に、該分離
した文字の認識結果の選択される優先度を高めるため
に、該統合した文字の評価値または該分離した文字の評
価値もしくはその平均値に補正値が加算されることを特
徴とする文字認識方法。
5. The character recognition as two separated characters and the character recognition as one integrated character are performed on two adjacent character elements extracted from an image, and the recognition result of the separated characters and the recognition result thereof. Obtaining an evaluation value representing the certainty and a recognition result of the integrated character and an evaluation value representing the certainty, and performing a correction process for the evaluation value of the separated character and the integrated character evaluation value, A final recognition result of the recognition result of the separated character or the recognition result of the integrated character according to the magnitude relationship between the average value of the evaluation values of the separated character after the correction process and the evaluation value of the integrated character. In the correction step, the recognition results of the two separated characters are both letters or numbers, and the integrated character recognition result is a Roman character. When it is not a number, a correction value is added to the evaluation value of the integrated character or the evaluation value of the separated character or its average value in order to increase the priority of the recognition result of the separated character selected. Character recognition method characterized by.
【請求項6】 請求項1,2,3,4または5記載の文
字認識方法において、該補正処理の段階に先立って、
該分離した文字としての認識結果と該統合した文字とし
ての認識結果の組合せが予め定められた複数の特定文字
組合せの一つと一致するか調べ、一致した場合に該一致
した特定文字組合せに関し予め定められたルールに従っ
て最終的な認識結果を決定する段階を有し、該段階
により最終的な認識結果が選択されない場合にのみ該段
階及び該段階が実行されることを特徴とする文字認
識方法。
6. The character recognition method according to claim 1, 2, 3, 4 or 5, wherein prior to the step of correction processing,
It is determined whether the combination of the recognition result as the separated character and the recognition result as the integrated character matches one of a plurality of predetermined specific character combinations, and if they match, the predetermined specific character combination is predetermined. A character recognition method, comprising: determining a final recognition result according to a rule set, and performing the step and the step only when the final recognition result is not selected by the step.
JP7012795A 1995-01-30 1995-01-30 Character recognition method Pending JPH08202827A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7012795A JPH08202827A (en) 1995-01-30 1995-01-30 Character recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7012795A JPH08202827A (en) 1995-01-30 1995-01-30 Character recognition method

Publications (1)

Publication Number Publication Date
JPH08202827A true JPH08202827A (en) 1996-08-09

Family

ID=11815339

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7012795A Pending JPH08202827A (en) 1995-01-30 1995-01-30 Character recognition method

Country Status (1)

Country Link
JP (1) JPH08202827A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008217348A (en) * 2007-03-02 2008-09-18 Canon Inc Character recognition device, character recognition method and computer program
JP2014211799A (en) * 2013-04-19 2014-11-13 富士通株式会社 Information processing apparatus, program, and form recognition method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008217348A (en) * 2007-03-02 2008-09-18 Canon Inc Character recognition device, character recognition method and computer program
JP2014211799A (en) * 2013-04-19 2014-11-13 富士通株式会社 Information processing apparatus, program, and form recognition method

Similar Documents

Publication Publication Date Title
US8565474B2 (en) Paragraph recognition in an optical character recognition (OCR) process
US5664027A (en) Methods and apparatus for inferring orientation of lines of text
JP2734386B2 (en) String reader
US20110280481A1 (en) User correction of errors arising in a textual document undergoing optical character recognition (ocr) process
JP3485020B2 (en) Character recognition method and apparatus, and storage medium
JP2000315247A (en) Character recognizing device
JPH0634256B2 (en) Contact character cutting method
Lin et al. A text line detection method for mathematical formula recognition
Fateh et al. Enhancing optical character recognition: Efficient techniques for document layout analysis and text line detection
JP5041775B2 (en) Character cutting method and character recognition device
JPH08202827A (en) Character recognition method
Baird Global-to-local layout analysis
JP2915175B2 (en) Word space detection method
JP3086264B2 (en) Character space recognition method
Ribeiro et al. Ancient Document Recognition Using Fuzzy Methods.
JP3033904B2 (en) Character recognition post-processing method
JP3093397B2 (en) Character recognition method
van Laarhoven Text recognition in printed historical documents
JP3195405B2 (en) Character recognition device
JP2851102B2 (en) Character extraction method
JPH0950488A (en) Method for reading different size characters coexisting character string
JPH01171080A (en) Recognizing device for error automatically correcting character
JPH06119497A (en) Character recognizing method
JP3377719B2 (en) Character recognition device and computer-readable recording medium
JP3595081B2 (en) Character recognition method