JP5176763B2 - Low quality character identification method and apparatus - Google Patents

Low quality character identification method and apparatus Download PDF

Info

Publication number
JP5176763B2
JP5176763B2 JP2008199755A JP2008199755A JP5176763B2 JP 5176763 B2 JP5176763 B2 JP 5176763B2 JP 2008199755 A JP2008199755 A JP 2008199755A JP 2008199755 A JP2008199755 A JP 2008199755A JP 5176763 B2 JP5176763 B2 JP 5176763B2
Authority
JP
Japan
Prior art keywords
candidate character
character code
code group
identification
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008199755A
Other languages
Japanese (ja)
Other versions
JP2009037621A (en
Inventor
俊 孫
開竹 黄
悦伸 堀田
克仁 藤本
聡 直井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2009037621A publication Critical patent/JP2009037621A/en
Application granted granted Critical
Publication of JP5176763B2 publication Critical patent/JP5176763B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、低品質文字(Degraded Character)の識別方法及び装置に関し、特に、ラージサイズクラス(スーパーマルチクラスとも称する)の印刷活字、例えば中国語、日本語、又は韓国語を識別するための文字識別方法及び装置に関する。   BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method and an apparatus for identifying a degraded character, and in particular, character identification for identifying a print type of a large size class (also referred to as a super multi class), for example, Chinese, Japanese, or Korean. The present invention relates to a method and an apparatus.

近年、文字識別の研究が大幅に進んでおり、現在、背景のきれいな文字画像を正確に識別する文字識別方法は既に開発されている。しかし、背景が複雑であって画像品質が低下した低品質文字については、まだ、満足な結果を得ることができる文字識別方法は開発されていない。   In recent years, research on character identification has progressed greatly, and a character identification method for accurately identifying a character image with a clean background has already been developed. However, no character identification method has yet been developed that can provide satisfactory results for low quality characters with a complex background and reduced image quality.

文字識別の難点及び応用のボトルネックとして、主に以下の2つの原因が考えられる。1つ目は、複雑な背景を有する場合の文字識別である。このような場合には、自動的文字検出と文字抽出システムにより、文字を画像の複雑な背景から検出して抽出する必要がある。2つ目は、画像の品質が低い場合の低品質文字の識別問題である。このような場合には、文字画像に、筆跡がぼやけたり、文字の一画を構成するストローク同士がくっついたり、ストロークが切れたり、解像度が低下したりする状況が存在し、有効な解決方法が必要となっている。従来技術として、2種類の解決方法が提供されている。   The following two causes are conceivable as the character identification difficulty and the application bottleneck. The first is character identification when there is a complicated background. In such a case, it is necessary to detect and extract characters from the complex background of the image by an automatic character detection and character extraction system. The second is a problem of identifying low-quality characters when the image quality is low. In such a case, there are situations where the handwriting is blurred in the character image, the strokes constituting one stroke of the character are stuck together, the strokes are cut off, or the resolution is lowered, and an effective solution is available. It is necessary. As a prior art, two types of solutions are provided.

1つ目の解決方法は、ストロークエッジ特徴に基づく識別方法である。この識別方法では、まず、識別対象の文字を二値化してから、非線形アルゴリズムにより文字に対する正規化を実施する。最後に、文字のストローク特徴を抽出して、統計分類により文字識別を行う。   The first solution is an identification method based on stroke edge features. In this identification method, first, a character to be identified is binarized, and then normalization of the character is performed by a non-linear algorithm. Finally, character stroke characteristics are extracted and character identification is performed by statistical classification.

図4に、文字の識別方法における統計分類の手順を示す。ストロークエッジ特徴に基づく統計分類の手順は、粗分類と再分類との2ステップを含む。このような粗分類及び再分類を含む識別方法では、再分類のアルゴリズムが複雑であるため、演算速度が遅くなる。そのため、粗分類を行って再分類のアルゴリズムの識別候補を大幅に絞り込むことにより、識別効率を向上している。   FIG. 4 shows a statistical classification procedure in the character identification method. The statistical classification procedure based on stroke edge features includes two steps: coarse classification and reclassification. In such an identification method including rough classification and reclassification, the reclassification algorithm is complicated, so that the calculation speed is slow. Therefore, the classification efficiency is improved by performing coarse classification and greatly narrowing down the identification candidates of the reclassification algorithm.

この方法のアルゴリズムの詳細については、以下の文献を参照することができる。
"Improvement of Handwritten Japanese Character Recognition Using Weighted Direction Code Histogram", F. Kimura, T. Wakabayashi, S. Tsuruoka, Y. Miyake, Pattern Recognition, v.30, n.8, pp.1329-1337, 1997
The details of the algorithm of this method can be referred to the following documents.
"Improvement of Handwritten Japanese Character Recognition Using Weighted Direction Code Histogram", F. Kimura, T. Wakabayashi, S. Tsuruoka, Y. Miyake, Pattern Recognition, v.30, n.8, pp.1329-1337, 1997

2つ目の解決方法は、階調文字画像における抽出文字の画像パターン特徴に基づく識別方法である。この識別方法では、まず、識別対象の文字の背景を除去して階調正規化を行う。その後、線形アルゴリズムにより文字の正規化を実施する。最後に、文字の画像パターン特徴を抽出し、統計分類により文字識別を行う。   The second solution is an identification method based on the image pattern feature of the extracted character in the gradation character image. In this identification method, first, gradation normalization is performed by removing the background of the character to be identified. Then, normalization of characters is performed by a linear algorithm. Finally, the image pattern features of the characters are extracted, and the characters are identified by statistical classification.

上述した図4は、画像パターン特徴に基づく識別方法の統計分類の手順にも適用することができ、画像パターン特徴に基づく統計分類の手順も粗分類と再分類との2ステップを含む。   FIG. 4 described above can also be applied to the statistical classification procedure of the identification method based on the image pattern feature, and the statistical classification procedure based on the image pattern feature also includes two steps of coarse classification and reclassification.

この方法のアルゴリズムの詳細については、以下の文献を参照することができる。
"Camera Based Degraded Text Recognition Using Grayscale Feature", Jun Sun, Yoshinobu Hotta, Yutaka Katsuyama, Satoshi Naoi, 8th International Conference on Document Analysis and Recognition (ICDAR2005), August 2005, Seoul Korea, pp.182-186
"A Grayscale Image Based Character Recognition Algorithm to Low Quality and Low Resolution Images", Wang X W, et al., Document Recognition and Retrieval VIII, Electronic Imaging 2001 [C]. San Jose, IS&T/SPIE, 2001
The details of the algorithm of this method can be referred to the following documents.
"Camera Based Degraded Text Recognition Using Grayscale Feature", Jun Sun, Yoshinobu Hotta, Yutaka Katsuyama, Satoshi Naoi, 8th International Conference on Document Analysis and Recognition (ICDAR2005), August 2005, Seoul Korea, pp.182-186
"A Grayscale Image Based Character Recognition Algorithm to Low Quality and Low Resolution Images", Wang XW, et al., Document Recognition and Retrieval VIII, Electronic Imaging 2001 [C]. San Jose, IS & T / SPIE, 2001

しかしながら、上記の2つの解決方法には、それぞれ利点と欠点がある。すなわち、図1に示すように、ストロークエッジ特徴に基づく識別方法は、フォントスタイルの変化などに起因する文字ストロークの変形に対して良好な適合性を示している。これに対して、階調文字画像から文字の画像パターン特徴を抽出する識別方法は、各種のノイズに起因する画像劣化に対して良好な適合性を示している。   However, each of the above two solutions has advantages and disadvantages. That is, as shown in FIG. 1, the identification method based on the stroke edge feature shows good adaptability to the deformation of the character stroke due to the change of the font style or the like. On the other hand, the identification method that extracts the image pattern feature of the character from the gradation character image shows good adaptability to the image degradation caused by various noises.

ストロークエッジ特徴に基づく識別方法においては、通常、ストロークエッジ特徴が二値画像から抽出されているため、二値画像の品質が良くない場合、ストロークエッジの推定が正確に行われず、特徴識別の効果が低下してしまう問題がある。二値化の効果は、アルゴリズムに依存する以外、画像の劣化度合いにも大きく左右される。画像劣化度合いを表現する方式としては、例えば、エッジぼやけの度合いや解像度等、複数のものがある。また、文字画像に関しては、より直接的な画像劣化指標として、文字画像のサイズが挙げられる。二値文字画像の場合には、画像のサイズは二値化された画像に外接する矩形の長さと幅により定義される。図3に示すように、サイズの異なる画像を二値化した結果は異なっており、画像サイズの縮小に伴い、文字のストロークに対応するピクセルの損失が多くなる。また、文字のストロークに対応するピクセルの損失量がある程度に達すると、ストロークエッジ特徴に基づいて動作する識別エンジンは、正確な識別結果を得ることができない。   In the identification method based on the stroke edge feature, since the stroke edge feature is usually extracted from the binary image, if the quality of the binary image is not good, the estimation of the stroke edge is not performed accurately, and the feature identification effect is obtained. There is a problem that decreases. The effect of binarization greatly depends on the degree of image degradation as well as depending on the algorithm. There are a plurality of methods for expressing the degree of image degradation, such as the degree of edge blurring and the resolution. As for a character image, the size of the character image can be cited as a more direct image deterioration index. In the case of a binary character image, the size of the image is defined by the length and width of a rectangle circumscribing the binarized image. As shown in FIG. 3, the result of binarizing images of different sizes is different, and the loss of pixels corresponding to the stroke of a character increases as the image size is reduced. In addition, when the amount of loss of pixels corresponding to a character stroke reaches a certain level, an identification engine that operates based on the stroke edge feature cannot obtain an accurate identification result.

また、階調文字画像から画像パターン特徴を抽出する識別方法については、二値化の手順を有していないため、ストローク情報が最大限に保たれることになり、サイズの小さい画像に対して良好な識別効果を示している。しかし、文字の画像パターン特徴は、図2に示すようなフォントスタイルの差異に起因するストローク変形に敏感であるため、ストロークがある程度変形すると、階調文字画像から画像パターン特徴を抽出する識別エンジンは正確な識別結果を得ることができなくなる。   In addition, the identification method for extracting the image pattern feature from the gradation character image does not have a binarization procedure, so that the stroke information is kept to the maximum, and for a small size image. It shows a good discrimination effect. However, since the image pattern features of characters are sensitive to stroke deformation due to differences in font styles as shown in FIG. 2, when the stroke is deformed to some extent, the identification engine that extracts image pattern features from a gradation character image is An accurate identification result cannot be obtained.

このように、上記の2つの解決方法は、それぞれ異なる利点を有すると同時に、異なる問題点を有することがわかる。上記の2つの方法の利点を組み合わせてより高性能の識別方法を得るために、異なる特徴に応じて上記の2つの方法から1つを選択して低品質文字を識別する方法が開示されている。   Thus, it can be seen that the above two solutions have different advantages and at the same time have different problems. In order to combine the advantages of the above two methods to obtain a higher performance identification method, a method for identifying low quality characters by selecting one of the above two methods according to different features is disclosed. .

特開平11−66240号公報JP-A-11-66240 特開2000−82113号公報JP 2000-82113 A 米国特許第4,551,851号明細書US Pat. No. 4,551,851 "Robust Chinese Character Recognition by Selection of Binary-Based and Grayscale-Based Classifier", Yoshinobu Hotta, Jun Sun, Yutaka Katsuyama, Satoshi Naoi, Document Analysis System 2006, 553−563"Robust Chinese Character Recognition by Selection of Binary-Based and Grayscale-Based Classifier", Yoshinobu Hotta, Jun Sun, Yutaka Katsuyama, Satoshi Naoi, Document Analysis System 2006, 553−563

しかしながら、図5に示すように、特許文献1、2及び非特許文献1では、劣化の原因と度合いを推定することにより、適切な識別方法を選択し、選択された識別方法による識別結果を最終結果として出力する。このような方法には2つの欠点がある。まず、実用上、文字劣化の原因と度合いは非常に複雑であり、従来、文字劣化の原因と度合いを推定するアルゴリズムの信頼性が問題になっているため、推定結果により選択される識別方法の信頼性も問われることになる。次に、たとえ文字劣化の原因と度合いが正しく推定されたとしても、上記の2つの解決方法のいずれか一方が最適で他方が完全に不適であるという保証はなく、多くの場合、単に一方の方法が他方の方法より適切であるに過ぎない。そのため、特許文献1、2及び非特許文献1に開示された方法は十分ではなく、実用化の要求を満さないと考えられる。   However, as shown in FIG. 5, in Patent Documents 1 and 2 and Non-Patent Document 1, an appropriate identification method is selected by estimating the cause and degree of deterioration, and the identification result by the selected identification method is finalized. Output as a result. Such a method has two drawbacks. First, in practice, the cause and degree of character deterioration are very complex, and the reliability of algorithms that estimate the cause and degree of character deterioration has been a problem in the past. Reliability is also a question. Second, even if the cause and degree of character degradation is correctly estimated, there is no guarantee that one of the above two solutions is optimal and the other is completely unsuitable; The method is only more suitable than the other method. For this reason, the methods disclosed in Patent Documents 1 and 2 and Non-Patent Document 1 are not sufficient, and it is considered that they do not satisfy the demand for practical use.

また、図5に示すように、特許文献3に記述の方法は、判別メカニズムを利用して入力文字をグループ化し、グループ化した結果に基づいて、入力文字をいくつかのサブ分類器(Sub-classifier)に出力して識別を行う。各サブ分類器は、1グループの文字しか識別できない。この方法の欠点は、低品質文字に対して一番目の判別器が有効なグループ化を実現することができず、グループ化が誤った場合、直接誤識別を引き起こしてしまうことである。   In addition, as shown in FIG. 5, the method described in Patent Document 3 uses a discrimination mechanism to group input characters, and based on the grouped result, the input characters are divided into several sub-classifiers (Sub- classifier) for identification. Each sub-classifier can identify only one group of characters. The disadvantage of this method is that the first discriminator cannot achieve effective grouping for low-quality characters, and if the grouping is incorrect, it will cause direct misidentification.

本発明は、上記の従来技術の問題点を解決するためになされたものであって、ストロークエッジ特徴に基づく識別方法と階調文字画像から全体の画像パターン特徴を抽出する識別方法とを効果的に組み合わせることにより、フォントスタイルの差異に起因する文字劣化と画像品質の低下に起因する画像劣化とによる識別率の低下を防止して、ラージサイズクラスの文字識別における低品質文字の識別性能を向上させることを目的とする。   The present invention has been made to solve the above-described problems of the prior art, and is effective in an identification method based on stroke edge features and an identification method that extracts the entire image pattern features from a gradation character image. By combining with, it prevents the deterioration of the recognition rate due to the character deterioration due to the difference in font style and the image deterioration due to the deterioration of image quality, and improves the recognition performance of low quality characters in large size class character recognition The purpose is to let you.

上記の目的を達成するために、低品質文字の識別方法は、ストロークエッジ特徴と画像パターン特徴とに基づいて識別対象の文字を識別することにより、それぞれストロークエッジ特徴と画像パターン特徴とに対応する2つの候補文字コードグループを取得する識別ステップと、前記2つの候補文字コードグループ内の候補文字コードをマージすることにより、マージ候補文字コードグループを決定するマージステップと、前記マージ候補文字コードグループに対し、ストロークエッジ特徴と画像パターン特徴とのそれぞれに関する演算を行うことにより、2種類の識別距離を取得する演算ステップと、前記2種類の識別距離に基づいて最適候補文字コードを決定する決定ステップと、を含む。   In order to achieve the above object, the low quality character identification method corresponds to the stroke edge feature and the image pattern feature by identifying the character to be identified based on the stroke edge feature and the image pattern feature, respectively. An identification step for obtaining two candidate character code groups, a merge step for determining a merge candidate character code group by merging candidate character codes in the two candidate character code groups, and a merge candidate character code group On the other hand, a calculation step of acquiring two types of identification distances by performing calculations related to each of the stroke edge feature and the image pattern feature, and a determination step of determining an optimum candidate character code based on the two types of identification distances. ,including.

この識別方法によれば、2つの識別方法の有機的な組み合わせにより、候補文字コードの範囲を効果的に拡大させることができるため、文字識別の結果としてマージ候補文字コードグループを出力することで、候補文字コードの正確さを効果的に向上させることができる。さらに、低品質文字の手動による識別の利便さ及び自動識別の正確さをさらに向上させることができる。   According to this identification method, the range of candidate character codes can be effectively expanded by an organic combination of the two identification methods, so by outputting a merge candidate character code group as a result of character identification, The accuracy of the candidate character code can be effectively improved. Furthermore, the convenience of manual identification of low quality characters and the accuracy of automatic identification can be further improved.

また、低品質文字の識別方法は、上記方法において、前記マージステップは、前記2つの候補文字コードグループのそれぞれから全部又は一部の候補文字コードを抽出して、前記全部又は一部の候補文字コードの和集合をとることにより、マージ候補文字コードグループを決定する。   Further, the low quality character identification method is the above method, wherein the merging step extracts all or part of the candidate character codes from each of the two candidate character code groups, and the all or part of the candidate characters. A merge candidate character code group is determined by taking a union of codes.

また、低品質文字の識別方法は、上記方法において、前記マージステップは、候補文字コードの個数を決定することにより、前記全部又は一部の候補文字コードを抽出する。   In addition, the low quality character identifying method is the above method, wherein the merging step extracts all or part of the candidate character codes by determining the number of candidate character codes.

また、低品質文字の識別方法は、上記方法において、各候補文字コードグループから抽出される候補文字コードの個数は、文字画像の劣化度合いと正比例する。   In the above-described method, the number of candidate character codes extracted from each candidate character code group is directly proportional to the degree of deterioration of the character image.

また、低品質文字の識別方法は、上記方法において、各候補文字コードグループから抽出される候補文字コードの個数は、候補文字コードグループ内の一番目の候補文字コードと二番目の候補文字コードとの識別距離の差を基準とし、K(Kは自然数)番目とK+1番目の候補文字コードとの識別距離の差が基準の所定数倍未満である場合、前記候補文字コードグループからK個の候補文字コードを抽出するアルゴリズムにより決定される。   Further, the low quality character identification method is the above method, wherein the number of candidate character codes extracted from each candidate character code group is the first candidate character code and the second candidate character code in the candidate character code group. When the difference in identification distance between the Kth (K is a natural number) and the K + 1th candidate character code is less than a predetermined number times the reference, K candidates from the candidate character code group It is determined by the algorithm that extracts the character code.

また、低品質文字の識別方法は、上記方法において、各候補文字コードグループから抽出される候補文字コードの個数は、候補文字コードグループがN個の候補文字コードを含む場合において、文字画像の高さのピクセル数と幅のピクセル数とのうちの大きい方がnピクセルより少ない場合、前記候補文字コードグループから抽出すべき候補文字コードの個数をNとし、文字画像の高さのピクセル数と幅のピクセル数とのうちの大きい方がmピクセルより多い場合、前記候補文字コードグループから抽出すべき候補文字コードの個数をN’とし、文字画像の高さのピクセル数と幅のピクセル数とのうちの大きい方がnピクセル以上mピクセル以下である場合、前記候補文字コードグループから抽出すべき候補文字コードの個数を
とする(ただし、Sは文字画像の高さのピクセル数と幅のピクセル数とのうちの大きい方のピクセル数であり、m、n、N、及びN’は、ユーザにより設定可能であり、且つ、m>nである)アルゴリズムにより決定される。
Further, in the above method, the number of candidate character codes extracted from each candidate character code group is the same as that of the low quality character when the candidate character code group includes N candidate character codes. When the larger one of the number of pixels and the number of pixels of the width is less than n pixels, the number of candidate character codes to be extracted from the candidate character code group is N, and the number of pixels and the width of the height of the character image If the larger of the number of pixels is greater than m pixels, the number of candidate character codes to be extracted from the candidate character code group is N ′, and the number of pixels of the height of the character image and the number of pixels of the width are When the larger one is n pixels or more and m pixels or less, the number of candidate character codes to be extracted from the candidate character code group is determined.
(Where S is the larger number of pixels in the height and width of the character image, and m, n, N, and N ′ can be set by the user, And m> n).

また、低品質文字の識別方法は、上記方法において、各候補文字コードグループから抽出される候補文字コードの個数は、候補文字コードグループがN個の候補文字コードを含み、かつ、前記マージ候補文字コードグループに属する候補文字コードとして抽出すべき候補文字コードの最小個数がN’である場合において、文字画像のヒストグラムにおけるストロークを示すピクセル値と背景を示すピクセル値との間の領域の面積と、ヒストグラムの全領域の面積との比がRである場合、前記候補文字コードグループから抽出すべき候補文字コードの個数を
N−R×(N−N’)
とする(ただし、0≦R≦1、N及びN’はユーザにより設定可能である)アルゴリズムにより決定される。
The low quality character identification method is the above method, wherein the number of candidate character codes extracted from each candidate character code group is such that the candidate character code group includes N candidate character codes and the merge candidate character When the minimum number of candidate character codes to be extracted as candidate character codes belonging to the code group is N ′, the area of the region between the pixel value indicating the stroke and the pixel value indicating the background in the histogram of the character image; When the ratio of the total area of the histogram to R is R, the number of candidate character codes to be extracted from the candidate character code group is expressed as N−R × (N−N ′)
(Where 0 ≦ R ≦ 1, N and N ′ can be set by the user).

また、低品質文字の識別方法は、上記方法において、前記決定ステップは、2種類の識別距離を統合させて得られる前記マージ候補文字コードグループの正確さに応じて、前記最適候補文字コードを決定する。   The low quality character identification method is the above method, wherein the determining step determines the optimum candidate character code according to the accuracy of the merge candidate character code group obtained by integrating two types of identification distances. To do.

また、低品質文字の識別方法は、上記方法において、前記マージ候補文字コードグループの正確さは、総合信頼度(C(I))により得られ、前記総合信頼度(C(I))は、ストロークエッジ特徴に基づく信頼度(Cl(I))と画像パターン特徴に基づく信頼度(Cg(I))との和、
C(I)=Cl(I)+Cg(I)
である。
The low-quality character identification method is the above-described method, wherein the accuracy of the merge candidate character code group is obtained by a total reliability (C (I)), and the total reliability (C (I)) is: Sum of reliability (C l (I)) based on stroke edge features and reliability (C g (I)) based on image pattern features,
C (I) = C l (I) + C g (I)
It is.

また、低品質文字の識別装置は、識別対象の文字のストロークエッジ特徴を抽出し、このストロークエッジ特徴に基づいて識別を行うことにより、第1の候補文字コードグループを取得するストロークエッジ特徴処理手段と、識別対象の文字の画像パターン特徴を抽出し、この画像パターン特徴に基づいて識別を行うことにより、第2の候補文字コードグループを取得する画像パターン特徴処理手段と、前記第1の候補文字コードグループと前記第2の候補文字コードグループとをマージすることにより、マージ候補文字コードグループを生成するマージ手段と、ストロークエッジ特徴に基づいて、前記マージ候補文字コードグループの各候補文字コードの識別距離を算出するストロークエッジ特徴再処理手段と、画像パターン特徴に基づいて、前記マージ候補文字コードグループの各候補文字コードの識別距離を算出する画像パターン特徴再処理手段と、前記ストロークエッジ特徴再処理手段及び前記画像パターン特徴再処理手段によって算出される2種類の識別距離を統合することにより、各候補文字コードの総合信頼度を取得する統合手段と、総合信頼度から最適候補文字コードを出力する出力手段と、を備える。   Further, the low-quality character identification device extracts a stroke edge feature of a character to be identified, and performs a discrimination based on the stroke edge feature, thereby obtaining a first candidate character code group. Image pattern feature processing means for extracting a second candidate character code group by extracting an image pattern feature of a character to be identified, and performing identification based on the image pattern feature, and the first candidate character Merging means for generating a merge candidate character code group by merging the code group and the second candidate character code group, and identification of each candidate character code of the merge candidate character code group based on a stroke edge feature Stroke edge feature reprocessing means for calculating distance, based on image pattern feature The image pattern feature reprocessing means for calculating the identification distance of each candidate character code of the merge candidate character code group, and the two types of identification distances calculated by the stroke edge feature reprocessing means and the image pattern feature reprocessing means And integrating means for acquiring the overall reliability of each candidate character code, and output means for outputting the optimum candidate character code from the overall reliability.

本明細書に開示された低品質文字の識別方法及び装置によれば、従来技術より優れた識別効果が得られる。4238個の中国語文字に対する識別テストを用いて、本発明が提案した方法を、ストロークエッジ方向特徴に基づく方法のみを使用する場合及び画像パターン特徴に基づく方法のみを使用する場合と比較したところ、画像サイズが8×8である場合、ストロークエッジ方向特徴に基づく方法の識別率は58.80%となり、画像パターン特徴に基づく方法の識別率は79.90%となったのに対し、本発明が提案している方法の識別率は88.15%となっている。したがって、本発明によれば、低品質文字画像の識別の正確さが大幅に向上することが分かる。   According to the low quality character identification method and apparatus disclosed in the present specification, an identification effect superior to that of the prior art can be obtained. Using the discrimination test for 4238 Chinese characters, the method proposed by the present invention was compared with the case using only the method based on the stroke edge direction feature and the case using only the method based on the image pattern feature. When the image size is 8 × 8, the identification rate of the method based on the stroke edge direction feature is 58.80%, and the identification rate of the method based on the image pattern feature is 79.90%. The proposed method has an identification rate of 88.15%. Therefore, according to the present invention, it can be seen that the accuracy of the identification of the low-quality character image is greatly improved.

以下、本発明に係る低品質文字の識別方法及び装置の詳細な実施例について、図面を参照しながら説明する。   Hereinafter, a detailed embodiment of a low quality character identification method and apparatus according to the present invention will be described with reference to the drawings.

実施例に係る低品質文字の識別方法は、図6に示すように、識別対象の文字のそれぞれに対して、ストロークエッジ特徴と画像パターン特徴とに基づいて識別を行い、ストロークエッジ特徴と画像パターン特徴とに基づく二つの候補文字コードグループを取得するステップS1と、前記二つの候補文字コードグループ内の候補文字コードをマージして、マージ候補文字コードグループを決定するステップS2と、上記マージ候補文字コードグループのそれぞれに対して、ストロークエッジ特徴と画像パターン特徴とに基づいて演算を行うことにより、2種類の識別距離を取得するステップS3と、上記の2種類の識別距離に基づいて最適の候補文字コードを決定するステップS4と、を含む。   As shown in FIG. 6, the low-quality character identification method according to the embodiment performs identification based on the stroke edge feature and the image pattern feature for each character to be identified, and the stroke edge feature and the image pattern. Step S1 for obtaining two candidate character code groups based on characteristics, Step S2 for merging candidate character codes in the two candidate character code groups to determine a merge candidate character code group, and the merge candidate character Step S3 for obtaining two types of identification distances by performing an operation based on the stroke edge feature and the image pattern feature for each of the code groups, and an optimal candidate based on the above two types of identification distances And step S4 for determining a character code.

この識別方法によれば、二つの識別方法を有機的に組み合わせることにより、候補文字コードの範囲を効果的に拡大させることができるため、文字識別の結果としてマージ候補文字コードグループを出力することで、候補文字コードの正確さを効果的に向上させることが可能である。以下、各実施例について詳細に説明する。   According to this identification method, since the range of candidate character codes can be effectively expanded by organically combining the two identification methods, a merge candidate character code group can be output as a result of character identification. The accuracy of the candidate character code can be effectively improved. Hereinafter, each example will be described in detail.

図7、図8と図9を参照して、低品質文字の識別方法の実施例1の詳細についてステップ順に説明する。なお、図7は、実施例1に係る低品質文字の識別方法を示すフローチャートであり、図8は、実施例1に係る低品質文字の識別方法におけるステップS1の詳細手順を示すフローチャートであり、図9は、実施例1に係る低品質文字の識別方法におけるステップS2の詳細手順を示すフローチャートである。   With reference to FIG. 7, FIG. 8, and FIG. 9, the details of the first embodiment of the low-quality character identifying method will be described in the order of steps. FIG. 7 is a flowchart showing a low quality character identification method according to the first embodiment. FIG. 8 is a flowchart showing a detailed procedure of step S1 in the low quality character identification method according to the first embodiment. FIG. 9 is a flowchart illustrating the detailed procedure of step S2 in the low quality character identification method according to the first embodiment.

実施例1に係る低品質文字の識別方法は、ステップS1とS2を含む。以下、図面を参照して、粗分類に基づく識別方法を例として、実施例1を詳細に説明する。   The low quality character identification method according to the first embodiment includes steps S1 and S2. Hereinafter, with reference to the drawings, the first embodiment will be described in detail using an identification method based on coarse classification as an example.

ステップS1では、識別対象の文字のストロークエッジ特徴と画像パターン特徴とを抽出し、それぞれ二つの特徴に基づいて粗分類を行うことにより、ストロークエッジ特徴と画像パターン特徴とに基づく二つの粗分類候補文字コードグループを取得する。ステップS1は二つのサブステップS11とS12を有している。   In step S1, the stroke edge feature and the image pattern feature of the character to be identified are extracted, and rough classification is performed based on the two features, respectively, so that two coarse classification candidates based on the stroke edge feature and the image pattern feature are obtained. Get the character code group. Step S1 has two sub-steps S11 and S12.

ステップS11では、一つの識別対象の文字に対して、ストロークエッジ特徴と画像パターン特徴とをそれぞれ抽出する。   In step S11, a stroke edge feature and an image pattern feature are extracted for each character to be identified.

図8に示すように、ステップS11は、二つの部分に分けて実施される。具体的に、識別対象の一つの文字画像に対して、ストロークエッジ特徴に基づく識別方法と階調文字画像から文字の画像パターン特徴を抽出する識別方法とをそれぞれ利用して、ストロークエッジ特徴と画像パターン特徴とを抽出する。ストロークエッジ特徴と画像パターン特徴との抽出は、それぞれ、本明細書の背景技術に記述されている方法を利用して行うことも可能である。ステップS12では、ストロークエッジ特徴と画像パターン特徴のそれぞれに対して粗分類を行い、ストロークエッジ特徴に基づく粗分類候補文字コードグループN1と画像パターン特徴に基づく粗分類候補文字コードグループN2を取得する。   As shown in FIG. 8, step S11 is performed in two parts. Specifically, for one character image to be identified, a stroke edge feature and an image are respectively obtained by using an identification method based on a stroke edge feature and an identification method for extracting an image pattern feature of a character from a gradation character image. Extract pattern features. The extraction of the stroke edge feature and the image pattern feature can also be performed using the methods described in the background art of this specification. In step S12, each of the stroke edge feature and the image pattern feature is roughly classified, and a coarse classification candidate character code group N1 based on the stroke edge feature and a coarse classification candidate character code group N2 based on the image pattern feature are obtained.

図7及び図8に示すように、このステップS12も、二つの部分に分けて実施される。具体的に、ステップS11で抽出されたストロークエッジ特徴について、入力文字画像に対する粗分類を行うとともに、ステップS11で抽出された画像パターン特徴について、入力文字画像に対する粗分類を行う。これらの特徴について粗分類を行う目的は、入力文字画像に対して予備的な識別を行うことにより、可能性が高い複数の候補文字コードを出力させることである。   As shown in FIGS. 7 and 8, this step S12 is also performed in two parts. Specifically, the rough classification for the input character image is performed for the stroke edge feature extracted in step S11, and the rough classification for the input character image is performed for the image pattern feature extracted in step S11. The purpose of roughly classifying these features is to output a plurality of candidate character codes having a high possibility by performing preliminary identification on the input character image.

粗分類の手順は複数のアルゴリズムにより実施可能であり、本明細書の背景技術に列挙されているようなアルゴリズムは、全て本実施例に適応可能である。例えば、本実施例においては、学習サンプル(training sample)に含まれている各文字種別の特徴の平均値を算出後、入力文字から得られた特徴と文字種別の特徴の平均値との距離を識別距離として算出する。識別距離は、候補文字コードと入力文字との間の距離を表すため、識別距離のデータから候補文字コードの正確さを推測することが可能である。そこで、候補文字コードを識別距離の昇順でソートし、先頭から所定数の候補文字コードを選択して粗分類の結果として出力するアルゴリズムが用いられる。   The rough classification procedure can be implemented by a plurality of algorithms, and all the algorithms listed in the background art of this specification can be applied to this embodiment. For example, in this embodiment, after calculating the average value of features of each character type included in the training sample, the distance between the feature obtained from the input character and the average value of the feature of the character type is calculated. Calculated as the identification distance. Since the identification distance represents the distance between the candidate character code and the input character, the accuracy of the candidate character code can be estimated from the data of the identification distance. Therefore, an algorithm is used in which the candidate character codes are sorted in ascending order of the identification distance, and a predetermined number of candidate character codes are selected from the head and output as the result of rough classification.

これにより、本実施例において、ストロークエッジ特徴に基づく一つの粗分類候補文字コードグループN1と、画像パターン特徴に基づく他の粗分類候補文字コードグループN2とが出力される。ただし、二つの粗分類候補文字コードグループN1とN2中の候補文字コードは、識別距離の昇順でソートされているものとする。   Thus, in this embodiment, one coarse classification candidate character code group N1 based on the stroke edge feature and another coarse classification candidate character code group N2 based on the image pattern feature are output. However, the candidate character codes in the two coarse classification candidate character code groups N1 and N2 are sorted in ascending order of the identification distance.

ステップS2では、二つの粗分類候補文字コードグループN1とN2とをマージし、マージ候補文字コードグループMを生成する。   In step S2, the two coarse classification candidate character code groups N1 and N2 are merged to generate a merge candidate character code group M.

ストロークエッジ特徴と画像パターン特徴とは異なる低品質文字に適しているため、図7に示すステップS12により出力されるストロークエッジ特徴の粗分類候補文字コードグループN1と画像パターン特徴の粗分類候補文字コードグループN2とは大きく異なっている。従って、上記の二つの粗分類候補文字コードグループを組み合わせることにより、一つのマージ候補文字コードグループMを出力する必要がある。このマージ候補文字コードグループは、本実施例に係る識別方法の文字識別結果として出力されることになる。このマージ手順は、例えば和集合、積集合等のような複数のアルゴリズムにより実施可能であり、本実施例においては、二つの候補文字コードグループの和集合をとるものとする。   Since the stroke edge feature and the image pattern feature are suitable for different low quality characters, the stroke edge feature coarse classification candidate character code group N1 and the image pattern feature coarse classification candidate character code output in step S12 shown in FIG. It is very different from group N2. Therefore, it is necessary to output one merge candidate character code group M by combining the two rough classification candidate character code groups. This merge candidate character code group is output as a character identification result of the identification method according to the present embodiment. This merging procedure can be performed by a plurality of algorithms such as a union set, a product set, and the like. In this embodiment, the union of two candidate character code groups is taken.

図9に示すように、ステップS2も二つのサブステップS21とS22とに分けて実施されている。   As shown in FIG. 9, step S2 is also divided into two sub-steps S21 and S22.

ステップS21において、それぞれ粗分類候補文字コードの識別距離の増加度合いまたは文字画像のピクセル値の二種類のデータにより、候補文字コードグループから抽出すべき候補文字コードの個数を決定し、二つの粗分類候補文字コードグループN1’とN2’との和集合をとることにより、マージ候補文字コードグループMを取得する。ただし、粗分類候補文字コードグループから抽出される候補文字コードの個数は、文字画像の劣化度合いと正比例している。つまり、文字画像の劣化度合いが酷くなるほど、粗分類候補文字コードグループから抽出される候補文字コードの個数は多くなる。   In step S21, the number of candidate character codes to be extracted from the candidate character code group is determined based on two types of data, ie, the increase in the identification distance of the coarse classification candidate character codes or the pixel value of the character image. The merge candidate character code group M is obtained by taking the union of the candidate character code groups N1 ′ and N2 ′. However, the number of candidate character codes extracted from the coarse classification candidate character code group is directly proportional to the degree of deterioration of the character image. That is, as the degree of deterioration of the character image becomes severe, the number of candidate character codes extracted from the coarse classification candidate character code group increases.

ステップS12に示した二つの粗分類候補文字コードグループN1とN2において、それぞれ候補文字コードを識別距離の昇順でソートしているため、個数が決定された後、二つの粗分類候補文字コードグループN1とN2中からそれぞれ識別距離の昇順で候補文字コードを抽出する。   In the two coarse classification candidate character code groups N1 and N2 shown in step S12, since the candidate character codes are sorted in ascending order of the identification distance, the two coarse classification candidate character code groups N1 are determined after the number is determined. And candidate character codes are extracted from N2 in ascending order of the identification distance.

以下に、ステップS21において、候補文字コードグループから抽出される候補文字コードの個数を決定する異なる三つの演算方法について説明する。   Hereinafter, three different calculation methods for determining the number of candidate character codes extracted from the candidate character code group in step S21 will be described.

第1の方法では、二つの粗分類候補文字コードグループN1とN2との識別距離の増加度合いにより、粗分類候補文字コードグループから抽出する候補文字コードの個数を決定する。具体的に、このアルゴリズムでは、各粗分類候補文字コードグループ内の一番目の候補文字コードと二番目の候補文字コードとの識別距離の差を基準として、K番目(Kは自然数)とK+1番目の候補文字コードの識別距離の差が、基準の所定数倍未満である場合に、この粗分類候補文字コードグループからK個の候補文字コードを抽出する。   In the first method, the number of candidate character codes to be extracted from the coarse classification candidate character code groups is determined based on the degree of increase in the identification distance between the two coarse classification candidate character code groups N1 and N2. Specifically, in this algorithm, the Kth (K is a natural number) and the K + 1th, based on the difference in identification distance between the first candidate character code and the second candidate character code in each coarse classification candidate character code group K candidate character codes are extracted from this coarse classification candidate character code group when the difference in identification distance between the candidate character codes is less than a predetermined number of times the reference.

したがって、この方法を利用して粗分類候補文字コードグループの候補文字コードの個数を決定した後、二つの新しい粗分類候補文字コードグループN1’とN2’とが生成される。   Therefore, after determining the number of candidate character codes of the coarse classification candidate character code group using this method, two new coarse classification candidate character code groups N1 'and N2' are generated.

第2の方法では、文字画像のピクセルにより粗分類候補文字コードグループから抽出する候補文字コードの個数を決定する。具体的に、このアルゴリズムでは、文字画像のサイズ或いは文字画像ピクセルに対する統計処理を行うことにより、各粗分類候補文字コードグループの候補文字コードの個数を決定する。粗分類では劣化度合いが酷い文字に対する識別能力が低いため、文字画像ピクセルが非常に小さい又は文字が非常にぼやけている場合には、入力画像に対応する正しい文字コードは粗分類候補文字コードグループN1及びN2の後半に現れる可能性が高いため、各粗分類候補文字コードグループから抽出する候補文字コードの個数を増やす必要がある。   In the second method, the number of candidate character codes to be extracted from the coarse classification candidate character code group is determined by pixels of the character image. Specifically, in this algorithm, the number of candidate character codes in each coarse classification candidate character code group is determined by performing statistical processing on the size of character images or character image pixels. In the coarse classification, the ability to identify a character with a severe deterioration level is low. Therefore, when the character image pixel is very small or the character is very blurred, the correct character code corresponding to the input image is the coarse classification candidate character code group N1. Therefore, it is necessary to increase the number of candidate character codes extracted from each coarse classification candidate character code group.

一つの候補文字コードグループがN個の文字コードを含み、かつ、この粗分類候補文字コードグループの候補文字コードの個数が少なくとも3以上であることを想定すると、文字画像のピクセルにより粗分類候補文字コードグループの候補文字コードの個数を決定するアルゴリズムの一例として、以下のものが挙げられる。すなわち、文字画像の高さのピクセル数と幅のピクセル数とのうちの大きい方が例えば15ピクセルより少ない場合には、最も大きい候補個数であるNを選択し、文字画像の高さのピクセル数と幅のピクセル数とのうちの大きい方が例えば30ピクセルより多い場合には、最も小さい候補個数である3を選択し、文字画像の高さのピクセル数と幅のピクセル数とのうちの大きい方が15ピクセル以上30ピクセル以下である場合には、候補文字コードの個数を
とする。
Assuming that one candidate character code group includes N character codes and the number of candidate character codes in the coarse classification candidate character code group is at least 3 or more, coarse classification candidate characters are represented by character image pixels. As an example of the algorithm for determining the number of candidate character codes of the code group, the following can be cited. That is, when the larger one of the number of pixels of the height of the character image and the number of pixels of the width is less than 15 pixels, for example, N which is the largest candidate number is selected and the number of pixels of the height of the character image If the larger of the number of pixels and the number of pixels of the width is larger than 30 pixels, for example, the smallest candidate number 3 is selected and the larger of the number of pixels of the height of the character image and the number of pixels of the width is selected. Is 15 pixels or more and 30 pixels or less, the number of candidate character codes is
And

ただし、Sは文字の二値画像の高さのピクセル数と幅のピクセル数とのうちの大きい方のピクセル数であり、各候補文字コードグループの候補文字コードの最小個数(上記の例では3)はユーザにより設定されてもよく、ピクセル数の閾値(上記の例では15および30)もユーザにより設定されてもよい。この方法を利用して粗分類候補文字コードグループの候補文字コードの個数を決定することにより、二つの新しい粗分類候補文字コードグループN1’とN2’とが生成される。   However, S is the larger number of pixels of the height pixel number and the width pixel number of the binary image of the character, and the minimum number of candidate character codes of each candidate character code group (3 in the above example) ) May be set by the user, and thresholds for the number of pixels (15 and 30 in the above example) may also be set by the user. By using this method to determine the number of candidate character codes of the coarse classification candidate character code group, two new coarse classification candidate character code groups N1 'and N2' are generated.

また、第3の方法では、文字画像のヒストグラムにより、祖分類候補文字コードグループから抽出する候補文字コードの個数を決定する。具体的に、一つの候補文字コードグループがN個の文字コードを含み、かつ、この粗分類候補文字コードグループから抽出すべき候補文字コードの個数が少なくとも3であることを想定すると、文字画像のヒストグラムにより粗分類候補文字コードグループの候補文字コードの個数を選択するアルゴリズムの一例として、以下のものがある。すなわち、まず、文字画像のヒストグラム(画像における各ピクセル値が出現する頻度)を統計処理によって求め、文字ストロークのピクセル値が背景のピクセル値より小さい場合に、ヒストグラムにおいて、最小のピクセル値から最大のピクセル値の方向へ検索を行うことにより、一番目のピークを捜し出す。このピークに対応するピクセル値はストロークの典型的なピクセル値である。また、ヒストグラムにおいて、最大のピクセル値から最小のピクセル値の方向へ検索を行うことにより、一番目のピークを捜し出す。このピークに対応するピクセル値は背景の典型的なピクセル値である。そして、二つのピークの間に存在する領域の面積は、文字画像がはっきりしている場合には小さくなり、文字画像がぼやけている場合には大きくなる。そこで、上記の二つのピークの間に存在する領域の面積とヒストグラムの全面積との比をRとし、候補文字コードの個数を、
N−R×(N−3)
により算出する。
In the third method, the number of candidate character codes to be extracted from the ancestor classification candidate character code group is determined based on the histogram of the character image. Specifically, assuming that one candidate character code group includes N character codes and the number of candidate character codes to be extracted from the coarse classification candidate character code group is at least three, An example of an algorithm for selecting the number of candidate character codes in the coarse classification candidate character code group by using a histogram is as follows. That is, first, a histogram of a character image (frequency at which each pixel value appears in the image) is obtained by statistical processing, and when the pixel value of the character stroke is smaller than the pixel value of the background, Find the first peak by searching in the direction of the pixel value. The pixel value corresponding to this peak is a typical pixel value of the stroke. In the histogram, the first peak is searched for by searching from the largest pixel value to the smallest pixel value. The pixel value corresponding to this peak is a typical pixel value of the background. The area of the region existing between the two peaks is small when the character image is clear, and is large when the character image is blurred. Therefore, the ratio of the area of the region existing between the two peaks and the total area of the histogram is R, and the number of candidate character codes is
N-R × (N-3)
Calculated by

ただし、Rの範囲は0≦R≦1を満たし、粗分類候補文字コードグループから抽出すべき候補文字コードの最小個数(上記の例では3)はユーザにより設定されてもよく、ピクセル範囲もユーザにより設定されてもよい。この方法を利用して粗分類候補文字コードグループの候補文字コードの個数を決定することにより、二つの新しい粗分類候補文字コードグループN1’とN2’とが生成される。   However, the range of R satisfies 0 ≦ R ≦ 1, the minimum number of candidate character codes to be extracted from the coarse classification candidate character code group (3 in the above example) may be set by the user, and the pixel range is also set by the user. May be set. By using this method to determine the number of candidate character codes of the coarse classification candidate character code group, two new coarse classification candidate character code groups N1 'and N2' are generated.

次に、ステップS22を実行して、抽出により生成された二つの新しい粗分類候補文字コードグループN1’とN2’とをマージする。上述したように、このマージ手順は、例えば和集合、積集合等のような複数のアルゴリズムにより実施可能であり、本実施例においては、ステップS21で抽出した二つの粗分類候補文字コードグループN1’とN2’との和集合をとることにより、実施例1の識別結果であるマージ候補文字コードグループMが得られる。   Next, Step S22 is executed to merge the two new coarse classification candidate character code groups N1 'and N2' generated by the extraction. As described above, this merging procedure can be performed by a plurality of algorithms such as union, intersection, etc. In this embodiment, the two rough classification candidate character code groups N1 ′ extracted in step S21 are used. By taking the union of N2 ′ and N2 ′, the merge candidate character code group M that is the identification result of the first embodiment is obtained.

以下に、実施例1に係る低品質文字を識別する手順による効果について詳細に説明する。   Below, the effect by the procedure which identifies the low quality character which concerns on Example 1 is demonstrated in detail.

図10に示すように、実施例1に係る識別方法により、認識対象文字である
[文字1]
という文字を識別することにする。まず、
[文字2]
という文字に対して、そのストロークエッジ特徴と画像パターン特徴とをそれぞれ抽出する。その後、ストロークエッジ特徴と画像パターン特徴とについてそれぞれ粗分類を行うことにより、ストロークエッジ特徴に基づく粗分類候補文字コードグループN1と画像パターン特徴に基づく粗分類候補文字コードグループN2とを取得する。ただし、ストロークエッジ特徴に基づく粗分類候補文字コードグループN1は、識別距離の順にソートされた
[文字3]
等を含む。画像パターン特徴に基づく粗分類候補文字コードグループN2は、識別距離の順にソートされた
[文字4]
等を含む。
As shown in FIG. 10, [Character 1] which is a recognition target character by the identification method according to the first embodiment.
Will be identified. First,
[Character 2]
The stroke edge feature and the image pattern feature are respectively extracted from the character "." Thereafter, the rough classification candidate character code group N1 based on the stroke edge feature and the rough classification candidate character code group N2 based on the image pattern feature are acquired by performing rough classification on the stroke edge feature and the image pattern feature, respectively. However, the rough classification candidate character code group N1 based on the stroke edge feature is sorted in the order of the identification distance [character 3].
Etc. The coarse classification candidate character code group N2 based on the image pattern feature is sorted in the order of the identification distance [character 4].
Etc.

上記から分かるように、出力されたストロークエッジ特徴の粗分類候補文字コードグループN1と画像パターン特徴の粗分類候補文字コードグループN2とは大きく異なっている。そのため、上記の二つの粗分類候補文字コードグループを組み合わせることにより、一つのマージ候補文字コードグループMを出力する必要がある。このマージ候補文字コードグループは本識別方法の文字識別結果として出力される。本実施例では、それぞれの粗分類候補文字コードの識別距離の増加度合いにより、候補文字コードグループから抽出する候補文字コードの個数を決定する。このステップにより、抽出された二つの粗分類候補文字コードグループN1’とN2’とが得られる。ただし、N1’は、識別距離の順にソートされた
[文字5]
の三つの候補文字コードを含み、N2’は、識別距離の順のソートされた
「受、采」
の二つの候補文字コードを含む。
As can be seen from the above, the rough stroke candidate character code group N1 for the stroke edge feature and the coarse classification candidate character code group N2 for the image pattern feature are greatly different. Therefore, it is necessary to output one merge candidate character code group M by combining the two coarse classification candidate character code groups. This merge candidate character code group is output as a character identification result of this identification method. In this embodiment, the number of candidate character codes to be extracted from the candidate character code group is determined according to the degree of increase in the identification distance of each coarse classification candidate character code. By this step, two extracted rough classification candidate character code groups N1 ′ and N2 ′ are obtained. However, N1 ′ is sorted in the order of the identification distance [character 5].
N2 ′ is the sorted “receive, 采” sorted in order of identification distance.
The two candidate character codes are included.

これらの両方に対して和集合をとると、マージ候補文字コードグループMとして、
[文字6]
が得られる。この例から分かるように、単に画像パターン特徴に基づく識別方法を使用した場合(上記のN2’)には、正確な識別結果を得ることはできないが、本実施例では、二つの識別方法の有機的な組み合わせにより得られる粗分類候補文字コードグループが、候補文字コードの範囲を効果的に拡大させるため、識別の正確さを向上させ、本発明の目的を達成することができる。
If the union is taken for both of these, the merge candidate character code group M is
[Character 6]
Is obtained. As can be seen from this example, when the identification method based solely on the image pattern feature is used (N2 ′ above), an accurate identification result cannot be obtained. Since the rough classification candidate character code group obtained by the effective combination effectively expands the range of candidate character codes, the accuracy of identification can be improved and the object of the present invention can be achieved.

上記に示すように、マージ候補文字コードグループMは、識別距離の順にソートされたストロークエッジ特徴の粗分類候補文字コードグループN1と画像パターン特徴の粗分類候補文字コードグループN2とを統合したものであるため、候補文字コードの範囲を効果的に拡大させることができる。また、画像劣化の度合いに基づいて候補文字コードを抽出しているため、マージ候補文字コードグループMを文字識別結果として出力して、候補文字コードの正確さを効果的に向上させることができ、本発明の目的を達成することができる。そして、実施例1において、二つの候補文字コードグループN1とN2とが識別距離でソートされているため、適切に識別距離の小さい候補文字を抽出することができる。そのため、実施例1は、本発明の目的を達成することに加えて、低品質文字の手動による識別の利便さ及び自動識別の正確さを向上させることもできる。   As shown above, the merge candidate character code group M is an integration of the stroke edge feature coarse classification candidate character code group N1 and the image pattern feature coarse classification candidate character code group N2 sorted in order of identification distance. Therefore, the range of candidate character codes can be effectively expanded. In addition, because candidate character codes are extracted based on the degree of image degradation, the merge candidate character code group M can be output as a character identification result, and the accuracy of the candidate character codes can be effectively improved. The object of the present invention can be achieved. In Example 1, since the two candidate character code groups N1 and N2 are sorted by the identification distance, it is possible to appropriately extract candidate characters having a small identification distance. Therefore, in addition to achieving the object of the present invention, the first embodiment can improve the convenience of manual identification of low-quality characters and the accuracy of automatic identification.

本発明に係る実施例2は、低品質文字の手動による識別の利便性及び自動識別の正確さをさらに向上させる実施例である。以下に、図11と図12を参照して、低品質文字の識別方法の実施例2の詳細についてステップ順に説明する。なお、図11は、実施例2に係る低品質文字の識別方法を示すフローチャートであり、図12は、実施例2に係る低品質文字の識別方法におけるステップS5の詳細手順を示すフローチャートである。   Embodiment 2 according to the present invention is an embodiment that further improves the convenience of manual identification of low-quality characters and the accuracy of automatic identification. Hereinafter, with reference to FIGS. 11 and 12, the details of the second embodiment of the low quality character identification method will be described in the order of steps. FIG. 11 is a flowchart illustrating a low quality character identification method according to the second embodiment. FIG. 12 is a flowchart illustrating a detailed procedure of step S5 in the low quality character identification method according to the second embodiment.

実施例2に係る低品質文字の識別方法は、ステップSTEP1、ステップSTEP2、ステップSTEP3、ステップSTEP4、ステップSTEP5、及びステップSTEP6の六つのステップを含む。   The low quality character identification method according to the second embodiment includes six steps of step STEP1, step STEP2, step STEP3, step STEP4, step STEP5, and step STEP6.

ステップSTEP1では、識別対象の一つの文字画像について、ストロークエッジ特徴と画像パターン特徴とをそれぞれ抽出する。ステップSTEP1は二つの部分に分けて実施される。具体的に、識別対象の一つの文字画像に対して、それぞれ、ストロークエッジ特徴に基づく識別方法と階調文字画像から文字の画像パターン特徴を抽出する識別方法とを利用して、ストロークエッジ特徴と画像パターン特徴とを抽出する。ストロークエッジ特徴と画像パターン特徴との抽出は、それぞれ、本明細書の背景技術に記述の方法により行うことも可能である。なお、ステップSTEP1は実施例1のステップS11と同様であるため、詳しい説明を省略する。   In step STEP1, a stroke edge feature and an image pattern feature are extracted for each character image to be identified. Step STEP1 is performed in two parts. Specifically, for each character image to be identified, a stroke edge feature is obtained by using an identification method based on the stroke edge feature and an identification method for extracting a character image pattern feature from a gradation character image, respectively. Extract image pattern features. The extraction of the stroke edge feature and the image pattern feature can also be performed by the method described in the background art of this specification. Since step STEP1 is the same as step S11 of the first embodiment, detailed description thereof is omitted.

ステップSTEP2では、ストロークエッジ特徴と画像パターン特徴に対してそれぞれ粗分類を行うことにより、ストロークエッジ特徴に基づく粗分類候補文字コードグループN1と画像パターン特徴に基づく粗分類候補文字コードグループN2をそれぞれ取得する。   In step STEP2, by roughly classifying the stroke edge feature and the image pattern feature, respectively, the coarse classification candidate character code group N1 based on the stroke edge feature and the coarse classification candidate character code group N2 based on the image pattern feature are obtained. To do.

このステップSTEP2も、二つの部分に分けて実施される。具体的に、ステップSTEP1により抽出されたストロークエッジ特徴について、入力文字画像に対して粗分類を行うと共に、ステップSTEP1により抽出された画像パターン特徴について、入力文字画像に対して粗分類を行う。これらの特徴について粗分類を行う目的は、入力文字画像に対して予備的な識別を行うことにより、可能性が高い複数の候補文字コードを出力させることである。ステップSTEP2は実施例1のステップS12と同様であるため、詳しい説明を省略する。   This step STEP2 is also performed in two parts. Specifically, the input character image is roughly classified with respect to the stroke edge feature extracted at step STEP1, and the input character image is roughly classified with respect to the image pattern feature extracted at step STEP1. The purpose of roughly classifying these features is to output a plurality of candidate character codes having a high possibility by performing preliminary identification on the input character image. Since step STEP2 is the same as step S12 of the first embodiment, detailed description thereof is omitted.

ステップSTEP2により、ストロークエッジ特徴に基づく粗分類候補文字コードグループN1と、画像パターン特徴に基づく粗分類候補文字コードグループN2とが得られる。なお、二つの粗分類候補文字コードグループN1とN2中の候補文字コードは、それぞれ識別距離の昇順でソートされているものとする。   By step STEP2, coarse classification candidate character code group N1 based on the stroke edge feature and coarse classification candidate character code group N2 based on the image pattern feature are obtained. It is assumed that the candidate character codes in the two coarse classification candidate character code groups N1 and N2 are sorted in ascending order of the identification distance.

ステップSTEP3では、二つの粗分類候補文字コードグループN1とN2とをマージして、マージ候補文字コードグループMを生成する。   In step STEP3, the two rough classification candidate character code groups N1 and N2 are merged to generate a merge candidate character code group M.

ストロークエッジ特徴と画像パターン特徴とは異なる低品質文字に適しているため、ステップSTEP2により出力されたストロークエッジ特徴の粗分類候補文字コードグループN1と画像パターン特徴の粗分類候補文字コードグループN2とは大きく異なっている。従って、上記二つの粗分類候補文字コードグループを組み合わせて一つのマージ候補文字コードグループMを出力する必要がある。このマージ候補文字コードグループは、本実施例に係る識別方法の文字識別結果として出力されることになる。このマージ手順は、例えば和集合、積集合等のような複数種のアルゴリズムにより実施可能であり、本実施例においては、二つの候補文字コードグループの和集合をとるものとする。   Since the stroke edge feature and the image pattern feature are suitable for different low-quality characters, the stroke edge feature rough classification candidate character code group N1 and the image pattern feature coarse classification candidate character code group N2 output in step STEP2 are It is very different. Therefore, it is necessary to output one merge candidate character code group M by combining the two rough classification candidate character code groups. This merge candidate character code group is output as a character identification result of the identification method according to the present embodiment. This merging procedure can be performed by a plurality of kinds of algorithms such as a union set, a product set, and the like. In this embodiment, the union of two candidate character code groups is taken.

ステップSTEP3は実施例1のステップS2と同様であるため、詳しい説明を省略する。   Since step STEP3 is the same as step S2 of the first embodiment, detailed description thereof is omitted.

ステップSTEP3において、それぞれ粗分類候補文字コードの識別距離の増加度合いまたは文字画像のピクセル値の二種類のデータにより、候補文字コードグループから抽出すべき候補文字コードの個数を決定し、二つの粗分類候補文字コードグループN1’とN2’との和集合をとることにより、マージ候補文字コードグループMを取得する。ただし、粗分類候補文字コードグループから抽出される候補文字コードの個数は、文字画像の劣化度合いと正比例する。つまり、文字画像の劣化度合いが酷くなるほど、粗分類候補文字コードグループから抽出される候補文字コードの個数は多くなる。   In step STEP 3, the number of candidate character codes to be extracted from the candidate character code group is determined based on the two types of data, ie, the increase in the identification distance of the coarse classification candidate character codes or the pixel value of the character image. The merge candidate character code group M is obtained by taking the union of the candidate character code groups N1 ′ and N2 ′. However, the number of candidate character codes extracted from the coarse classification candidate character code group is directly proportional to the degree of deterioration of the character image. That is, as the degree of deterioration of the character image becomes severe, the number of candidate character codes extracted from the coarse classification candidate character code group increases.

実施例2においては、候補文字コードの抽出個数を決定する時に、実施例1に記載の三つのアルゴリズムを適用することが可能であるため、ここでは説明を省略する。   In the second embodiment, the three algorithms described in the first embodiment can be applied when determining the number of candidate character code extractions, and thus the description thereof is omitted here.

そして、二つの粗分類候補文字コードグループN1とN2中の候補文字コードはそれぞれ識別距離の昇順でソートされているため、個数が決定された後、二つの粗分類候補文字コードグループN1とN2のそれぞれから候補文字コードを識別距離の昇順で抽出する。   Since the candidate character codes in the two coarse classification candidate character code groups N1 and N2 are sorted in ascending order of the identification distance, after the number is determined, the two coarse classification candidate character code groups N1 and N2 Candidate character codes are extracted from each in ascending order of identification distance.

上記方法により抽出された二つの粗分類候補文字コードグループN1’とN2’に対して和集合をとることにより、マージ候補文字コードグループMを取得する。マージ候補文字コードグループMは、識別距離の順にソートされたストロークエッジ特徴の粗分類候補文字コードグループN1と画像パターン特徴の粗分類候補文字コードグループN2とを統合したものであるため、候補文字コードの範囲を効果的に拡大させることができる。また、画像劣化の度合いに基づいて候補文字コードを抽出するため、マージ候補文字コードグループMを文字識別結果として出力して、候補文字コードの正確さを効果的に向上させることができ、本発明の目的を達成することができる。   The merge candidate character code group M is obtained by taking the union of the two coarse classification candidate character code groups N1 'and N2' extracted by the above method. The merge candidate character code group M is a combination of the rough classification candidate character code group N1 of stroke edge features and the rough classification candidate character code group N2 of image pattern features sorted in order of identification distance. Can be effectively expanded. Further, since the candidate character code is extracted based on the degree of image degradation, the merge candidate character code group M can be output as a character identification result, and the accuracy of the candidate character code can be effectively improved. Can achieve the purpose.

低品質文字の手動による識別の利便さ及び自動識別の正確さをさらに向上させ、かつ、マージ候補文字コードグループの正確さに関してさらなる確認を行うために、本実施例では、マージ候補文字コードグループMを基として、識別速度は遅いものの識別性能を向上させる識別方法を利用した再分類を行う以下のステップが実行される。   In order to further improve the convenience of manual identification of low-quality characters and the accuracy of automatic identification and to further confirm the accuracy of merge candidate character code groups, in this embodiment, merge candidate character code groups M Based on the above, the following steps are performed to perform reclassification using an identification method that improves the identification performance although the identification speed is slow.

ステップSTEP4では、マージ候補文字コードグループMに対し、ストロークエッジ特徴と画像パターン特徴とのそれぞれに基づいて再分類を行うことにより、二つの識別距離の集合M1とM2を取得する。   In step STEP4, two sets of identification distances M1 and M2 are obtained by performing reclassification on the merge candidate character code group M based on the stroke edge feature and the image pattern feature.

図11に示すステップSTEP4は、二つの部分に分けて実施される。具体的に、第1の部分として、ストロークエッジ特徴に基づいてマージ候補文字コードグループM中の各候補文字コードの識別距離を算出して、ストロークエッジ特徴に基づく識別距離の集合M1を得る。また、第2の部分として、画像パターン特徴に基づいてマージ候補文字コードグループM中の各候補文字コードの識別距離を算出して、画像パターン特徴に基づく識別距離の集合M2を得る。   Step STEP4 shown in FIG. 11 is performed in two parts. Specifically, as a first part, the identification distance of each candidate character code in the merge candidate character code group M is calculated based on the stroke edge feature to obtain a set M1 of identification distances based on the stroke edge feature. Further, as a second part, the identification distance of each candidate character code in the merge candidate character code group M is calculated based on the image pattern feature to obtain a set M2 of identification distances based on the image pattern feature.

このため、再分類の手順が完了した後には、マージ候補文字コードグループM中の各候補文字コードのそれぞれに二つの識別距離が対応するようになる。また、上述したように、識別距離が小さいほど、候補文字コードの正確さが高い。   For this reason, after the reclassification procedure is completed, two identification distances correspond to each candidate character code in the merge candidate character code group M. Further, as described above, the smaller the identification distance, the higher the accuracy of the candidate character code.

ステップSTEP5では、二つの識別距離の集合M1とM2とにより、マージ候補文字コードグループM内の各候補文字コードの総合信頼度を算出することにより、総合信頼度集合Cを生成する。   In step STEP5, the total reliability set C is generated by calculating the total reliability of each candidate character code in the merge candidate character code group M from the two sets of identification distances M1 and M2.

図12に示すように、このステップSTEP5では信頼度という概念を使用している。信頼度とは、サンプルに基づいた推定結果が正解を示す所定の範囲内に入る確実性の度合いである。信頼度は通常パーセンテージ(%)で示される。例えば、95%の信頼度とは、サンプリングによる推定結果が全体の正確さと一致する可能性が95%で、一致しない可能性が5%であることを示している。   As shown in FIG. 12, this step STEP5 uses the concept of reliability. The reliability is a degree of certainty that an estimation result based on a sample falls within a predetermined range indicating a correct answer. Confidence is usually expressed as a percentage (%). For example, the reliability of 95% indicates that the possibility that the estimation result by sampling coincides with the overall accuracy is 95%, and the possibility that it does not coincide is 5%.

マージ候補文字コードグループMの中の各候補文字コードそれぞれが二つの識別距離を有しているため、二つの識別距離の集合M1とM2とが生成される。このステップSTEP5では、二つの識別距離の集合M1とM2とにより、各候補文字コード毎に一つの総合信頼度を算出して、この候補文字コードの総合信頼度の集合をCとする。   Since each candidate character code in the merge candidate character code group M has two identification distances, two sets of identification distances M1 and M2 are generated. In step STEP5, one total reliability is calculated for each candidate character code from the two sets of identification distances M1 and M2, and the set of the total reliability of the candidate character code is C.

総合信頼度Cは、ストロークエッジ特徴に基づく信頼度と画像パターン特徴に基づく信頼度とを総合的に考慮したものであるため、全体的な信頼度である。この総合信頼度Cは、例えば加算・積算などの複数の方法により得られる。本実施例においては、総合信頼度Cは、ストロークエッジ特徴に基づく信頼度と画像パターン特徴に基づく信頼度との和である。   The total reliability C is an overall reliability because the reliability based on the stroke edge feature and the reliability based on the image pattern feature are comprehensively considered. This total reliability C is obtained by a plurality of methods such as addition and integration, for example. In this embodiment, the total reliability C is the sum of the reliability based on the stroke edge feature and the reliability based on the image pattern feature.

例えば、I番目の候補文字コードの総合信頼度は、下記の式
C(I)=Cl(I)+Cg(I)
により得られる。ただし、Cl(I)はストロークエッジ特徴により算出されたI番目の候補文字コードの信頼度であり、Cg(I)は画像パターン特徴により算出されたI番目の候補文字コードの信頼度である。
For example, the total reliability of the I-th candidate character code is given by the following formula C (I) = C l (I) + C g (I)
Is obtained. Where C l (I) is the reliability of the I-th candidate character code calculated by the stroke edge feature, and C g (I) is the reliability of the I-th candidate character code calculated by the image pattern feature. is there.

なお、上記の二つの信頼度Cl(I)とCg(I)は、それぞれ、ストロークエッジ特徴に基づく識別距離の集合M1と画像パターン特徴に基づく識別距離の集合M2とから算出される。信頼度の算出には、統計学における複数の方法が応用可能である。 The two reliability levels C 1 (I) and C g (I) are calculated from a set of identification distances M1 based on stroke edge features and a set of discrimination distances M2 based on image pattern features, respectively. A plurality of methods in statistics can be applied to the calculation of the reliability.

本実施例においては、この識別方法により、ストロークエッジ特徴に基づいて生成したI番目の候補文字コードの識別距離がM1(I)であるとすると、識別距離が小さいほど、入力文字画像がストロークエッジ特徴に基づく候補文字コードのいずれかに該当する可能性が高い。この場合に、ストロークエッジ特徴に基づいて算出される信頼度は
となる。
In this embodiment, if the identification distance of the I-th candidate character code generated based on the stroke edge feature is M1 (I) by this identification method, the smaller the identification distance is, the more the input character image becomes the stroke edge. There is a high possibility that it corresponds to one of the candidate character codes based on the features. In this case, the reliability calculated based on the stroke edge feature is
It becomes.

また、この識別方法により、画像パターン特徴に基づいて生成したI番目の候補文字コードの識別距離がM2(I)であるとすると、識別距離が小さいほど、入力文字画像が画像パターン特徴に基づく候補文字コードのいずれかに該当する可能性が高い。この場合に、画像パターン特徴に基づいて算出される信頼度は
となる。
Further, when the identification distance of the I-th candidate character code generated based on the image pattern feature by this identification method is M2 (I), the input character image is a candidate based on the image pattern feature as the identification distance is smaller. Most likely one of the character codes. In this case, the reliability calculated based on the image pattern feature is
It becomes.

これにより分かるように、信頼度の数値範囲は0〜1の間であり、信頼度が高いほど、上記の識別方法による候補文字コードに対する識別結果の正確さが高くなる。
そして、I番目の候補文字コードの二つの信頼度Cl(I)とCg(I)とを加算することにより、I番目の候補文字コードの総合信頼度C(I)が算出される。
As can be seen, the numerical range of the reliability is between 0 and 1, and the higher the reliability, the higher the accuracy of the identification result for the candidate character code by the above-described identification method.
Then, the total reliability C (I) of the I-th candidate character code is calculated by adding the two reliability C l (I) and C g (I) of the I-th candidate character code.

ステップSTEP6では、マージ候補文字コードグループMを、総合信頼度集合Cの降順にソートして、最適の候補文字コードグループM’を出力する。   In step STEP6, the merge candidate character code groups M are sorted in descending order of the comprehensive reliability set C, and the optimum candidate character code group M 'is output.

最後に、図11に示すように、全ての候補文字コードを、総合信頼度C(I)の降順に新たにソートして、ソートされた候補文字コードグループを最終結果として出力する。総合信頼度の降順にソートされた候補文字コードグループはM’となる。   Finally, as shown in FIG. 11, all candidate character codes are newly sorted in descending order of the overall reliability C (I), and the sorted candidate character code groups are output as final results. The candidate character code group sorted in descending order of the overall reliability is M ′.

以下に、実施例2に係る低品質文字を識別する手順による効果について詳細に説明する。   Below, the effect by the procedure which identifies the low quality character which concerns on Example 2 is demonstrated in detail.

図13に示すように、実施例2に係る識別方法により、識別対象の文字である
[文字7]
という文字を識別することにする。まず、
[文字8]
という文字に対して、そのストロークエッジ特徴と画像パターン特徴とをそれぞれ抽出する。その後、ストロークエッジ特徴と画像パターン特徴とについてそれぞれ粗分類を行うことにより、ストロークエッジ特徴に基づく粗分類候補文字コードグループN1と画像パターン特徴に基づく粗分類候補文字コードグループN2とを取得する。ただし、ストロークエッジ特徴に基づく粗分類候補文字コードグループN1は、識別距離の順にソートされた
[文字9]
等を含む。画像パターン特徴に基づく粗分類候補文字コードグループN2は、識別距離の順にソートされた
[文字10]
等を含む。
As illustrated in FIG. 13, [Character 7], which is a character to be identified, by the identification method according to the second embodiment.
Will be identified. First,
[Character 8]
The stroke edge feature and the image pattern feature are respectively extracted from the character "." Thereafter, the rough classification candidate character code group N1 based on the stroke edge feature and the rough classification candidate character code group N2 based on the image pattern feature are acquired by performing rough classification on the stroke edge feature and the image pattern feature, respectively. However, the rough classification candidate character code group N1 based on the stroke edge feature is sorted in the order of the identification distance [character 9].
Etc. The coarse classification candidate character code group N2 based on the image pattern feature is sorted in the order of the identification distance [character 10].
Etc.

本実施例では、それぞれの粗分類候補文字コードの識別距離の増加度合いにより、候補文字コードグループから抽出する候補文字コードの個数を決定する。このステップにより、抽出された二つの粗分類候補文字コードグループN1’とN2’とが得られる。ただし、N1’は、識別距離の順にソートされた
[文字11]
を含み、N2’は、識別距離の順にソートされた
「受、采」
を含む。これらの両方に対して和集合をとると、マージ候補文字コードグループMである
[文字12]
が得られる。
In this embodiment, the number of candidate character codes to be extracted from the candidate character code group is determined according to the degree of increase in the identification distance of each coarse classification candidate character code. By this step, two extracted rough classification candidate character code groups N1 ′ and N2 ′ are obtained. However, N1 ′ is sorted in order of identification distance [character 11]
N2 ′ is sorted in the order of the identification distances.
including. When the union is taken for both of these, the merge candidate character code group M is [character 12].
Is obtained.

候補文字コードの正確さをさらに向上させるために、上記のマージ候補文字コードグループに対し、それぞれストロークエッジ特徴と画像パターン特徴とに基づいて再分類を行うことにより、2種類の識別距離M1とM2が得られる。本実施例に係る総合信頼度の算出方法によれば、まず、2種類の識別距離M1とM2とに基づき、マージされた候補文字コードグループMである
[文字13]
内の各候補文字コードの二つの信頼度Cl(I)とCg(I)とを算出してから、各候補文字コードに対応するCl(I)とCg(I)とを加算して、候補文字コードの総合信頼度C(I)を取得する。マージ候補文字コードグループMである
[文字14]
に対して、上記の総合信頼度C(I)の値の降順にソートして、最適の候補文字コードグループM’である
[文字15]
を出力する。
In order to further improve the accuracy of the candidate character code, the above-described merge candidate character code group is reclassified based on the stroke edge feature and the image pattern feature, respectively, thereby providing two types of identification distances M1 and M2. Is obtained. According to the calculation method of the total reliability according to the present embodiment, first, the candidate character code group M merged based on the two types of identification distances M1 and M2 [character 13].
After calculating two reliability C l (I) and C g (I) of each candidate character code, add C l (I) and C g (I) corresponding to each candidate character code Then, the overall reliability C (I) of the candidate character code is acquired. [Character 14] which is the merge candidate character code group M
Are sorted in descending order of the value of the total reliability C (I), and are the optimum candidate character code group M ′ [character 15].
Is output.

実施例2においては、実施例1により得られる候補文字コードグループMを基に、再分類により候補文字コードグループMの2種類の識別距離M1とM2を算出して、識別距離を信頼度へ変換してから、総合信頼度によってソートする。したがって、実施例2においては、正しい識別結果が最適の候補文字コードグループM’内の先頭の候補文字コードとなるようにソートされる。これにより分かるように、再分類により識別距離を計算して総合信頼度へ変換し、総合信頼度によって候補文字コードをソートすることにより、実施例1の効果に加え、更に、低品質文字の手動による識別の利便性及び自動識別の正確さを向上させることができる。   In the second embodiment, based on the candidate character code group M obtained in the first embodiment, two types of identification distances M1 and M2 of the candidate character code group M are calculated by reclassification, and the identification distance is converted into reliability. Then sort by total confidence. Therefore, in the second embodiment, sorting is performed so that the correct identification result is the first candidate character code in the optimum candidate character code group M ′. As can be seen, the classification distance is calculated by reclassification, converted into the overall reliability, and the candidate character codes are sorted by the overall reliability. The convenience of identification and the accuracy of automatic identification can be improved.

[低品質文字の識別装置]
以下、図面を参照して、上記実施例に係る低品質文字の識別装置の詳細を説明する。
[Low-quality character recognition device]
Hereinafter, with reference to the drawings, details of the low-quality character identifying apparatus according to the above embodiment will be described.

図14に示すように、低品質文字の識別装置は、文字入力手段0以外に、主に、ストロークエッジ特徴処理手段1と、画像パターン特徴処理手段2と、粗分類結果マージ手段3とを備える。   As shown in FIG. 14, in addition to the character input unit 0, the low-quality character identification device mainly includes a stroke edge feature processing unit 1, an image pattern feature processing unit 2, and a coarse classification result merging unit 3. .

さらに、低品質文字の識別装置は、第一再分類手段4と、第二再分類手段5と、再分類結果統合手段6と、結果出力手段7とを備えてもよい。   Further, the low-quality character identification device may include a first reclassification unit 4, a second reclassification unit 5, a reclassification result integration unit 6, and a result output unit 7.

なお、ストロークエッジ特徴処理手段1は、ストロークエッジ特徴抽出モジュール11とストロークエッジ特徴粗分類モジュール12とを含み、画像パターン特徴処理手段2は、画像パターン特徴抽出モジュール21と画像パターン特徴粗分類モジュール22とを含む。   The stroke edge feature processing means 1 includes a stroke edge feature extraction module 11 and a stroke edge feature rough classification module 12, and the image pattern feature processing means 2 includes an image pattern feature extraction module 21 and an image pattern feature rough classification module 22. Including.

この低品質文字の識別装置では、文字入力手段0を介して識別対象の文字画像を受信した後、ストロークエッジ特徴抽出モジュール11が上記の入力文字画像に対して、ストロークエッジ特徴に基づく識別方法を用いて、ストロークエッジ特徴を抽出する。   In this low quality character identification device, after receiving the character image to be identified through the character input means 0, the stroke edge feature extraction module 11 performs an identification method based on the stroke edge feature on the input character image. To extract stroke edge features.

画像パターン特徴抽出モジュール21は、上記の入力文字画像に対して、階調文字画像から文字の画像パターン特徴を抽出する識別方法を用いて、画像パターン特徴を抽出する。   The image pattern feature extraction module 21 extracts an image pattern feature from the input character image using an identification method for extracting a character image pattern feature from a gradation character image.

ストロークエッジ特徴と画像パターン特徴の抽出には、種々のアルゴリズムを用いることが可能であるが、これらのアルゴリズムの全てを本実施例に適用することができる。なお、ストロークエッジ特徴を抽出するアルゴリズムとしては、本明細書の背景技術及び実施例に記載されたものを用いることができる。   Various algorithms can be used to extract the stroke edge feature and the image pattern feature, but all of these algorithms can be applied to this embodiment. Note that the algorithm described in the background art and examples of this specification can be used as an algorithm for extracting the stroke edge feature.

ストロークエッジ特徴抽出モジュール11は、抽出されたストロークエッジ特徴をストロークエッジ特徴粗分類モジュール12へ送信する。ストロークエッジ特徴粗分類モジュール12は、ストロークエッジ特徴を受信した後、ストロークエッジ特徴に基づいて、入力文字画像に対する粗分類を行うことにより、ストロークエッジ特徴に基づく粗分類候補文字コードグループN1を取得し、識別距離により粗分類候補文字コードグループN1内の候補文字コードをソートする。   The stroke edge feature extraction module 11 transmits the extracted stroke edge feature to the stroke edge feature rough classification module 12. After receiving the stroke edge feature, the stroke edge feature coarse classification module 12 performs rough classification on the input character image based on the stroke edge feature, thereby obtaining a rough classification candidate character code group N1 based on the stroke edge feature. The candidate character codes in the coarse classification candidate character code group N1 are sorted according to the identification distance.

画像パターン特徴抽出モジュール21は、抽出された画像パターン特徴を画像パターン特徴粗分類モジュール22へ送信する。画像パターン特徴粗分類モジュール22は、画像パターン特徴を受信した後、画像パターン特徴に基づいて、入力文字画像に対する粗分類を行うことにより、画像パターン特徴に基づく粗分類候補文字コードグループN2を取得し、識別距離により粗分類候補文字コードグループN2内の候補文字コードをソートする。   The image pattern feature extraction module 21 transmits the extracted image pattern features to the image pattern feature rough classification module 22. After receiving the image pattern feature, the image pattern feature coarse classification module 22 performs rough classification on the input character image based on the image pattern feature, thereby obtaining a rough classification candidate character code group N2 based on the image pattern feature. The candidate character codes in the coarse classification candidate character code group N2 are sorted according to the identification distance.

ストロークエッジ特徴と画像パターン特徴とは、異なる低品質文字を扱う際に相補的な関係を有するため、ストロークエッジ特徴に基づく粗分類候補文字コードグループN1と画像パターン特徴に基づく粗分類候補文字コードグループN2とは大きく異なっている。そのため、粗分類結果マージ手段3は、二つの粗分類候補文字コードグループを組み合わせて、一つのマージ粗分類候補文字コードグループMを出力する。   Since the stroke edge feature and the image pattern feature have a complementary relationship when different low quality characters are handled, the coarse classification candidate character code group N1 based on the stroke edge feature and the coarse classification candidate character code group based on the image pattern feature It is very different from N2. Therefore, the coarse classification result merge means 3 combines two coarse classification candidate character code groups and outputs one merge coarse classification candidate character code group M.

マージの手順の前に、粗分類候補文字コードの識別距離の増加度合い或いは文字画像のピクセル値のそれぞれにより、候補文字コードグループから抽出すべき候補文字コードの個数を決定し、抽出された二つの粗分類候補文字コードグループN1’とN2’との和集合をとることにより、マージ候補文字コードグループMを取得する。ただし、決定された粗分類候補文字コードグループから抽出すべき候補文字コードの個数は、文字画像の劣化度合いと正比例する。つまり、文字画像の劣化が酷くなるほど粗分類候補文字コードグループから抽出される候補文字コードの個数は多くなる。   Before the merging procedure, the number of candidate character codes to be extracted from the candidate character code group is determined according to the increase in the identification distance of the coarse classification candidate character codes or the pixel value of the character image, and the two extracted The merge candidate character code group M is obtained by taking the union of the coarse classification candidate character code groups N1 ′ and N2 ′. However, the number of candidate character codes to be extracted from the determined rough classification candidate character code group is directly proportional to the degree of deterioration of the character image. That is, the number of candidate character codes extracted from the coarse classification candidate character code group increases as the deterioration of the character image becomes severe.

粗分類結果マージ手段3は、決定された個数の候補文字コードをそれぞれの候補文字コードグループN1とN2から抽出することにより得られた二つの粗分類候補文字コードに対して和集合をとることにより、マージ候補文字コードグループMを取得する。   The coarse classification result merging means 3 takes the union of two coarse classification candidate character codes obtained by extracting the determined number of candidate character codes from the respective candidate character code groups N1 and N2. The merge candidate character code group M is acquired.

このマージの手順は、例えば和集合、積集合等のような複数のアルゴリズムにより実施可能であり、本実施例においては、二つの粗分類候補文字コードグループの和集合をとる方法を採用している。   This merging procedure can be performed by a plurality of algorithms such as union, intersection, etc., and in this embodiment, a method of taking the union of two coarse classification candidate character code groups is adopted. .

粗分類結果マージ手段3は、マージ候補文字コードグループMをそれぞれ第一再分類手段4と第二再分類手段5とに送信する。   The coarse classification result merging means 3 transmits the merge candidate character code group M to the first reclassifying means 4 and the second reclassifying means 5, respectively.

第一再分類手段4と第二再分類手段5とがマージ候補文字コードグループMを受信した後、第一再分類手段4は、ストロークエッジ特徴を利用してマージ候補文字コードグループM中の各候補文字コードの識別距離を算出することにより、ストロークエッジ特徴に基づく識別距離の集合M1を取得して、識別距離の集合M1を再分類結果統合手段6に送信する。   After the first reclassification unit 4 and the second reclassification unit 5 receive the merge candidate character code group M, the first reclassification unit 4 uses the stroke edge feature to each of the merge candidate character code groups M. By calculating the identification distance of the candidate character code, an identification distance set M1 based on the stroke edge feature is acquired, and the identification distance set M1 is transmitted to the reclassification result integrating means 6.

第二再分類手段5は、画像パターン特徴を利用してマージ候補文字コードグループM中の各候補文字コードの識別距離を算出することにより、画像パターン特徴に基づく識別距離の集合M2を取得して、識別距離の集合M2を再分類結果統合手段6に送信する。   The second reclassifying unit 5 obtains a set M2 of identification distances based on the image pattern features by calculating the identification distances of the candidate character codes in the merge candidate character code group M using the image pattern features. Then, the set M2 of identification distances is transmitted to the reclassification result integrating means 6.

第一再分類手段4と第二再分類手段5とによる処理を経て、マージ候補文字コードグループ中の各候補文字コードは二つの識別距離に対応することになる。再分類結果統合手段6は、各候補文字コードの二つの識別距離により、候補文字コード毎に一つの総合信頼度を算出する。このマージ候補文字コードの総合信頼度の集合はCである。この総合信頼度のアルゴリズムについては、上記実施例において述べた通りである。   Through the processing by the first reclassification means 4 and the second reclassification means 5, each candidate character code in the merge candidate character code group corresponds to two identification distances. The reclassification result integration unit 6 calculates one total reliability for each candidate character code based on the two identification distances of each candidate character code. A set of total reliability of the merge candidate character code is C. The algorithm of the total reliability is as described in the above embodiment.

最後に、再分類結果統合手段6は、候補文字ごとの総合信頼度を結果出力手段7に送信し、結果出力手段7は、全ての候補文字コードを総合信頼度の降順に新たにソートして、ソートされた候補文字コードグループM’を最終結果として出力する。   Finally, the reclassification result integration unit 6 transmits the total reliability for each candidate character to the result output unit 7, and the result output unit 7 newly sorts all candidate character codes in descending order of the total reliability. The sorted candidate character code group M ′ is output as the final result.

以上、本発明の実施例の詳細について説明したが、上記の内容及び具体的な実施態様は、本発明に係る技術の実用性を示すことを意図するものであって、本発明に係る請求の範囲を限定するためのものではない。当業者が本発明の趣旨及び原理を逸脱しない範囲で種々の変更、同等の変換或いは改善を実施することが可能なことは明らかである。本発明に係る請求の範囲は、添付された請求の範囲に準じる。   Although the details of the embodiments of the present invention have been described above, the above contents and specific embodiments are intended to show the practicality of the technology according to the present invention, and the claims according to the present invention It is not intended to limit the scope. It is obvious that those skilled in the art can implement various changes, equivalent conversions or improvements without departing from the spirit and principle of the present invention. The scope of the claims according to the present invention conforms to the scope of the appended claims.

以上の実施例に関して、さらに以下の付記を開示する。   The following additional notes are disclosed with respect to the above embodiments.

(付記1)ストロークエッジ特徴と画像パターン特徴とに基づいて識別対象の文字を識別することにより、それぞれストロークエッジ特徴と画像パターン特徴とに対応する2つの候補文字コードグループを取得する識別ステップと、
前記2つの候補文字コードグループ内の候補文字コードをマージすることにより、マージ候補文字コードグループを決定するマージステップと、
前記マージ候補文字コードグループに対し、ストロークエッジ特徴と画像パターン特徴とのそれぞれに関する演算を行うことにより、2種類の識別距離を取得する演算ステップと、
前記2種類の識別距離に基づいて最適候補文字コードを決定する決定ステップと、
を含むことを特徴とする低品質文字の識別方法。
(Appendix 1) An identification step of acquiring two candidate character code groups respectively corresponding to the stroke edge feature and the image pattern feature by identifying the character to be identified based on the stroke edge feature and the image pattern feature;
Merging to determine a merge candidate character code group by merging candidate character codes in the two candidate character code groups;
A calculation step for obtaining two types of identification distances by performing a calculation for each of the stroke edge feature and the image pattern feature for the merge candidate character code group;
A determination step of determining an optimal candidate character code based on the two types of identification distances;
A method for identifying low quality characters, comprising:

(付記2)前記マージステップは、
前記2つの候補文字コードグループのそれぞれから全部又は一部の候補文字コードを抽出して、前記全部又は一部の候補文字コードの和集合をとることにより、マージ候補文字コードグループを決定することを特徴とする付記1に記載の低品質文字の識別方法。
(Supplementary Note 2) The merge step includes
Extracting all or part of the candidate character codes from each of the two candidate character code groups, and determining a merge candidate character code group by taking a union of all or part of the candidate character codes. The method for identifying low-quality characters according to Supplementary Note 1, which is a feature.

(付記3)前記マージステップは、
候補文字コードの個数を決定することにより、前記全部又は一部の候補文字コードを抽出することを特徴とする付記2に記載の低品質文字の識別方法。
(Supplementary Note 3) The merge step includes
The low-quality character identification method according to appendix 2, wherein all or part of the candidate character codes are extracted by determining the number of candidate character codes.

(付記4)各候補文字コードグループから抽出される候補文字コードの個数は、文字画像の劣化度合いと正比例することを特徴とする付記3に記載の低品質文字の識別方法。 (Supplementary note 4) The low quality character identification method according to supplementary note 3, wherein the number of candidate character codes extracted from each candidate character code group is directly proportional to the degree of deterioration of the character image.

(付記5)各候補文字コードグループから抽出される候補文字コードの個数は、候補文字コードグループ内の一番目の候補文字コードと二番目の候補文字コードとの識別距離の差を基準とし、K(Kは自然数)番目とK+1番目の候補文字コードとの識別距離の差が基準の所定数倍未満である場合、前記候補文字コードグループからK個の候補文字コードを抽出するアルゴリズムにより決定されることを特徴とする付記3に記載の低品質文字の識別方法。 (Supplementary Note 5) The number of candidate character codes extracted from each candidate character code group is based on the difference in identification distance between the first candidate character code and the second candidate character code in the candidate character code group. (K is a natural number) If the difference in identification distance between the Kth and K + 1th candidate character code is less than a predetermined number times the reference, it is determined by an algorithm that extracts K candidate character codes from the candidate character code group. The identification method of the low quality character of the additional statement 3 characterized by the above-mentioned.

(付記6)各候補文字コードグループから抽出される候補文字コードの個数は、候補文字コードグループがN個の候補文字コードを含む場合において、
文字画像の高さのピクセル数と幅のピクセル数とのうちの大きい方がnピクセルより少ない場合、前記候補文字コードグループから抽出すべき候補文字コードの個数をNとし、
文字画像の高さのピクセル数と幅のピクセル数とのうちの大きい方がmピクセルより多い場合、前記候補文字コードグループから抽出すべき候補文字コードの個数をN’とし、
文字画像の高さのピクセル数と幅のピクセル数とのうちの大きい方がnピクセル以上mピクセル以下である場合、前記候補文字コードグループから抽出すべき候補文字コードの個数を
とする(ただし、Sは文字画像の高さのピクセル数と幅のピクセル数とのうちの大きい方のピクセル数であり、m、n、N、及びN’は、ユーザにより設定可能であり、且つ、m>nである)アルゴリズムにより決定されることを特徴とする付記3に記載の低品質文字の識別方法。
(Supplementary Note 6) The number of candidate character codes extracted from each candidate character code group is as follows. When the candidate character code group includes N candidate character codes,
If the larger of the number of pixels in the height of the character image and the number of pixels in the width is less than n pixels, the number of candidate character codes to be extracted from the candidate character code group is N,
If the larger of the number of pixels in the height of the character image and the number of pixels in the width is more than m pixels, the number of candidate character codes to be extracted from the candidate character code group is N ′,
When the larger of the number of pixels of the height of the character image and the number of pixels of the width is n pixels or more and m pixels or less, the number of candidate character codes to be extracted from the candidate character code group is
(Where S is the larger number of pixels in the height and width of the character image, and m, n, N, and N ′ can be set by the user, The identification method of low quality characters according to supplementary note 3, wherein the identification method is determined by an algorithm (where m> n).

(付記7)各候補文字コードグループから抽出される候補文字コードの個数は、候補文字コードグループがN個の候補文字コードを含み、かつ、前記マージ候補文字コードグループに属する候補文字コードとして抽出すべき候補文字コードの最小個数がN’である場合において、
文字画像のヒストグラムにおけるストロークを示すピクセル値と背景を示すピクセル値との間の領域の面積と、ヒストグラムの全領域の面積との比がRである場合、前記候補文字コードグループから抽出すべき候補文字コードの個数を
N−R×(N−N’)
とする(ただし、0≦R≦1、N及びN’はユーザにより設定可能である)アルゴリズムにより決定されることを特徴とする付記3に記載の低品質文字の識別方法。
(Supplementary Note 7) The number of candidate character codes extracted from each candidate character code group is extracted as a candidate character code that includes N candidate character codes and that belongs to the merge candidate character code group. When the minimum number of power candidate character codes is N ′,
Candidates to be extracted from the candidate character code group when the ratio of the area between the pixel value indicating the stroke and the pixel value indicating the background in the histogram of the character image and the area of the entire area of the histogram is R The number of character codes is N−R × (N−N ′)
(Note that 0 ≦ R ≦ 1, N and N ′ can be set by the user). 4. The method for identifying low-quality characters according to supplementary note 3, wherein:

(付記8)前記決定ステップは、
2種類の識別距離を統合させて得られる前記マージ候補文字コードグループの正確さに応じて、前記最適候補文字コードを決定することを特徴とする付記1に記載の低品質文字の識別方法。
(Appendix 8) The determination step includes
The low quality character identification method according to appendix 1, wherein the optimum candidate character code is determined according to the accuracy of the merge candidate character code group obtained by integrating two types of identification distances.

(付記9)前記マージ候補文字コードグループの正確さは、総合信頼度(C(I))により得られ、前記総合信頼度(C(I))は、ストロークエッジ特徴に基づく信頼度(Cl(I))と画像パターン特徴に基づく信頼度(Cg(I))との和、
C(I)=Cl(I)+Cg(I)
であることを特徴とする付記8に記載の低品質文字の識別方法。
(Supplementary Note 9) The accuracy of the merge candidate character code group is obtained by the overall reliability (C (I)), and the overall reliability (C (I)) is the reliability based on the stroke edge feature (C l (I)) and the reliability based on image pattern features (C g (I)),
C (I) = C l (I) + C g (I)
The method for identifying low-quality characters according to supplementary note 8, wherein:

(付記10)識別対象の文字のストロークエッジ特徴を抽出し、このストロークエッジ特徴に基づいて識別を行うことにより、第1の候補文字コードグループを取得するストロークエッジ特徴処理手段と、
識別対象の文字の画像パターン特徴を抽出し、この画像パターン特徴に基づいて識別を行うことにより、第2の候補文字コードグループを取得する画像パターン特徴処理手段と、
前記第1の候補文字コードグループと前記第2の候補文字コードグループとをマージすることにより、マージ候補文字コードグループを生成するマージ手段と、
ストロークエッジ特徴に基づいて、前記マージ候補文字コードグループの各候補文字コードの識別距離を算出するストロークエッジ特徴再処理手段と、
画像パターン特徴に基づいて、前記マージ候補文字コードグループの各候補文字コードの識別距離を算出する画像パターン特徴再処理手段と、
前記ストロークエッジ特徴再処理手段及び前記画像パターン特徴再処理手段によって算出される2種類の識別距離を統合することにより、各候補文字コードの総合信頼度を取得する統合手段と、
総合信頼度から最適候補文字コードを出力する出力手段と、
を備えることを特徴とする低品質文字の識別装置。
(Supplementary Note 10) Stroke edge feature processing means for extracting a stroke edge feature of a character to be identified and obtaining a first candidate character code group by performing identification based on the stroke edge feature;
Image pattern feature processing means for obtaining a second candidate character code group by extracting an image pattern feature of a character to be identified and performing identification based on the image pattern feature;
Merging means for generating a merge candidate character code group by merging the first candidate character code group and the second candidate character code group;
Stroke edge feature reprocessing means for calculating an identification distance of each candidate character code of the merge candidate character code group based on a stroke edge feature;
Image pattern feature reprocessing means for calculating an identification distance of each candidate character code of the merge candidate character code group based on an image pattern feature;
An integration unit that acquires the total reliability of each candidate character code by integrating two types of identification distances calculated by the stroke edge feature reprocessing unit and the image pattern feature reprocessing unit;
An output means for outputting the optimum candidate character code from the overall reliability;
An apparatus for identifying low-quality characters, comprising:

異なる劣化度合いに対する2つの識別方法の相補的な関係を示す図である。It is a figure which shows the complementary relationship of two identification methods with respect to a different deterioration degree. フォントによる文字画像の違いを示す図である。It is a figure which shows the difference of the character image by a font. 異なるサイズの文字画像及び二値画像の具体例を示す図である。It is a figure which shows the specific example of the character image of a different size, and a binary image. ストロークエッジ特徴及び画像パターン特徴に基づく識別方法の処理を示すフローチャートである。It is a flowchart which shows the process of the identification method based on a stroke edge feature and an image pattern feature. 2つの識別方法のいずれかを選択して低品質文字を識別する処理を示すフローチャートである。It is a flowchart which shows the process which selects one of two identification methods and identifies a low quality character. 実施例に係る低品質文字の識別方法を示すフローチャートである。It is a flowchart which shows the identification method of the low quality character which concerns on an Example. 実施例1に係る低品質文字の識別方法を示すフローチャートである。3 is a flowchart illustrating a method for identifying low-quality characters according to the first embodiment. 実施例1に係るステップS1の詳細手順を示すフローチャートである。5 is a flowchart illustrating a detailed procedure of step S1 according to the first embodiment. 実施例1に係るステップS2の詳細手順を示すフローチャートである。It is a flowchart which shows the detailed procedure of step S2 which concerns on Example 1. FIG. 実施例1に係る低品質文字の識別方法の手順の具体例を示す図である。It is a figure which shows the specific example of the procedure of the identification method of the low quality character which concerns on Example 1. FIG. 実施例2に係る低品質文字の識別方法を示すフローチャートである。10 is a flowchart illustrating a method for identifying low-quality characters according to a second embodiment. 実施例2に係るステップSTEP5の詳細手順を示すフローチャートである。It is a flowchart which shows the detailed procedure of step STEP5 which concerns on Example 2. FIG. 実施例2に係る低品質文字の識別方法の手順の具体例を示す図である。It is a figure which shows the specific example of the procedure of the identification method of the low quality character which concerns on Example 2. FIG. 実施例に係る低品質文字の識別装置の構成を示すブロック図である。It is a block diagram which shows the structure of the identification apparatus of the low quality character which concerns on an Example.

符号の説明Explanation of symbols

0 文字入力手段
1 ストロークエッジ特徴処理手段
11 ストロークエッジ特徴抽出モジュール
12 ストロークエッジ特徴粗分類モジュール
2 画像パターン特徴処理手段
21 画像パターン特徴抽出モジュール
22 画像パターン特徴粗分類モジュール
3 粗分類結果マージ手段
4 第一再分類手段
5 第二再分類手段
6 再分類結果統合手段
7 結果出力手段
0 Character input means 1 Stroke edge feature processing means 11 Stroke edge feature extraction module 12 Stroke edge feature rough classification module 2 Image pattern feature processing means 21 Image pattern feature extraction module 22 Image pattern feature coarse classification module 3 Coarse classification result merge means 4 One reclassification means 5 Second reclassification means 6 Reclassification result integration means 7 Result output means

Claims (10)

ストロークエッジ特徴と画像パターン特徴とに基づいて識別対象の文字を識別することにより、それぞれストロークエッジ特徴と画像パターン特徴とに対応する2つの候補文字コードグループを取得する識別ステップと、
前記2つの候補文字コードグループ内の候補文字コードをマージすることにより、マージ候補文字コードグループを決定するマージステップと、
前記マージ候補文字コードグループに対し、ストロークエッジ特徴と画像パターン特徴とのそれぞれに関する演算を行うことにより、2種類の識別距離を取得する演算ステップと、
前記2種類の識別距離に基づいて最適候補文字コードを決定する決定ステップと、
を含むことを特徴とする低品質文字の識別方法。
An identification step of acquiring two candidate character code groups respectively corresponding to the stroke edge feature and the image pattern feature by identifying the character to be identified based on the stroke edge feature and the image pattern feature;
Merging to determine a merge candidate character code group by merging candidate character codes in the two candidate character code groups;
A calculation step for obtaining two types of identification distances by performing a calculation for each of the stroke edge feature and the image pattern feature for the merge candidate character code group;
A determination step of determining an optimal candidate character code based on the two types of identification distances;
A method for identifying low quality characters, comprising:
前記マージステップは、
前記2つの候補文字コードグループのそれぞれから全部又は一部の候補文字コードを抽出して、前記全部又は一部の候補文字コードの和集合をとることにより、マージ候補文字コードグループを決定することを特徴とする請求項1に記載の低品質文字の識別方法。
The merging step includes
Extracting all or part of the candidate character codes from each of the two candidate character code groups, and determining a merge candidate character code group by taking a union of all or part of the candidate character codes. The low quality character identification method according to claim 1, wherein:
前記マージステップは、
候補文字コードの個数を決定することにより、前記全部又は一部の候補文字コードを抽出することを特徴とする請求項2に記載の低品質文字の識別方法。
The merging step includes
The method for identifying low-quality characters according to claim 2, wherein all or part of the candidate character codes are extracted by determining the number of candidate character codes.
各候補文字コードグループから抽出される候補文字コードの個数は、文字画像の劣化度合いと正比例することを特徴とする請求項3に記載の低品質文字の識別方法。   4. The low quality character identification method according to claim 3, wherein the number of candidate character codes extracted from each candidate character code group is directly proportional to the degree of deterioration of the character image. 各候補文字コードグループから抽出される候補文字コードの個数は、候補文字コードグループ内の一番目の候補文字コードと二番目の候補文字コードとの識別距離の差を基準とし、K(Kは自然数)番目とK+1番目の候補文字コードとの識別距離の差が基準の所定数倍未満である場合、前記候補文字コードグループからK個の候補文字コードを抽出するアルゴリズムにより決定されることを特徴とする請求項3に記載の低品質文字の識別方法。   The number of candidate character codes extracted from each candidate character code group is based on the difference in identification distance between the first candidate character code and the second candidate character code in the candidate character code group, and K (K is a natural number) ) When the difference between the identification distances of the (th) and (K + 1) th candidate character code is less than a predetermined number of times the reference, it is determined by an algorithm that extracts K candidate character codes from the candidate character code group. The method for identifying low-quality characters according to claim 3. 各候補文字コードグループから抽出される候補文字コードの個数は、候補文字コードグループがN個の候補文字コードを含む場合において、
文字画像の高さのピクセル数と幅のピクセル数とのうちの大きい方がnピクセルより少ない場合、前記候補文字コードグループから抽出すべき候補文字コードの個数をNとし、
文字画像の高さのピクセル数と幅のピクセル数とのうちの大きい方がmピクセルより多い場合、前記候補文字コードグループから抽出すべき候補文字コードの個数をN’とし、
文字画像の高さのピクセル数と幅のピクセル数とのうちの大きい方がnピクセル以上mピクセル以下である場合、前記候補文字コードグループから抽出すべき候補文字コードの個数を
とする(ただし、Sは文字画像の高さのピクセル数と幅のピクセル数とのうちの大きい方のピクセル数であり、m、n、N、及びN’は、ユーザにより設定可能であり、且つ、m>nである)アルゴリズムにより決定されることを特徴とする請求項3に記載の低品質文字の識別方法。
The number of candidate character codes extracted from each candidate character code group is as follows when the candidate character code group includes N candidate character codes:
If the larger of the number of pixels in the height of the character image and the number of pixels in the width is less than n pixels, the number of candidate character codes to be extracted from the candidate character code group is N,
If the larger of the number of pixels in the height of the character image and the number of pixels in the width is more than m pixels, the number of candidate character codes to be extracted from the candidate character code group is N ′,
When the larger of the number of pixels of the height of the character image and the number of pixels of the width is n pixels or more and m pixels or less, the number of candidate character codes to be extracted from the candidate character code group is
(Where S is the larger number of pixels in the height and width of the character image, and m, n, N, and N ′ can be set by the user, 4. The method for identifying low-quality characters according to claim 3, wherein the determination is performed by an algorithm (where m> n).
各候補文字コードグループから抽出される候補文字コードの個数は、候補文字コードグループがN個の候補文字コードを含み、かつ、前記マージ候補文字コードグループに属する候補文字コードとして抽出すべき候補文字コードの最小個数がN’である場合において、
文字画像のヒストグラムにおけるストロークを示すピクセル値と背景を示すピクセル値との間の領域の面積と、ヒストグラムの全領域の面積との比がRである場合、前記候補文字コードグループから抽出すべき候補文字コードの個数を
N−R×(N−N’)
とする(ただし、0≦R≦1、N及びN’はユーザにより設定可能である)アルゴリズムにより決定されることを特徴とする請求項3に記載の低品質文字の識別方法。
The number of candidate character codes extracted from each candidate character code group is such that the candidate character code group includes N candidate character codes and should be extracted as a candidate character code belonging to the merge candidate character code group. When the minimum number of N ′ is N ′,
Candidates to be extracted from the candidate character code group when the ratio of the area between the pixel value indicating the stroke and the pixel value indicating the background in the histogram of the character image and the area of the entire area of the histogram is R The number of character codes is N−R × (N−N ′)
4. The method for identifying low-quality characters according to claim 3, wherein 0 ≦ R ≦ 1, N and N ′ can be set by a user.
前記決定ステップは、
2種類の識別距離を統合させて得られる前記マージ候補文字コードグループの正確さに応じて、前記最適候補文字コードを決定することを特徴とする請求項1に記載の低品質文字の識別方法。
The determining step includes
2. The low quality character identification method according to claim 1, wherein the optimum candidate character code is determined according to the accuracy of the merge candidate character code group obtained by integrating two types of identification distances.
前記マージ候補文字コードグループの正確さは、総合信頼度(C(I))により得られ、前記総合信頼度(C(I))は、ストロークエッジ特徴に基づく信頼度(Cl(I))と画像パターン特徴に基づく信頼度(Cg(I))との和、
C(I)=Cl(I)+Cg(I)
であることを特徴とする請求項8に記載の低品質文字の識別方法。
The accuracy of the merge candidate character code group is obtained by the overall reliability (C (I)), and the overall reliability (C (I)) is the reliability based on the stroke edge feature (C l (I)). And the reliability based on image pattern characteristics (C g (I)),
C (I) = C l (I) + C g (I)
The low quality character identification method according to claim 8, wherein:
識別対象の文字のストロークエッジ特徴を抽出し、このストロークエッジ特徴に基づいて識別を行うことにより、第1の候補文字コードグループを取得するストロークエッジ特徴処理手段と、
識別対象の文字の画像パターン特徴を抽出し、この画像パターン特徴に基づいて識別を行うことにより、第2の候補文字コードグループを取得する画像パターン特徴処理手段と、
前記第1の候補文字コードグループと前記第2の候補文字コードグループとをマージすることにより、マージ候補文字コードグループを生成するマージ手段と、
ストロークエッジ特徴に基づいて、前記マージ候補文字コードグループの各候補文字コードの識別距離を算出するストロークエッジ特徴再処理手段と、
画像パターン特徴に基づいて、前記マージ候補文字コードグループの各候補文字コードの識別距離を算出する画像パターン特徴再処理手段と、
前記ストロークエッジ特徴再処理手段及び前記画像パターン特徴再処理手段によって算出される2種類の識別距離を統合することにより、各候補文字コードの総合信頼度を取得する統合手段と、
総合信頼度から最適候補文字コードを出力する出力手段と、
を備えることを特徴とする低品質文字の識別装置。
Stroke edge feature processing means for obtaining a first candidate character code group by extracting a stroke edge feature of a character to be identified and performing identification based on the stroke edge feature;
Image pattern feature processing means for obtaining a second candidate character code group by extracting an image pattern feature of a character to be identified and performing identification based on the image pattern feature;
Merging means for generating a merge candidate character code group by merging the first candidate character code group and the second candidate character code group;
Stroke edge feature reprocessing means for calculating an identification distance of each candidate character code of the merge candidate character code group based on a stroke edge feature;
Image pattern feature reprocessing means for calculating an identification distance of each candidate character code of the merge candidate character code group based on an image pattern feature;
An integration unit that acquires the total reliability of each candidate character code by integrating two types of identification distances calculated by the stroke edge feature reprocessing unit and the image pattern feature reprocessing unit;
An output means for outputting the optimum candidate character code from the overall reliability;
An apparatus for identifying low-quality characters, comprising:
JP2008199755A 2007-08-03 2008-08-01 Low quality character identification method and apparatus Expired - Fee Related JP5176763B2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN200710139913.1 2007-08-03
CN2007101399131A CN101359373B (en) 2007-08-03 2007-08-03 Method and device for recognizing degraded character

Publications (2)

Publication Number Publication Date
JP2009037621A JP2009037621A (en) 2009-02-19
JP5176763B2 true JP5176763B2 (en) 2013-04-03

Family

ID=40331819

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008199755A Expired - Fee Related JP5176763B2 (en) 2007-08-03 2008-08-01 Low quality character identification method and apparatus

Country Status (2)

Country Link
JP (1) JP5176763B2 (en)
CN (1) CN101359373B (en)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102402695B (en) * 2010-09-09 2014-05-14 富士通株式会社 Method and equipment for recognizing multilevel word combination
JP5906071B2 (en) * 2011-12-01 2016-04-20 キヤノン株式会社 Information processing method, information processing apparatus, and storage medium
WO2014107853A1 (en) * 2013-01-09 2014-07-17 Mediatek Singapore Pte. Ltd. Methods for disparity vector derivation
JP6341059B2 (en) 2014-10-31 2018-06-13 オムロン株式会社 Character recognition device, character recognition method, and program
US11120478B2 (en) 2015-01-12 2021-09-14 Ebay Inc. Joint-based item recognition
US20160217157A1 (en) * 2015-01-23 2016-07-28 Ebay Inc. Recognition of items depicted in images
CN105957238B (en) 2016-05-20 2019-02-19 聚龙股份有限公司 A kind of paper currency management method and its system
CN106384351A (en) * 2016-08-25 2017-02-08 成都市晶林科技有限公司 Infrared image background recognition method based on infrared image histogram
CN106997428A (en) * 2017-04-08 2017-08-01 上海中医药大学附属曙光医院 Mesh examines system
CN111931672A (en) * 2020-08-17 2020-11-13 珠海大横琴科技发展有限公司 Handwriting recognition method and device, computer equipment and storage medium
CN111968058B (en) * 2020-08-25 2023-08-04 北京交通大学 Low-dose CT image noise reduction method

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0773276A (en) * 1993-09-07 1995-03-17 Matsushita Electric Ind Co Ltd Character recognition device
JP2000181995A (en) * 1998-12-17 2000-06-30 Toshiba Corp Character recognizing device
JP4841881B2 (en) * 2005-07-15 2011-12-21 富士通株式会社 Character recognition program, character recognition device, and character recognition method
CN100409251C (en) * 2005-08-26 2008-08-06 富士通株式会社 Character identification apparatus and method for literal line regression

Also Published As

Publication number Publication date
CN101359373B (en) 2011-01-12
JP2009037621A (en) 2009-02-19
CN101359373A (en) 2009-02-04

Similar Documents

Publication Publication Date Title
JP5176763B2 (en) Low quality character identification method and apparatus
US8306327B2 (en) Adaptive partial character recognition
CN110866430B (en) License plate recognition method and device
US20060062460A1 (en) Character recognition apparatus and method for recognizing characters in an image
CN104008384A (en) Character identification method and character identification apparatus
CN103761531A (en) Sparse-coding license plate character recognition method based on shape and contour features
CN101719142A (en) Method for detecting picture characters by sparse representation based on classifying dictionary
Shivakumara et al. Gradient-angular-features for word-wise video script identification
Ling et al. A model for automatic recognition of vertical texts in natural scene images
CN111723852A (en) Robust training method for target detection network
JP5672828B2 (en) Image processing apparatus and image processing program
Xue Optical character recognition
CN111444876A (en) Image-text processing method and system and computer readable storage medium
Malakar et al. An improved offline handwritten character segmentation algorithm for Bangla script.
CN104504385B (en) The recognition methods of hand-written adhesion numeric string
Satish et al. Edge assisted fast binarization scheme for improved vehicle license plate recognition
Sun Multi-linguistic optical font recognition using stroke templates
Mahamad et al. A Simplified Malaysian Vehicle Plate Number Recognition
Mirza et al. Impact of pre-processing on recognition of cursive video text
Bag et al. Robust binarization of degraded documents using adaptive-cum-interpolative thresholding in a multi-scale framework
Fedorchuk et al. Statistic metrics for evaluation of binary classifiers without ground-truth
Halder et al. Individuality of Bangla numerals
Zayed et al. An effective hybrid thresholding technique for degraded documents images binarization
Chanda et al. Font identification—In context of an Indic script
KR101312306B1 (en) Apparatus for recognizing signs, Method thereof, and Method for recognizing image

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110513

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121108

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121211

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121224

LAPS Cancellation because of no payment of annual fees