JP5028911B2 - Character string recognition program, method and apparatus - Google Patents
Character string recognition program, method and apparatus Download PDFInfo
- Publication number
- JP5028911B2 JP5028911B2 JP2006226997A JP2006226997A JP5028911B2 JP 5028911 B2 JP5028911 B2 JP 5028911B2 JP 2006226997 A JP2006226997 A JP 2006226997A JP 2006226997 A JP2006226997 A JP 2006226997A JP 5028911 B2 JP5028911 B2 JP 5028911B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- recognition
- feature
- reconstructed
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 71
- 238000000605 extraction Methods 0.000 claims description 27
- 239000011159 matrix material Substances 0.000 claims description 17
- 230000011218 segmentation Effects 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 description 8
- 239000002131 composite material Substances 0.000 description 6
- 230000009977 dual effect Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000000513 principal component analysis Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
Images
Landscapes
- Character Discrimination (AREA)
Description
本発明は概して文字認識用のプログラム、方法および装置に関し、特に劣化文字列用の文字列認識プログラム、方法および装置に関する。 The present invention generally relates to a program, method and apparatus for character recognition, and more particularly to a character string recognition program, method and apparatus for a deteriorated character string.
文書画像を捕捉するためのディジタルカメラおよびディジタルビデオカメラの普及に伴い、劣化文字列の認識がますます注目されている。劣化文字列の認識は、単一文字認識および文字列からの文字切り出しを含んでおり、これら2つのパーツはもともと結合されているものである。 With the widespread use of digital cameras and digital video cameras for capturing document images, the recognition of degraded character strings is gaining more and more attention. The recognition of a deteriorated character string includes single character recognition and character extraction from a character string, and these two parts are originally combined.
文字列からの文字切り出しについて、認識に基づく切り出し方法はもっとも広く使用されている方法である。図1は、認識に基づく従来の切り出し方法の原理を示している。入力画像がまず二値化されて、次いで二値化画像の画素連結成分は、文字のストロークを見つけるために分析される(図1の最上行)。画像の画素連結成分の分析アルゴリズムについては、下記非特許文献1を参照のこと。全ての画素連結成分は基本セグメント文字とみなされる(図1の真ん中の行)。画素連結成分の結合は合成セグメント文字とみなされる(図1の最下行)。続いて、文字認識が全ての基本セグメント文字ならびに合成セグメント文字に対して実行され、これによって認識距離が提供される。全ての文字列は、異なる基本セグメント文字および結合された合成セグメント文字からなる複数の切り出しパスに分離可能であり、各切り出しパスの認識距離は、これを構成する基本セグメント文字および合成セグメント文字の認識距離の合計である。文字列の正確な切り出し結果は、最小総認識距離を有する切り出しパスを選択することによって得られる。切り出しを達成する一方で、各基本セグメント文字および合成セグメント文字に関する認識結果はまた、文字の最終認識結果でもある。
Regarding character segmentation from a character string, a segmentation method based on recognition is the most widely used method. FIG. 1 shows the principle of a conventional clipping method based on recognition. The input image is first binarized and then the pixel connected components of the binarized image are analyzed to find the stroke of the character (top row of FIG. 1). Refer to the following Non-Patent
図1は、認識に基づく従来の切り出し方法の原理を示している。 FIG. 1 shows the principle of a conventional clipping method based on recognition.
図1に示されるように、「ハ」、「リ」および「を」からなる切り出しパスは最小認識距離72を有している。従って、これらは最終切り出しおよび認識結果として出力される。 As shown in FIG. 1, the cut-out path made up of “C”, “Li”, and “O” has a minimum recognition distance 72. Therefore, these are output as the final cutout and recognition results.
上記の原理より、認識距離は、認識結果だけでなく正確な切り出しにとっても非常に重要であることが分かる。例えば、図1において、「ハ」の最小認識距離は21であり、文字の左右の2つのストロークの認識距離はそれぞれ19および26である。これら2つのストロークの認識距離の合計が21よりも小さければ、「ハ」の最初の認識結果が正確であっても、図1の左ストローク1と右ストローク2に依然として誤ってセグメント化されることになる。
From the above principle, it can be seen that the recognition distance is very important not only for the recognition result but also for accurate extraction. For example, in FIG. 1, the minimum recognition distance of “C” is 21, and the recognition distances of the two left and right strokes of the character are 19 and 26, respectively. If the sum of the recognition distances of these two strokes is less than 21, even if the first recognition result of “c” is accurate, it is still erroneously segmented into
以下の特許文献1,2および非特許文献1〜3のような文字列からの文字切り出しに関する多数の論文および特許がこれまで公開されている。
Numerous papers and patents related to character segmentation from character strings such as the following
これらの論文および特許の多くは接触文字の処理を目的としており、処理対象の多くは二値化画像である。劣化文字列画像に関しては、従来の二値化の方法はしばしば重大なかすれたストローク(ストロークの画素ポイントの欠落)やストロークの接触の原因となっており、望ましい認識効果を達成するのは不可能である。 Many of these papers and patents aim to process contact characters, and many of the objects to be processed are binarized images. For degraded character string images, conventional binarization methods often cause significant blurred strokes (missing stroke pixel points) and stroke contact, making it impossible to achieve the desired recognition effect It is.
二重固有空間ベースの方法は劣化文字の認識においては極めて効果的であり、この方法は、グレースケール文字画像から直接文字の特徴を抽出する。図2は、二重固有空間ベースの方法を使用する文字認識を示すフローチャートである。入力は正規化された文字画像である。文字画像の特徴がまず第1の辞書(図2の辞書1)で抽出される。次いで文字画像が、第2の辞書(図2の辞書2)によってM個のカテゴリ候補に大まかに分類される。続いて第3の辞書(図2の辞書3)が、入力された文字特徴をM個のカテゴリ候補のうちの1つに最終的に分類するために使用される。最終的には、認識された文字コードならびに認識距離が出力される。
The dual eigenspace-based method is very effective in recognizing degraded characters, and this method extracts character features directly from grayscale character images. FIG. 2 is a flowchart illustrating character recognition using a dual eigenspace-based method. The input is a normalized character image. The feature of the character image is first extracted by the first dictionary (
二重固有空間ベースの方法はグレースケール画像から直接特徴を抽出することによって二値化のプロセスを回避するため、不良による画像雑音に対してより安定的である。しかしながら、二重固有空間ベースの方法が、認識に基づく切り出し方法に直接適用される場合にはいくつかの問題がある。 The dual eigenspace based method is more stable against image noise due to defects because it avoids the binarization process by extracting features directly from the grayscale image. However, there are some problems when the double eigenspace based method is directly applied to the recognition based clipping method.
図3に示されるように、第1の行の画像は文字列画像である。第2の行はバイナリ結果であり、このバイナリ化画像は粗切り出しに使用される。示されているような外接矩形は粗切り出しの結果である。第3の行は基本セグメント文字のグレースケール画像を正規化したものである。各セグメント画像の下に示されているのは、認識された文字およびその認識距離である。第4の行は、正規化後の合成セグメント文字「年」および「開」の正規化グレースケール文字画像、ならびに対応する認識結果および認識距離である。認識に基づく従来の切り出し方法が使用される場合、第2の行の「開」は4つのセグメントに分離されるために「開」は正しく認識されることはなく、また、4つのセグメントの認識距離の合計は5.39+61.01+45.69+20.37=132.46である。「開」の認識距離は409.71であり、これは4つのセグメントの認識距離の合計よりも大きいため、文字列全体は「年1回I!IIく」に認識される。 As shown in FIG. 3, the image in the first row is a character string image. The second row is the binary result, and this binary image is used for rough segmentation. The circumscribed rectangle as shown is the result of the rough cut. The third row is a normalized grayscale image of basic segment characters. Shown below each segment image is the recognized character and its recognition distance. The fourth row is a normalized grayscale character image of the composite segment characters “year” and “open” after normalization, and the corresponding recognition result and recognition distance. When the conventional cut-out method based on recognition is used, “open” in the second row is separated into four segments, so “open” is not recognized correctly, and four segments are recognized. The total distance is 5.39 + 61.01 + 45.69 + 20.37 = 132.46. The recognition distance of “open” is 409.71, which is larger than the sum of the recognition distances of the four segments, so that the entire character string is recognized as “I! II” once a year.
本発明の目的は、二重固有空間を使用する切り出しに伴う問題を解決するためにより良好な特徴を使用してより合理的な認識距離を生成する、劣化文字列用の文字列認識装置および方法を提供することである。 An object of the present invention is to provide a character string recognition apparatus and method for a deteriorated character string that uses a better feature to generate a more reasonable recognition distance to solve the problems associated with clipping using a double eigenspace. Is to provide.
本発明の一態様に従って、各正規化画像の変換行列および平均値から構成されている第1の辞書を使用して入力された正規化画像から特徴を抽出する特徴抽出手段と、該抽出された特徴と、第2の辞書に記憶されている特徴とを比較することによって、一定数の文字カテゴリ候補を選択する粗分類手段と、各文字カテゴリの変換行列および平均特徴ベクトルを記憶する第3の辞書と、該一定数の選択された文字カテゴリ候補とを使用して、一定数の複数の再構成特徴を構成する特徴再構成手段と、該特徴抽出手段によって抽出された特徴と該再構成された特徴とに従って認識された文字コードを認識および出力する詳細分類手段と、該第1の辞書と、該特徴再構成手段によって生成された該再構成特徴とを使用して、一定の数の複数の再構成画像を構成する画像再構成手段と、該入力された正規化画像と、該画像再構成手段によって生成された該再構成画像とに従って認識距離を算出および出力する認識距離算出手段と、該認識距離算出手段によって算出された認識距離に基づいて文字切り出しを行い、該文字切り出し結果に対応する該詳細分類手段によって算出された文字コードを最終認識文字コードとして認識する文字列認識手段とを備える、劣化文字列用の文字列認識装置が提供される。 In accordance with one aspect of the present invention, feature extraction means for extracting features from a normalized image input using a first dictionary composed of a transformation matrix and an average value of each normalized image, and the extracted A coarse classification means for selecting a certain number of character category candidates by comparing the features and the features stored in the second dictionary; and a third classification means for storing a conversion matrix and an average feature vector for each character category . Using the dictionary and the predetermined number of selected character category candidates, feature reconstructing means for constructing a certain number of reconstructed features, features extracted by the feature extracting means and the reconstructed Using a detailed classification means for recognizing and outputting a character code recognized according to the feature, the first dictionary, and the reconstructed feature generated by the feature reconstructing means, Reconfiguration An image reconstruction means for constructing an image, a normalized image that is the input, a recognition distance calculating means for calculating and outputting a recognition distance in accordance with the reconstruction image generated by the image reconstruction means, said recognition distance A character string recognition unit that performs character segmentation based on the recognition distance calculated by the calculation unit and recognizes the character code calculated by the detailed classification unit corresponding to the character segmentation result as a final recognition character code. A character string recognition device for a character string is provided.
本発明の別の態様に従って、各正規化画像の変換行列および平均値から構成されている第1の辞書を使用して入力された正規化画像から特徴を抽出するステップと、該抽出された特徴と、第2の辞書に記憶されている特徴とを比較することによって一定数の文字カテゴリ候補を選択するステップと、各文字カテゴリの変換行列および平均特徴ベクトルを記憶する第3の辞書と、該一定数の選択された文字カテゴリ候補とを使用して、一定数の複数の再構成特徴を構成するステップと、該抽出された特徴と該再構成された特徴とに従って認識された文字コードを認識および出力するステップと、該第1の辞書と該再構成された特徴とを使用して、一定の数の複数の再構成画像を構成するステップと、該入力された正規化画像と該再構成画像とに従って認識距離を算出および出力するステップと、該算出された認識距離に基づいて文字切り出しを行い、該認識された文字コードのうち該文字切り出し結果に対応する文字コードを最終認識文字コードとして認識するステップとを備える、劣化文字列用の文字列認識方法が提供される。 In accordance with another aspect of the present invention, extracting features from a normalized image input using a first dictionary composed of a transformation matrix and an average value of each normalized image, and the extracted features Selecting a certain number of character category candidates by comparing the features stored in the second dictionary; a third dictionary storing a conversion matrix and an average feature vector for each character category ; and Using a fixed number of selected character category candidates, constructing a fixed number of reconstructed features, and recognizing recognized character codes according to the extracted features and the reconstructed features And using the first dictionary and the reconstructed features to construct a fixed number of reconstructed images, the input normalized image and the reconstructed To the image Calculating and outputting a recognition distance I performs character extraction based on the recognition distances said calculated recognize a character code corresponding to said character extraction result of the recognized character code as the last recognized character codes and a step of, string recognition method for degradation strings are provided.
抽出された特徴および再構成された特徴に従って最終的な認識文字コードを認識および出力し、入力された正規化画像および再構成された画像に従って認識距離を算出および出力することが本発明において可能であるため、本発明はより良好な特徴を使用して、切り出しにより適した認識距離を生成することによって、劣化文字列の文字を正しくセグメント化することが可能になる。 It is possible in the present invention to recognize and output the final recognition character code according to the extracted feature and the reconstructed feature, and to calculate and output the recognition distance according to the input normalized image and the reconstructed image. For this reason, the present invention makes it possible to correctly segment the characters of the degraded character string by using a better feature and generating a recognition distance more suitable for clipping.
本発明によれば、抽出された特徴および再構成された特徴に従って最終的な認識文字コードを認識および出力し、入力された正規化画像および再構成された画像に従って認識距離を算出および出力することにしたので、劣化した文字列画像の文字を正しくセグメント化することが可能になるという効果を奏する。 According to the present invention, the final recognition character code is recognized and output according to the extracted feature and the reconstructed feature, and the recognition distance is calculated and output according to the input normalized image and the reconstructed image. As a result, it is possible to correctly segment the characters of the degraded character string image.
本発明の実施形態を以下添付の図面を参照して説明する。 Embodiments of the present invention will be described below with reference to the accompanying drawings.
図4は、本発明の実施形態に従った文字列認識装置によって使用される文字列認識方法を示すフローチャートである。 FIG. 4 is a flowchart showing a character string recognition method used by the character string recognition device according to the embodiment of the present invention.
図4に示されるように、本発明の実施形態に従った文字列認識装置は、第1の辞書403を使用して入力された正規化画像401から特徴を抽出する特徴抽出部402と、第2の辞書405に記憶されている特徴と抽出された特徴とを比較することによってM個の文字カテゴリ候補を選択する粗分類部404と、第3の辞書407およびM個の文字カテゴリ候補を使用してM個の再構成特徴を再構成する特徴再構成部406と、第1の辞書403を使用してM個の再構成画像を構成する画像再構成部408と、特徴抽出部402によって抽出された特徴と再構成された特徴の差を比較することによって認識された文字コード411を出力する詳細分類部409と、認識距離412を出力する認識距離算出部410とを備える。
As shown in FIG. 4, the character string recognition apparatus according to the embodiment of the present invention includes a
図4に示されたフローチャートによると、入力された正規化文字画像401については、特徴抽出部402が、第1の辞書403を使用して入力された正規化文字画像401の特徴を以下の式(1)に従い抽出する:
According to the flowchart shown in FIG. 4, for the input normalized
ここでX=[x1,x2,…,xw*h]Tは、高さおよび幅がそれぞれwおよびhである正規化文字画像を表している。式(2)は全正規化文字画像の平均値である。U=[u1,u2,…,un]はui=[ui1,ui2,…,uiw*h]Tとする変換行列である。第1の辞書403はUおよび式(3)からなる。式(1)で示された特徴抽出方法は主成分分析(PCA)と称される。PCAについての詳細は、「Pattern Classification」、Second edition,by R.O.Duda、P.E.Hart and D.G.Stork,a Wiley−Interscience Publication,John Wiley&Sons,Inc.2001.115〜117頁,568〜569に説明されている。
Here, X = [x 1 , x 2 ,..., X w * h ] T represents a normalized character image whose height and width are w and h, respectively. Equation (2) is the average value of all normalized character images. U = [u 1, u 2 , ..., u n] is u i = [u i1, u i2, ..., u iw * h] is a transformation matrix for the T. The
特徴抽出後、抽出された特徴Yは、粗分類部404によって、第2の辞書405に記憶されている各文字カテゴリの特徴と比較される。特徴比較については多数のアルゴリズムがあり、その1つはユークリッド距離:Di=|Y−Yi|(ここでDiはi番目の文字カテゴリYiの特徴までの特徴Yのユークリッド距離である)に基づくものである。粗分類部404から出力される候補文字カテゴリ数がMである場合、セグメント文字ごとにユークリッド距離の小さいものから順にM個の文字カテゴリが、粗分類の出力として選択される。
After the feature extraction, the extracted feature Y is compared with the features of each character category stored in the
次に、特徴再構成部406が第3の辞書407を使用して、M個の候補カテゴリに対応するM個の再構成特徴を構成する。第3の辞書は各文字カテゴリの変換行列式(4)および平均特徴ベクトルCiを記憶する。i番目の再構成特徴式(5)は式(6)によって得られる。
Next, the
図4の詳細分類部409は、元の特徴YとM個の再構成特徴式(5)の距離を算出する。これらセグメント文字ごとに算出されたM個の文字カテゴリのうち、最小の距離を有する文字カテゴリに対応するコードがそのセグメント文字の認識された文字コード411として出力される。
The
図2に示されたような二重固有空間を用いる従来の方法とは異なり、本発明の認識距離は、抽出された特徴Yと再構成された特徴の差ではない。本発明においては、新たな画像再構成部408が、第1の辞書403を使用して、以下の式(7)、式(8)に従いM個の再構成画像式(9)を算出することを提案する。
Unlike the conventional method using a double eigenspace as shown in FIG. 2, the recognition distance of the present invention is not the difference between the extracted feature Y and the reconstructed feature. In the present invention, the new
式(7)は式(1)から導くことが可能である。式(8)は、再構成画像の画素の値の範囲を0〜255に正規化するために使用され、この範囲は、元の画像の画素の値の範囲と一致する。 Equation (7) can be derived from Equation (1). Equation (8) is used to normalize the range of pixel values in the reconstructed image to 0-255, which matches the range of pixel values in the original image.
図4の認識距離算出部410は、元の正規化文字画像401とM個の再構成画像式(9)との距離を算出する。最小となる距離が、最終的に出力される認識距離412とみなされる。このように認識距離412が最小となるように文字切り出しを行い、詳細分類部409から出力された認識された文字コード411のうち、その文字切り出しに対応する文字コードが、最終的な認識された文字コードとなる。
The recognition
図5は、本発明の実施形態に従った文字列認識装置で使用される文字列認識方法によって得られる認識距離を示している。図5の認識距離は切り出しについてより合理的であることがわかる。「開」の認識距離は104.78であるのに対して、その4つの成分の認識距離の合計は494.02であり、これは104.78よりもかなり大きい。従ってこの文字は正しくセグメント化されかつ認識されることが可能である。 FIG. 5 shows the recognition distance obtained by the character string recognition method used in the character string recognition device according to the embodiment of the present invention. It can be seen that the recognition distance in FIG. 5 is more reasonable for clipping. The recognition distance of “open” is 104.78, while the total recognition distance of its four components is 494.02, which is much larger than 104.78. This character can therefore be correctly segmented and recognized.
本実施形態で使用されている例示的な文字は日本語の文字であるが、本発明で提示する方法は日本語のみに限定されない。これはまた、中国語や韓国語などの他の言語にも適用可能である。 Although the exemplary characters used in this embodiment are Japanese characters, the method presented in the present invention is not limited to Japanese only. This is also applicable to other languages such as Chinese and Korean.
(付記1)劣化文字列用の文字列認識プログラムであって、
第1の辞書を使用して入力された正規化画像から特徴を抽出するための特徴抽出手順と、
前記抽出された特徴を第2の辞書に記憶されている特徴と比較することによって、一定数の文字カテゴリ候補を選択するための粗分類手順と、
第3の辞書および前記一定数の選択された文字カテゴリを使用して、一定数の複数の再構成特徴を構成するための特徴再構成手順と、
を備え、さらに、
前記特徴抽出手順によって抽出された前記特徴および前記再構成された特徴に従って認識された文字コードを認識および出力するための詳細分類手順と、
前記第1の辞書と、前記特徴再構成手順によって生成された前記再構成特徴とを使用して、一定数の複数の再構成画像を構成するための画像再構成手順と、
前記入力された正規化画像と、前記画像再構成手順によって生成された前記再構成画像とに従って認識距離を算出および出力するための認識距離算出手順と、
をコンピュータに実行させることを特徴とする文字列認識プログラム。
(Supplementary note 1) A character string recognition program for a deteriorated character string,
A feature extraction procedure for extracting features from the normalized image input using the first dictionary;
A coarse classification procedure for selecting a certain number of character category candidates by comparing the extracted features with features stored in a second dictionary;
A feature reconstruction procedure for constructing a fixed number of reconstructed features using a third dictionary and the fixed number of selected character categories;
In addition,
A detailed classification procedure for recognizing and outputting the character code recognized according to the feature extracted by the feature extraction procedure and the reconstructed feature;
An image reconstruction procedure for constructing a fixed number of reconstructed images using the first dictionary and the reconstruction features generated by the feature reconstruction procedure;
A recognition distance calculation procedure for calculating and outputting a recognition distance according to the input normalized image and the reconstructed image generated by the image reconstruction procedure;
A character string recognition program that causes a computer to execute.
(付記2)前記認識距離算出手順において算出された認識距離に基づいて文字切り出しを行い、前記文字切り出し結果に対応する前記詳細分類手順において算出された文字コードを最終認識文字コードとして算出することを特徴とする付記1に記載の文字列認識プログラム。
(Supplementary note 2) Character extraction is performed based on the recognition distance calculated in the recognition distance calculation procedure, and the character code calculated in the detailed classification procedure corresponding to the character extraction result is calculated as a final recognition character code. The character string recognition program according to
(付記3)前記詳細分類手順が、前記特徴抽出手順によって抽出された前記特徴と前記再構成特徴の差を比較し、最小差を有する前記再構成特徴に対応する文字コードを認識された文字コードとして出力することを特徴とする付記1または2に記載の文字列認識プログラム。
(Supplementary Note 3) The detailed classification procedure compares the difference between the feature extracted by the feature extraction procedure and the reconstructed feature, and the character code corresponding to the reconstructed feature having the minimum difference is recognized. The character string recognition program according to
(付記4)前記画像再構成手順は、前記再構成画像の画素値の範囲を0〜255に正規化することを特徴とする付記1または2に記載の文字列認識プログラム。
(Additional remark 4) The said character reconstruction procedure normalizes the range of the pixel value of the said reconstructed image to 0-255, The character string recognition program of
(付記5)前記認識距離算出手順は、前記入力された正規化画像と、前記画像再構成手順によって生成された前記再構成画像間の距離を算出し、最小距離を認識距離として出力することを特徴とする付記1または2に記載の文字列認識プログラム。
(Supplementary Note 5) The recognition distance calculation procedure calculates a distance between the input normalized image and the reconstructed image generated by the image reconstruction procedure, and outputs a minimum distance as a recognition distance. The character string recognition program according to
(付記6)前記第1の辞書は、各正規化画像の変換行列および平均値から構成されていることを特徴とする付記1〜5のいずれか1つに記載の文字列認識プログラム。 (Additional remark 6) The said 1st dictionary is comprised from the conversion matrix and average value of each normalized image, The character string recognition program as described in any one of Additional remark 1-5 characterized by the above-mentioned.
(付記7)前記第2の辞書は各文字カテゴリの特徴を記憶することを特徴とする付記1〜5のいずれか1つに記載の文字列認識プログラム。 (Additional remark 7) The said 2nd dictionary memorize | stores the characteristic of each character category, The character string recognition program as described in any one of additional remarks 1-5 characterized by the above-mentioned.
(付記8)前記第3の辞書は、各文字カテゴリの変換行列および平均特徴ベクトルを記憶することを特徴とする付記1〜5のいずれか1つに記載の文字列認識プログラム。
(Supplementary note 8) The character string recognition program according to any one of
(付記9)不良テキストストリング文字列用の文字列認識方法であって、
第1の辞書を使用して入力された正規化画像から特徴を抽出するステップと、
前記抽出された特徴と第2の辞書に記憶されている特徴とを比較することによって、一定数の文字カテゴリ候補を選択するステップと、
第3の辞書と前記一定数の選択された文字カテゴリとを使用して、一定の数の複数の再構成特徴を構成するステップと、
前記抽出された特徴と前記再構成された特徴とに従って認識された文字コードを認識および出力するステップと、
前記第1の辞書と前記再構成された特徴とを使用して、一定数の複数の再構成画像を構成するステップと、
前記入力された正規化画像と前記再構成画像とに従って認識距離を算出および出力するステップと、
を備えることを特徴とする文字認識列方法。
(Supplementary note 9) A character string recognition method for a bad text string character string,
Extracting features from the normalized image input using the first dictionary;
Selecting a certain number of character category candidates by comparing the extracted features with features stored in a second dictionary;
Configuring a fixed number of reconstructed features using a third dictionary and the fixed number of selected character categories;
Recognizing and outputting a character code recognized according to the extracted features and the reconstructed features;
Constructing a fixed number of reconstructed images using the first dictionary and the reconstructed features;
Calculating and outputting a recognition distance according to the input normalized image and the reconstructed image;
A character recognition sequence method comprising:
(付記10)前記認識距離算出ステップにおいて算出された認識距離に基づいて文字切り出しを行い、前記文字切り出し結果に対応する前記詳細分類ステップにおいて算出された文字コードを最終認識文字コードとして算出することを特徴とする付記9に記載の文字列認識方法。 (Supplementary note 10) Character extraction is performed based on the recognition distance calculated in the recognition distance calculation step, and the character code calculated in the detailed classification step corresponding to the character extraction result is calculated as a final recognition character code. The character string recognition method according to appendix 9, which is a feature.
(付記11)前記認識された文字コードを認識および出力するステップが、
前記抽出された特徴と前記再構成された特徴の差を比較して、最小差を有する前記再構成された特徴に対応する文字コードを認識された文字コードとして出力するステップを含むことを特徴とする付記9または10に記載の文字列認識方法。
(Supplementary Note 11) The step of recognizing and outputting the recognized character code includes:
Comparing a difference between the extracted feature and the reconstructed feature, and outputting a character code corresponding to the reconstructed feature having a minimum difference as a recognized character code; The character string recognition method according to Supplementary Note 9 or 10.
(付記12)前記再構成画像を構成再構成するステップが、
前記再構成画像の画素値の範囲を0〜255の範囲に正規化するステップを含むことを特徴とする、付記9または10に記載の文字列認識方法。
(Supplementary note 12) The step of reconstructing the reconstructed image comprises:
11. The character string recognition method according to appendix 9 or 10, comprising a step of normalizing a range of pixel values of the reconstructed image to a range of 0 to 255.
(付記13)前記認識距離を算出および出力するステップが、
前記入力された正規化画像と前記再構成画像間の距離を算出して、最小距離を認識距離として出力するステップを含むことを特徴とする付記9または10に記載の文字列認識方法。
(Supplementary Note 13) The step of calculating and outputting the recognition distance includes:
The character string recognition method according to appendix 9 or 10, further comprising a step of calculating a distance between the input normalized image and the reconstructed image and outputting a minimum distance as a recognition distance.
(付記14)前記第1の辞書が、各正規化画像の変換行列および平均値によって構成されていることを特徴とする付記9〜13のいずれか1つに記載の文字列認識方法。 (Additional remark 14) The said 1st dictionary is comprised by the conversion matrix and average value of each normalized image, The character string recognition method as described in any one of additional marks 9-13 characterized by the above-mentioned.
(付記15)前記第2の辞書が各文字カテゴリの特徴を記憶することを特徴とする付記9〜13のいずれか1つに記載の文字列認識方法。 (Supplementary note 15) The character string recognition method according to any one of supplementary notes 9 to 13, wherein the second dictionary stores characteristics of each character category.
(付記16)前記第3の辞書が、各文字カテゴリの変換行列および平均値を記憶することを特徴とする付記9〜13のいずれかに1つに記載の文字列認識方法。 (Supplementary note 16) The character string recognition method according to any one of supplementary notes 9 to 13, wherein the third dictionary stores a conversion matrix and an average value of each character category.
(付記17)不良テキストストリング文字列用の文字列認識装置であって、
第1の辞書を使用して入力された正規化画像から特徴を抽出するための特徴抽出手段と、
前記抽出された特徴を第2の辞書に記憶されている特徴と比較することによって、一定数の文字カテゴリ候補を選択するための粗分類手段と、
第3の辞書および前記一定数の選択された文字カテゴリを使用して、一定数の複数の再構成特徴を構成するための特徴再構成部手段と、
を備えており、さらに、
前記特徴抽出手段によって抽出された前記特徴および前記再構成された特徴に従って認識された文字コードを認識および出力するためのファイン認識詳細分類手段と、
前記第1の辞書と、前記特徴再構成手段によって生成された前記再構成特徴とを使用して、一定の数の複数の再構成画像を構成するための画像再構成手段と、
前記入力された正規化画像と、前記画像再構成手段によって生成された前記再構成画像とに従って認識距離を算出および出力するための認識距離算出手段と、
を備えることを特徴とする文字列認識装置。
(Supplementary Note 17) A character string recognition device for a defective text string character string,
Feature extraction means for extracting features from the normalized image input using the first dictionary;
Coarse classification means for selecting a certain number of character category candidates by comparing the extracted features with features stored in a second dictionary;
Feature reconstructor means for constructing a fixed number of reconstructed features using a third dictionary and the fixed number of selected character categories;
In addition,
Fine recognition detailed classification means for recognizing and outputting the character code recognized according to the feature extracted by the feature extraction means and the reconstructed feature;
Image reconstructing means for constructing a certain number of reconstructed images using the first dictionary and the reconstructed features generated by the feature reconstructing means;
Recognition distance calculation means for calculating and outputting a recognition distance according to the input normalized image and the reconstructed image generated by the image reconstruction means;
A character string recognition apparatus comprising:
(付記18)前記認識距離算出手段において算出された認識距離に基づいて文字切り出しを行い、前記文字切り出し結果に対応する前記詳細分類手段において算出された文字コードを最終認識文字コードとして算出することを特徴とする付記17に記載の文字列認識装置。 (Supplementary note 18) Character extraction is performed based on the recognition distance calculated by the recognition distance calculation means, and the character code calculated by the detailed classification means corresponding to the character extraction result is calculated as a final recognition character code. The character string recognition device according to Supplementary Note 17, which is a feature.
(付記19)前記認識詳細分類手段が、前記特徴抽出手段によって抽出された前記特徴と前記再構成特徴の差を比較し、最小差を有する前記再構成特徴に対応する文字コードを認識された文字コードとして出力することを特徴とする、付記17または18に記載の文字列認識装置。 (Additional remark 19) The recognition detailed classification means compares the difference between the feature extracted by the feature extraction means and the reconstructed feature, and the character code corresponding to the reconstructed feature having the minimum difference is recognized. 19. The character string recognition device according to appendix 17 or 18, wherein the character string recognition device outputs the code.
(付記20)前記画像再構成手段は、前記再構成画像の画素値の範囲を0〜255に正規化する、ことを特徴とする付記17または18に記載の文字列認識装置。 (Supplementary note 20) The character string recognition device according to supplementary note 17 or 18, wherein the image reconstruction unit normalizes a range of pixel values of the reconstructed image to 0 to 255.
(付記21)前記認識距離算出手段は、前記入力された正規化画像と、前記画像再構成手段によって生成された前記再構成画像間の距離を算出し、最小距離を認識距離として出力することを特徴とする付記17または18に記載の文字列認識装置。 (Supplementary Note 21) The recognition distance calculation unit calculates a distance between the input normalized image and the reconstructed image generated by the image reconstruction unit, and outputs a minimum distance as a recognition distance. 19. The character string recognition device according to appendix 17 or 18, which is a feature.
(付記22)前記第1の辞書は、各正規化画像の変換行列および平均値から構成されていることを特徴とする付記17〜21のいずれか1つに記載の文字列認識装置。 (Additional remark 22) The said 1st dictionary is comprised from the conversion matrix and average value of each normalization image, The character string recognition apparatus as described in any one of additional remarks 17-21 characterized by the above-mentioned.
(付記23)前記第2の辞書は各文字カテゴリの特徴を記憶することを特徴とする付記17〜21のいずれか1つに記載の文字列認識装置。 (Additional remark 23) The said 2nd dictionary memorize | stores the characteristic of each character category, The character string recognition apparatus as described in any one of Additional remarks 17-21 characterized by the above-mentioned.
(付記24)前記第3の辞書は、各文字カテゴリの変換行列および平均特徴ベクトルを記憶することを特徴とする付記17〜21のいずれか1つに記載の文字列認識装置。 (Additional remark 24) The said 3rd dictionary memorize | stores the conversion matrix and average feature vector of each character category, The character string recognition apparatus as described in any one of additional marks 17-21 characterized by the above-mentioned.
1 左ストローク
2 右ストローク
1 Left stroke 2 Right stroke
Claims (7)
各正規化画像の変換行列および平均値から構成されている第1の辞書を使用して入力された正規化画像から特徴を抽出するための特徴抽出手順と、
前記抽出された特徴を第2の辞書に記憶されている特徴と比較することによって、一定数の文字カテゴリ候補を選択するための粗分類手順と、
各文字カテゴリの変換行列および平均特徴ベクトルを記憶する第3の辞書および前記一定数の選択された文字カテゴリ候補を使用して、一定数の複数の再構成特徴を構成するための特徴再構成手順と、
を備え、さらに、
前記特徴抽出手順によって抽出された前記特徴および前記再構成された特徴に従って認識された文字コードを認識および出力するための詳細分類手順と、
前記第1の辞書と、前記特徴再構成手順によって生成された前記再構成特徴とを使用して、一定数の複数の再構成画像を構成するための画像再構成手順と、
前記入力された正規化画像と、前記画像再構成手順によって生成された前記再構成画像とに従って認識距離を算出および出力するための認識距離算出手順と、
前記認識距離算出手順において算出された認識距離に基づいて文字切り出しを行い、前記文字切り出し結果に対応する前記詳細分類手順において算出された文字コードを最終認識文字コードとして認識する文字列認識手順と
をコンピュータに実行させることを特徴とする文字列認識プログラム。 A character string recognition program for a deteriorated character string,
A feature extraction procedure for extracting features from a normalized image input using a first dictionary composed of a transformation matrix and an average value of each normalized image ;
A coarse classification procedure for selecting a certain number of character category candidates by comparing the extracted features with features stored in a second dictionary;
Feature reconstruction procedure for constructing a fixed number of reconstructed features using a third dictionary storing a transformation matrix and an average feature vector for each character category and the fixed number of selected character category candidates When,
In addition,
A detailed classification procedure for recognizing and outputting the character code recognized according to the feature extracted by the feature extraction procedure and the reconstructed feature;
An image reconstruction procedure for constructing a fixed number of reconstructed images using the first dictionary and the reconstruction features generated by the feature reconstruction procedure;
A recognition distance calculation procedure for calculating and outputting a recognition distance according to the input normalized image and the reconstructed image generated by the image reconstruction procedure;
A character string recognition procedure that performs character segmentation based on the recognition distance calculated in the recognition distance calculation procedure and recognizes the character code calculated in the detailed classification procedure corresponding to the character segmentation result as a final recognition character code. A character string recognition program which is executed by a computer.
各正規化画像の変換行列および平均値から構成されている第1の辞書を使用して入力された正規化画像から特徴を抽出するステップと、
前記抽出された特徴と第2の辞書に記憶されている特徴とを比較することによって、一定数の文字カテゴリ候補を選択するステップと、
各文字カテゴリの変換行列および平均特徴ベクトルを記憶する第3の辞書と前記一定数の選択された文字カテゴリ候補とを使用して、一定の数の複数の再構成特徴を構成するステップと、
前記抽出された特徴と前記再構成された特徴とに従って認識された文字コードを認識および出力するステップと、
前記第1の辞書と前記再構成された特徴とを使用して、一定の数の複数の再構成画像を構成するステップと、
前記入力された正規化画像と前記再構成画像とに従って認識距離を算出および出力するステップと、
前記算出された認識距離に基づいて文字切り出しを行い、前記認識された文字コードのうち前記文字切り出し結果に対応する文字コードを最終認識文字コードとして認識するステップと
を備えることを特徴とする文字列認識方法。 A character recognition sequence method for a degraded character string,
Extracting features from a normalized image input using a first dictionary composed of a transformation matrix and an average value of each normalized image ;
Selecting a certain number of character category candidates by comparing the extracted features with features stored in a second dictionary;
Configuring a fixed number of reconstructed features using a third dictionary storing a transformation matrix and an average feature vector for each character category and the fixed number of selected character category candidates ;
Recognizing and outputting a character code recognized according to the extracted features and the reconstructed features;
Constructing a fixed number of reconstructed images using the first dictionary and the reconstructed features;
Calculating and outputting a recognition distance according to the input normalized image and the reconstructed image;
Performing character segmentation based on the calculated recognition distance, and recognizing a character code corresponding to the character segmentation result among the recognized character codes as a final recognition character code. Recognition method.
各正規化画像の変換行列および平均値から構成されている第1の辞書を使用して入力された正規化画像から特徴を抽出するための特徴抽出手段と、
前記抽出された特徴を第2の辞書に記憶されている特徴と比較することによって、一定数の文字カテゴリ候補を選択するための粗分類手段と、
各文字カテゴリの変換行列および平均特徴ベクトルを記憶する第3の辞書および前記一定数の選択された文字カテゴリ候補を使用して、一定数の複数の再構成特徴を構成するための特徴再構成手段と、
を備え、さらに、
前記特徴抽出手段によって抽出された前記特徴および前記再構成された特徴に従って認識された文字コードを認識および出力するための詳細分類手段と、
前記第1の辞書と、前記特徴再構成手段によって生成された前記再構成特徴とを使用して、一定数の複数の再構成画像を構成するための画像再構成手段と、
前記入力された正規化画像と、前記画像再構成手段によって生成された前記再構成画像とに従って認識距離を算出および出力するための認識距離算出手段と、
前記認識距離算出手段によって算出された認識距離に基づいて文字切り出しを行い、前記文字切り出し結果に対応する前記詳細分類手段によって算出された文字コードを最終認識文字コードとして認識する文字列認識手段と
を備えることを特徴とする文字列認識装置。 A character string recognition device for a deteriorated character string,
A feature extraction means for extracting features from a normalized image input using a first dictionary composed of a transformation matrix and an average value of each normalized image ;
Coarse classification means for selecting a certain number of character category candidates by comparing the extracted features with features stored in a second dictionary;
Feature reconstructing means for constructing a fixed number of reconstructed features using a third dictionary storing a transformation matrix and an average feature vector for each character category and the fixed number of selected character category candidates When,
In addition,
Detailed classification means for recognizing and outputting the character code recognized according to the feature extracted by the feature extraction means and the reconstructed feature;
It said first dictionary, using said reconstructed feature generated by the feature reconstruction means, and an image reconstruction means for constructing a plurality of reconstructed images of a certain number,
A normalized image that is the input, a recognition distance calculating means for calculating and outputting a recognition distance in accordance with said reconstructed image generated by the image reconstruction means,
A character string recognition unit that performs character segmentation based on the recognition distance calculated by the recognition distance calculation unit and recognizes the character code calculated by the detailed classification unit corresponding to the character segmentation result as a final recognition character code. A character string recognition device comprising:
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200510093529.3 | 2005-08-26 | ||
CNB2005100935293A CN100409251C (en) | 2005-08-26 | 2005-08-26 | Character identification apparatus and method for literal line regression |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007066310A JP2007066310A (en) | 2007-03-15 |
JP5028911B2 true JP5028911B2 (en) | 2012-09-19 |
Family
ID=37778575
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006226997A Expired - Fee Related JP5028911B2 (en) | 2005-08-26 | 2006-08-23 | Character string recognition program, method and apparatus |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5028911B2 (en) |
CN (1) | CN100409251C (en) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100535931C (en) * | 2006-09-06 | 2009-09-02 | 中国科学院自动化研究所 | Multiple distinguishabilitys retrogress character self-adapting recognition system and method |
CN101359373B (en) * | 2007-08-03 | 2011-01-12 | 富士通株式会社 | Method and device for recognizing degraded character |
US8270719B2 (en) * | 2008-10-14 | 2012-09-18 | Gemological Appraisal Association, Inc. | Gem pattern matching algorithm to determine the percentage match of a target gem pattern to a database of gem patterns |
US20120072013A1 (en) * | 2010-09-16 | 2012-03-22 | Kabushiki Kaisha Toshiba | Character recognition apparatus, sorting apparatus, sorting control apparatus, and character recognition method |
JP6341059B2 (en) * | 2014-10-31 | 2018-06-13 | オムロン株式会社 | Character recognition device, character recognition method, and program |
CN108304882B (en) * | 2018-02-07 | 2022-03-04 | 腾讯科技(深圳)有限公司 | Image classification method and device, server, user terminal and storage medium |
CN110826567B (en) * | 2019-11-06 | 2023-04-07 | 北京字节跳动网络技术有限公司 | Optical character recognition method, device, equipment and storage medium |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62130481A (en) * | 1985-11-30 | 1987-06-12 | Nec Corp | Character recognition system |
JPH08194781A (en) * | 1995-01-17 | 1996-07-30 | N T T Data Tsushin Kk | Method and device for evaluating character recognition device |
JP2894305B2 (en) * | 1995-12-28 | 1999-05-24 | 日本電気株式会社 | Recognition device candidate correction method |
JPH09223195A (en) * | 1996-02-06 | 1997-08-26 | Hewlett Packard Co <Hp> | Character recognizing method |
JP2001223885A (en) * | 1999-11-29 | 2001-08-17 | Canon Inc | Picture processor, picture processing method and storage medium |
CN1459761B (en) * | 2002-05-24 | 2010-04-21 | 清华大学 | Character identification technique based on Gabor filter set |
JP4442208B2 (en) * | 2003-12-08 | 2010-03-31 | 株式会社日立製作所 | Character string notation analysis method and apparatus |
-
2005
- 2005-08-26 CN CNB2005100935293A patent/CN100409251C/en active Active
-
2006
- 2006-08-23 JP JP2006226997A patent/JP5028911B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN100409251C (en) | 2008-08-06 |
CN1920855A (en) | 2007-02-28 |
JP2007066310A (en) | 2007-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10936862B2 (en) | System and method of character recognition using fully convolutional neural networks | |
Moysset et al. | Paragraph text segmentation into lines with recurrent neural networks | |
JP5028911B2 (en) | Character string recognition program, method and apparatus | |
EP2943911B1 (en) | Process of handwriting recognition and related apparatus | |
JP3822277B2 (en) | Character template set learning machine operation method | |
US7650035B2 (en) | Optical character recognition based on shape clustering and multiple optical character recognition processes | |
US7697758B2 (en) | Shape clustering and cluster-level manual identification in post optical character recognition processing | |
US8300942B2 (en) | Area extraction program, character recognition program, and character recognition device | |
Zahedi et al. | Farsi/Arabic optical font recognition using SIFT features | |
JP2001167131A (en) | Automatic classifying method for document using document signature | |
Jenckel et al. | anyocr: A sequence learning based ocr system for unlabeled historical documents | |
Rashid et al. | Scanning neural network for text line recognition | |
AlKhateeb et al. | DBN-Based learning for Arabic handwritten digit recognition using DCT features | |
EP3539051A1 (en) | System and method of character recognition using fully convolutional neural networks | |
CN110942057A (en) | Container number identification method and device and computer equipment | |
Jannoud | Automatic Arabic handwritten text recognition system | |
Marosi | Industrial OCR approaches: architecture, algorithms, and adaptation techniques | |
JP3099797B2 (en) | Character recognition device | |
JP2007052782A (en) | Program, device and method for adjusting recognition distance and program for recognizing character string | |
Imani et al. | offline Handwritten Farsi cursive text recognition using Hidden Markov Models | |
Ajao et al. | Yoruba handwriting word recognition quality evaluation of preprocessing attributes using information theory approach | |
JP2010211346A (en) | Handwritten character recognition system | |
Choudhury et al. | Recognition of handwritten Bangla numerals using adaptive coefficient matching technique | |
JP2009259190A (en) | Character recognition program and character recognition device | |
Jayanthi et al. | A review on recognizing offline Tamil manuscript character |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090512 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111104 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111115 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120112 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120529 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120611 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5028911 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150706 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |