JP5352757B2 - Handwritten character recognition method, handwritten character recognition system, handwritten character recognition program, and storage medium - Google Patents
Handwritten character recognition method, handwritten character recognition system, handwritten character recognition program, and storage medium Download PDFInfo
- Publication number
- JP5352757B2 JP5352757B2 JP2006221253A JP2006221253A JP5352757B2 JP 5352757 B2 JP5352757 B2 JP 5352757B2 JP 2006221253 A JP2006221253 A JP 2006221253A JP 2006221253 A JP2006221253 A JP 2006221253A JP 5352757 B2 JP5352757 B2 JP 5352757B2
- Authority
- JP
- Japan
- Prior art keywords
- character recognition
- polygonal line
- point
- series
- angle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
- G06V30/333—Preprocessing; Feature extraction
- G06V30/347—Sampling; Contour coding; Stroke extraction
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Discrimination (AREA)
Description
本発明は、オンライン手書き文字認識を行う手書き文字認識方法及び手書き文字認識システム、並びにその認識方法を実現する手書き文字認識プログラム、さらにそのプログラムを格納した記憶媒体に関する。 The present invention relates to a handwritten character recognition method and a handwritten character recognition system that perform online handwritten character recognition, a handwritten character recognition program that realizes the recognition method, and a storage medium that stores the program.
今までに多数の文字認識システムが提案され、実用化さているが、その基本原理には二つの立場があり、一つは構造解析の立場、もう一つはパターンマッチングの立場であり、前者は一般にはその認識システムは軽く、したがって、入力制限の強い場合、即ち、画数、筆順一定、または、どちらかを一定にした対象に適応され、他方後者は両者、画数、筆順を自由にした場合かそれに近い場合に適用されてきた。 Many character recognition systems have been proposed and put into practical use, but there are two basic principles, one is a structural analysis, the other is a pattern matching, and the former is In general, the recognition system is light, so if input restrictions are strong, that is, if the stroke number and stroke order are fixed, or if either is fixed, or if the latter is free of both stroke number and stroke order It has been applied to cases close to that.
構造解析の立場としては、電子通信学会論文誌,56−D,5,pp.312−319,“手書き数字・片仮名文字のオンライン実時間認識”や日本国特許庁発行の特開昭59−131972号公報にあるように、基本ストローク方式と呼ばれているものがあり、ストロークを単純ストローク(4種)、複合ストローク(7種)に分類し、識別オートマトンにより認識するものであり、簡単ではあるが、辞書の作成、続け字や、略字に対処するのに問題があり、その発展性に問題があるとされてきた。 From the standpoint of structural analysis, IEICE Transactions, 56-D, 5, pp. 312-319, “Online real-time recognition of handwritten numerals and katakana characters” and Japanese Patent Publication No. 59-131972 issued by the Japan Patent Office, there are so-called basic stroke methods. It is classified into simple stroke (4 types) and compound stroke (7 types) and recognized by the identification automaton. Although it is easy, there are problems in creating a dictionary, dealing with continuous characters and abbreviations. It has been said that there is a problem in development.
パターンマッチング法は大きく分けて2種類の方法がある。一つは、電子情報通信学会論文誌,J63−D,2,pp.153−160,“ストロークの点近似による手書き文字のオンライン認識”にあるように、ストロークを少数の点で近似しそれらを特徴点として、また端点での筆の運動方向を推定し、それらも特焦点とし、特徴ベクトルを構成する。辞書はストロークに分解され、それらが同様に特徴ベクトルをもち、入力ベクトルと各カテゴリ毎に用意された特徴ベクトルとの対応をとり、対応がとれた辞書について距離が計算され、最小の距離を与える辞書名が認識された文字名であり、基本的に筆順,画数に対し自由である。 There are two types of pattern matching methods. One is IEICE Transactions, J63-D, 2, pp. 153-160, “Online recognition of handwritten characters by point approximation of strokes”, strokes are approximated by a small number of points, and these are used as feature points, and the direction of brush movement at the end points is estimated. A feature vector is constructed with the focus. The dictionaries are broken down into strokes, which also have feature vectors, take the correspondence between the input vectors and the feature vectors prepared for each category, calculate the distance for the matched dictionaries, and give the smallest distance A dictionary name is a recognized character name, which is basically free to stroke order and stroke count.
もう一つのパターンマッチング法があり、特徴点の対応方式の原論文として、電子通信学会研究会論文PRL74−20)に記載された“Rubber String Matching法による手書き文字認識”があり、また日本国特許庁発行の特開昭57−45679号公報及び特開平8−24942号公報に在る如く、入力文字と辞書の特徴点ベクトルをDP(Dynamic Programming)方式により対応をとるものであり、これが手書き文字のオンライン認識の主流をなしている。 There is another pattern matching method, and there is “Handwritten character recognition by Rubber String Matching method” described in the IEICE Technical Committee paper PRL74-20) as the original paper of the feature point correspondence method. As disclosed in Japanese Laid-Open Patent Publication Nos. 57-45679 and 8-24942 issued by the Agency, the input character and the feature point vector of the dictionary are supported by the DP (Dynamic Programming) method, which is a handwritten character. The mainstream of online recognition.
なお、最近はオフラインの文字認識技術をオンラインに適用されるようになってきた。
それは、今まで蓄積されてきたOCR技術があり、これはオンライン文字認識にも使える。
この立場から、OCR技術を見ると、主流は方向特徴マッチングである。これについては膨大な文献があるが、基本的考え手法は、例えば原論文として、[電子情報通信学会論文誌,J62−D,3,pp.217−224,“文字認識のための相関法の一改良”]にある。この方法と構造解析の方法と根本的に異なる点は、特徴は一般にn×mの格子平面に割り付けられ、この平面上の特徴分布が最終の入力文字の表現とし、n×mを例えば左隅から右に走査し、n×m次元のベクトルとする。識別は標準方向特徴ベクトルと入力文字方向特徴ベクトルとの内積(類似度)を計算し、その値の最も高い標準方向特徴ベクトルのカテゴリ名を答えとするものである。この際、特に変形の著しい手書き文字では、高度な非線形正規化の前処理が行われる。これが必要なのは、この方法がn×mの格子平面を基本的枠組みにしているからである。この手法の利点は一般にはベクトル空間、特に内積の定義されているヒルベルト空間論が適用されうるので、高度な識別理論が援用されることである。また実用的に言えばノイズに強い。しかし、せっかくのオンラインの最大の利点、セグメンテーションの容易さを殺している。オンラインでは、例えば同じ場所に何個も文字を書いても機械は認識できるようにすることが可能である。また、本当に著しい変形に対しては高度な非線形正規化といえども不十分であるし、例えば回転変形には、相当に高度で、かなりの計算量の正規化が必要である。[S.Mori,H. Nishida,H.Yamada,Optical Character Recognition,Wiley]の第3章に詳しい記述がある。
Recently, offline character recognition technology has been applied online.
There is OCR technology that has been accumulated so far, which can also be used for online character recognition.
From this standpoint, looking at OCR technology, the mainstream is direction feature matching. There is an enormous amount of literature on this, but the basic idea method is, for example, as an original paper [The Institute of Electronics, Information and Communication Engineers Journal, J62-D, 3, pp. 217-224, “Improved Correlation Method for Character Recognition”]. The fundamental difference between this method and the method of structural analysis is that the features are generally assigned to an n × m grid plane, and the feature distribution on this plane is the final input character representation. Scan to the right to make an n × m dimensional vector. For identification, the inner product (similarity) between the standard direction feature vector and the input character direction feature vector is calculated, and the category name of the standard direction feature vector having the highest value is used as the answer. At this time, a highly non-linear normalization preprocessing is performed particularly for handwritten characters that are significantly deformed. This is necessary because the method is based on an n × m lattice plane. The advantage of this approach is that, in general, vector space, especially Hilbert space theory in which inner products are defined, can be applied, so that advanced discriminating theory is used. In practical terms, it is resistant to noise. However, the biggest advantage of online is killing the ease of segmentation. Online, for example, it is possible to make a machine recognize even if a number of characters are written in the same place. Furthermore, even highly nonlinear normalization is not sufficient for truly significant deformations, and for example, rotational deformation requires considerably high degree of normalization with a considerable degree of calculation. [S. Mori, H. Nishida, H. There are detailed descriptions in Chapter 3 of Yamada, Optical Character Recognition, Wiley.
さて上の特徴として、例えば曲率をとることも可能である。この観点から、[電子情報通信学会論文誌,J62−D,3,pp.217−224,“文字認識のための相関法の一改良”]では特に筆記体の「g」、「y」、それにアラビア数字「9」が手書き文字では間違い易いということから、回転特徴と名づけて、湾曲部の接線角度差を求め、適当な量子化を行い、文字を従来の方向特徴ベクトルと局所的な回転特徴ベクトルで表現し、それらをまとめた全特徴ベクトルを求め、ぼかし処理を行う(これは実際には格子平面上で行う)。それぞれのカテゴリにつきぼかし全特徴標準ベクトルを求め、類似度計算を行い、答えを出す方法が提案されている。ところで、構造解析の立場では、筆記体の「g」、「y」と、アラビア数字「9」とはかなり異なる。それは上部の構造を陽に見ているからである。しかし、特徴マッチングでは、内積の過程で混ぜ合わされて一個のスカラー量にしてしまうので、上部構造は陰に見ることになり、三文字とも強度の直線構造があることから、この直線に埋没されてしまう。それでわざわざ、局所特徴面を用意したのである。しかし、後で述べるように、われわれの方法では、上で回転特徴と言われるものが、局所的ではなく、大域的に求められ、一貫した形で、自然に容易に表現される。したがって、上の3種の文字は非常に簡単に認識可能である。 As the above feature, it is also possible to take, for example, a curvature. From this point of view, [The Journal of the Institute of Electronics, Information and Communication Engineers, J62-D, 3, pp. 217-224, “Improved Correlation Method for Character Recognition”], especially because cursive letters “g”, “y” and Arabic numeral “9” are easily mistaken for handwritten characters. The tangent angle difference of the curved part is obtained, appropriate quantization is performed, the character is represented by the conventional direction feature vector and the local rotation feature vector, and all feature vectors obtained by combining them are obtained, and the blurring process is performed. (This is actually done on the grid plane). A method has been proposed in which a blur total feature standard vector is obtained for each category, similarity calculation is performed, and an answer is obtained. By the way, from the viewpoint of structural analysis, cursive “g” and “y” are quite different from the Arabic numeral “9”. It is because the structure of the upper part is seen explicitly. However, in feature matching, it is mixed in the inner product process to make one scalar quantity, so the upper structure will be seen in the shadow, and since all three letters have a strong linear structure, they are buried in this straight line. End up. Therefore, we prepared a local feature plane. However, as we will see later, in our method, what is called a rotation feature above is sought globally, not locally, and is easily expressed naturally in a consistent manner. Therefore, the above three characters can be recognized very easily.
図形,物流システムに置かれた物体,軍事では飛行機など、回転に不変な認識システムは広範囲の対象に対し要求されている。 Recognition systems that are invariant to rotation, such as graphics, objects placed in logistics systems, and airplanes in the military, are required for a wide range of objects.
したがって、昔から研究は行われ、多くの論文が現在もなお発表されている。1990年までの研究については、森 俊二,坂倉 栂子共著の画像認識の基礎(II))に詳しく述べられており、また1999年までの研究は、S.Mori,H.Nishida,H.Yamada著Optical Character Recognitionに詳しい記述があり、この研究の主流はモーメント法であり、高次のモーメントを位相角が相殺するように組み合わせるものであり、またフーリエ記述子なる名前で呼ばれているフーリエ変換法の応用があり、これは最近のPCが非常に高速になったことを反映して、研究自体は盛んになっているものの、実用としてはいまだ市場に現れていないが、一方この流れとは別に、情報処理学会論文誌第27巻第5号:1986年5月,“画数,筆順,回転,区切りによらないオンライン手書き図形認識方式”にあるように対象を直線線分,弧の系列で近似し、それらの相対的角度変化で表現し、辞書の同様な表現との対象(入力図形)対応をとり、それぞれの角度変化の差の絶対値の和でお互いの距離を測って回転不変な方式としているが、鋭角の検出に弱いという欠点が論文自体の中で述べられている。 Therefore, research has been conducted since a long time ago, and many papers are still published. The research up to 1990 is described in detail in Shunji Mori and Atsuko Sakakura, the basics of image recognition (II)). Mori, H. Nishida, H. There is a detailed description in Optical Character Recognition by Yamada, the mainstream of this research is the method of moments, combining higher-order moments so that the phase angle cancels, and the Fourier called the Fourier descriptor name There is an application of the conversion method, which reflects the recent increase in the speed of PCs, but the research itself is thriving, but it has not yet appeared in the market as a practical application, but this trend and Separately, the Journal of Information Processing Society of Japan, Vol. 27, No. 5: May, 1986, “Linear line segment, arc sequence, subject to“ Online handwritten figure recognition method without stroke number, stroke order, rotation, separation ”” Approximate with, express with their relative angle change, match the object (input figure) with similar expression in the dictionary, measure each other's distance with the sum of the absolute value of the difference of each angle change, rotation invariant One Although the disadvantage of being susceptible to acute detection have been described in the paper itself.
いわゆるマッチング方式は文字の置かれた、二次元平面上の特徴(例えばストロークの方向)マッチングである。またオンライン手書き文字認識ではいわゆるDP(Dynamic Programming)マッチング、別名弾性ストリングマッチングである.前者に置いては、二次元上の特徴の分布を、ベクトル表現し、文字間の距離をこれらベクトルの内積として定義し、内積の定義された、ベクトル空間上の識別問題として、統計的手法で文字認識を行う。後者では、単純な重ね合わせのマッチングを拡張し、入力文字が標準文字に対し適応的、柔軟に、マッチングさせることにより文字認識を行うものである。 The so-called matching method is a feature (for example, stroke direction) matching on a two-dimensional plane where characters are placed. On-line handwritten character recognition is the so-called DP (Dynamic Programming) matching, also known as elastic string matching. In the former case, the distribution of features in two dimensions is represented by a vector, the distance between characters is defined as the inner product of these vectors, and the statistical method is used as an identification problem in the vector space where the inner product is defined. Perform character recognition. In the latter, simple superposition matching is extended, and character recognition is performed by matching input characters with standard characters adaptively and flexibly.
このような手法に対し、一般には構造解析的手法と呼ばれる文字認識法が研究されてきた。これは一般図形に対しても適用可能で、良い方法であるが、対象の、具体的には文字ストロークの記号化を必要とし、シンボルによるマッチングがなされてきた。しかし、このシンボル化するところに問題があり、シンボル化で柔軟性を失い、また設計が機械的に行かず、研究,開発が行き詰まっている。例えば上述した[電子通信学会論文誌,56−D,5,pp.312−319,“手書き数字・片仮名文字のオンライン実時間認識”]が発表されたのは古く1973年である。この段階で、オンライン文字の右回り左回りが特徴として使用されているが、これらの系列は全てシンボル化されている。これらは入力パターンのX-座標値の増減で検出され、11個のシンボルで、表現されている。このようなシンボル表現は柔軟性にかけ、実際特別な場合として部分的にしか使用されていない。その後構造解析的手法は1981年に電子通信学会論文誌 J64−D,8,p705−712,“形の代数的構造表現”で統一的な観点を与える代数的な考えが導入され,1992年にIEEE Trans. on Pattern Analysis and Machine Intelligence Vol. 14,No.5,pp. 1029-1058,“Algebraic Description of Curve Structure”で実用的な代数的システムが構築されたが、依然としてシンボル表現であった。この様に構造解析的手法はシンボル表現水準に留まってきた。この壁を突破するには、シンボルでなく、アナログにしなければならないと言うこと自体は学会で、よく言われてきたのであるが、いままで、このアナログ化の具体的な方法が見付からなかった。 For such a method, a character recognition method generally called a structural analysis method has been studied. This is applicable to general graphics and is a good method, but it requires symbolization of the object, specifically character strokes, and has been matched by symbols. However, there is a problem in this symbolization, the symbolization loses flexibility, the design is not mechanical, and research and development are stuck. For example, as described in [Electronic Communication Society Journal, 56-D, 5, pp. 312-319, “Online Real-Time Recognition of Handwritten Numerals / Katakana Characters”] was published in 1973. At this stage, the clockwise and counterclockwise on-line characters are used as a feature, but these sequences are all symbolized. These are detected by increasing or decreasing the X-coordinate value of the input pattern, and are expressed by 11 symbols. Such symbolic representation is flexible and is actually only partially used as a special case. After that, the structural analysis method was introduced in 1981 by the IEICE Transactions J64-D, 8, p705-712, “Algebraic Structural Representation of Shapes”. IEEE Trans. On Pattern Analysis and Machine Intelligence Vol. 14, No. 5, pp. 1029-1058, “Algebraic Description of Curve Structure”, a practical algebraic system was constructed, but it was still a symbol expression. In this way, structural analysis techniques have remained at the symbol expression level. In order to break through this wall, the fact that it must be analog, not symbol, has been often said by academic societies, but until now, no concrete method of analogization has been found.
ところが、上記の従来技術では,下記のような基本問題がある。
構造解析は簡単であるが、柔軟性がなく、基本パターンの境が問題で、離散的で、ぎこちなく、辞書の作成に手間がかかる。
パターンマッチング法、特にDP方式は処理が重たい。
パターンマッチング法はオフライン認識も含め、ただ読むだけ、すなわち入力文字を強引に辞書に当てはめることが主たる目的であり、原因結果の対応が見えず、時として理解に苦しむ誤読をきたし、その原因が設計者にもわからないことが珍しくない。
However, the above conventional techniques have the following basic problems.
Although structural analysis is simple, it is not flexible, the boundary of basic patterns is a problem, it is discrete, awkward, and it takes time to create a dictionary.
The pattern matching method, especially the DP method, is heavy.
The main purpose of the pattern matching method, including offline recognition, is simply to read, that is, to force the input characters into the dictionary, and the cause / result is misunderstood. It's not uncommon for a person to know something.
以上、単文字の認識について述べてきたが、連続的に書かれた、例えば筆記体の文字列に対し、これを効率よく認識する方法について以下に述べる。これにも、様々な技術が提案され、実用化されているが、それらは、大きく「セグメント方式」と「ホリスティック方式」という二つの方式に分けられる。 The recognition of single characters has been described above. A method for efficiently recognizing, for example, a cursive character string written continuously will be described below. Again, various technologies have been proposed and put into practical use, but they can be broadly divided into two methods, a “segment method” and a “holistic method”.
「ホリスティック方式」とは、文字列があたかも単独文字で在るかのごとく見て、全体として認識する方法である。しかし、この問題点は、テンプレートの数が、非常に大になることである。英単語の場合、5万個が少なくとも必要である。 The “holistic method” is a method of recognizing a character string as a whole as if it is a single character. However, this problem is that the number of templates becomes very large. In the case of English words, at least 50,000 are required.
一方、「セグメント方式」は、文字列を構成するそれぞれの文字を切り出し、認識するので、このような問題はない。しかし、問題はセグメント/切り出しをいかに行うかであり、これは昔から難問として知られている。(1995年までの研究を系統的かつ詳細に紹介したものとして、Richard G. Cassy と Elic Lecolinetによる論文がある:IEEE Transactions on Pattern and Machine Intelligence, Vol.18, No.7, July 1996, pp690-706)。 On the other hand, the “segment method” does not cause such a problem because each character constituting the character string is cut out and recognized. But the question is how to segment / cut out, and this has long been known as a challenge. (For a systematic and detailed introduction to the work up to 1995, there is a paper by Richard G. Cassy and Elic Lecolinet: IEEE Transactions on Pattern and Machine Intelligence, Vol. 18, No. 7, July 1996, pp690- 706).
この難問には、大きく分けて、2通りの解決方法がある。一つは、さまざまな特徴を用い、文字の切り出しを先に行い、それからこの切り出された文字を認識する方法である。これは「切断法」と呼ばれ、古典的な方法で、主に対象は印刷文字列などに用いられる。このような対象では文字間に若干の隙間があり、そのような隙間を対象のX軸上への濃度の射影などから検出する。しかし、文字が全体として傾く場合には、濃度の射影は無効となるので、傾きを正規化する必要があり、「切断法」には基本的に限界がある。 There are two main solutions to this difficult problem. One is a method of using various features, cutting out characters first, and then recognizing the cut out characters. This is called a “cutting method” and is a classic method, and the object is mainly used for printing character strings. In such an object, there are some gaps between characters, and such a gap is detected from the projection of the density on the X axis of the object. However, when the characters are inclined as a whole, the density projection becomes invalid, so it is necessary to normalize the inclination, and the “cutting method” is basically limited.
二つ目は、認識と切り出しを同時に行う「認識に基づく方法」である。即ち、文字を切り出す手段として、文字の認識を利用するものである。 The second is a “recognition-based method” in which recognition and clipping are performed simultaneously. That is, character recognition is used as means for cutting out characters.
最初の考えは、1962年に出されたもので、一つの窓枠を文字列の始めから連続的に走査し、連続的にその窓枠内の文字を認識していく方法である。しかしこの方法は、例えば「W」は2個の「V」と認識されてしまう。そこで、文字列全体を考え、考えられる範囲の窓枠列を想定し、それら窓枠内で認識される文字列を、全体として評価する方法が考えられた。このさい、組み合わせが大になるので、効率良い計算法として、DP(Dynamic Programming)法が採用された。この方法は、V.A.Kovalevsky により発表されたもので、”Character Readers and Pattern Recognition,” Washington, D.C., Spartan Books,1968,にある。 The first idea came out in 1962, and is a method of continuously scanning one window frame from the beginning of the character string and continuously recognizing characters in the window frame. However, in this method, for example, “W” is recognized as two “V”. Therefore, a method has been considered in which the entire character string is considered, a window frame string in a conceivable range is assumed, and the character string recognized in the window frame is evaluated as a whole. At this time, since the combination becomes large, the DP (Dynamic Programming) method has been adopted as an efficient calculation method. This method was published by V.A.Kovalevsky and is in “Character Readers and Pattern Recognition,” Washington, D.C., Spartan Books, 1968.
そこでは、例として、非常に劣化したタイプ文字、「A」「N」「H」の3文字を取り上げている。文字列はロシヤ文字を想定する。この文字列を連続的に走査すると、「N」と「H」のセリフ(欧文活字の飾り)のため、NHの中間に「Π」なる文字(ロシヤ文字)も認識検出されてしまう。しかし、これは文字列全体としては認識評価が低いため、A、N、Hの3文字が文字列全体として認識評価される。すなわち、正しい切り出しと、認識が同時に行われることになる。 There, as an example, three types of characters, “A”, “N”, and “H”, which are very deteriorated, are taken up. The string is assumed to be a Russian character. When this character string is continuously scanned, the character “R” is recognized and detected in the middle of NH because of the “N” and “H” lines (decoration of European print). However, since the recognition evaluation is low for the entire character string, the three characters A, N, and H are recognized and evaluated as the entire character string. That is, correct segmentation and recognition are performed simultaneously.
この考えは、革新的であったが、長い間、注目されなかった。この手法の再発見は、IBMに所属していたRichard G. Cassyである(上述の論文の執筆者の一人)。彼とN.Nagyは、この考え方に立って、再帰的切り出し法なる新しい方法を提案した。 This idea was innovative, but has not received much attention for a long time. The rediscovery of this method is by Richard G. Cassy, who belonged to IBM (one of the authors of the above paper). Based on this idea, he and N.Nagy proposed a new method called recursive clipping.
例として挙げられているのは、やはり劣化したタイプ文字「r」「m」でrとmは完全につながっている。最初、窓枠は全文字例が含むようにとられる。この場合、「rm」である。その文字枠内にある文字例を認識し、認識できればそれで良い。これで終わりである。しかし認識出来なければ、右端から窓枠を狭めて行き、そこで認識を行い、窓枠内とその残部が認識できればそれで良い。「rm」の例ではこの段階で「r」、「m」と認識され、これで終了である。この方法は“Recursive Segmentation and Classification of Composite Patterns,”Proc.,Sixth International Conference on Pattern Recognition ,p.1923,1982.”に記載されている。 As an example, r and m are completely connected by the degraded type letters “r” and “m”. Initially, the window frame is taken to include all character examples. In this case, it is “rm”. If the example of the character in the character frame is recognized and can be recognized, it is sufficient. This is the end. However, if it cannot be recognized, the window frame is narrowed from the right end, recognition is performed there, and it is sufficient if the inside of the window frame and the remaining part can be recognized. In the example of “rm”, “r” and “m” are recognized at this stage, and this is the end. This method is described in “Recursive Segmentation and Classification of Composite Patterns,” Proc., Sixth International Conference on Pattern Recognition, p.1923, 1982.
さて上述した方法は、オフラインの文字認識で、マッチングの流れはX軸上でその正の方向である。これが、マッチングの自然な軸を形成する。また、マッチングは濃度レベルの内積をとるものである。この点、局所的特徴を、平行移動に不変な、n次自己相関法を基礎に25種類の3×3のマスクで構成し、X軸に垂直な1×M(Mは文字枠の高さ)の窓を走らせ、これらの特徴を検出、それらのヒストグラム分布から、適当に設計された識別関数で、対象を認識する手法が提案された。これは主に大津による発明であり、米国特許が取得されている。 The method described above is off-line character recognition, and the flow of matching is in the positive direction on the X axis. This forms the natural axis of matching. Matching takes the inner product of density levels. In this respect, the local features are composed of 25 types of 3 × 3 masks based on the nth-order autocorrelation method that is invariant to translation, and 1 × M perpendicular to the X axis (M is the height of the character frame) ) Is detected, these features are detected, and a method of recognizing an object from their histogram distribution with an appropriately designed discriminant function has been proposed. This is mainly an invention by Otsu and has been granted a US patent.
特許文献1は、上述した大津などによる米国特許である。
しかし、これらの方式は、いずれも複雑で、性能という面では実用的な水準を十分に満たしているとは言いがたいのが実情である。
柔軟な構造的マッチングとしては、文字認識よりは、むしろ情景認識の分野で、広く、研究がなされた。しかし、それらは2次元上の特徴の配置と、それらの関係を一般的に表現する2次元グラフ上でのマッチングであった。これに関しては、実に膨大な研究がある。
However, it is difficult to say that these methods are all complicated and sufficiently satisfy the practical level in terms of performance.
As flexible structural matching, extensive research has been done in the field of scene recognition rather than character recognition. However, they are two-dimensional feature arrangements and matching on a two-dimensional graph that generally expresses their relationship. There is a tremendous amount of research on this.
一方、オンライン文字認識では、人間が見てのイメージは2次元であるが、厳密に時間軸上に乗っていて、1次元である。すなわち、単なる1次元の線形グラフで表現できるのである。この観点が、問題を劇的に単純化するのである。しかも、巻き角により、時間軸上に、自然な切り出し候補点が陰に陽に整列している。この巻き角と線形(1次元)グラフとが、本件発明の核心となる。 On the other hand, in online character recognition, the image seen by humans is two-dimensional, but it is strictly on the time axis and is one-dimensional. That is, it can be expressed by a simple one-dimensional linear graph. This point of view dramatically simplifies the problem. Moreover, natural cutout candidate points are implicitly aligned on the time axis according to the winding angle. This winding angle and a linear (one-dimensional) graph are the core of the present invention.
本発明はかかる点に鑑みてなされたものであり、基本的には上に述べた構造解析的手法に属し、しかし、今までの問題点を克服し、柔軟な構造解析的手法の基礎を与えるものであり、それ故、シンボル化の問題を回避し、アナログ的に構造を表現し、標準との柔軟かつ単純なマッチングを行うことを目的とする。 The present invention has been made in view of the above points, and basically belongs to the structural analysis method described above. However, the present invention overcomes the conventional problems and provides a basis for a flexible structural analysis method. Therefore, the object is to avoid the problem of symbolization, express the structure in an analog manner, and perform flexible and simple matching with the standard.
本発明は、オンライン手書き文字を認識する場合において、入力された手書き文字列を、各画毎にパラメータ表現でとらえ、各画毎に折れ線近似を行い、その折れ線近似された各折れ線を、始点から終点にいたるベクトルとして、基準となる軸と各折れ線とのなす角度を折れ線角系列として求め、得られた折れ線の各頂点の外角系列を求め、外角系列のプラス又はマイナスの同じ符号が連続する同符号の外角の和を、巻き角系列とし、求められた各系列による特徴抽出を基にして、始点、終点、90度の整数倍の巻き角を与える点、巻き角が変化する点をノードとし、そのノードの点としての属性とノード間の辺としての属性により、グラフ表現を与え、始点と終点を特に規定しない開いたマスク構成によるテンプレートとのマッチングにより、文字認識を行うものである。 In the present invention, when recognizing online handwritten characters, the input handwritten character string is captured by the parameter expression for each image, the polygonal line approximation is performed for each image, and each polygonal line approximated by the line is approximated from the start point. As a vector to the end point, the angle between the reference axis and each polygonal line is obtained as a polygonal line angle series, the external angle series of each vertex of the obtained polygonal line is obtained, and the same sign of positive or negative of the external angle series continues. The sum of the outer angles of the code is the winding angle series, and the starting point, the end point, the point that gives a winding angle that is an integer multiple of 90 degrees, and the point at which the winding angle changes are taken as nodes , based on the feature extraction by each obtained sequence. , by the attribute of the edges between attributes and nodes as a point of the node, it gives a graphical representation, the matching with the template in the mask structure, especially an open does not define the start and end points , And it performs character recognition.
本発明によると、オンライン手書き文字を認識する場合に、普通の上下、左右の関係を保持した文字に対しても、また回転不変を求められる場合においても、柔軟で、端のノイズや変形に強い頑健な認識を行い、また連続した文字列においても、それらを前処理として切り出すことなく、孤立して書かれている文字の認識法と同じ方法で認識を行うことができる。 According to the present invention, when recognizing on-line handwritten characters, it is flexible and resistant to noise and deformation at the edges, even for characters that maintain normal top / bottom and left / right relationships and when rotation invariance is required. Robust recognition is performed, and even in a continuous character string, recognition can be performed in the same manner as a method for recognizing characters written in isolation without cutting them out as preprocessing.
以下、本発明の一実施の形態を、添付図面を参照して説明する。 Hereinafter, an embodiment of the present invention will be described with reference to the accompanying drawings.
本実施の形態の例においては、オンライン手書き文字認識を行うシステムに適用してあり、図1には、各処理部をハードウエア構成とした場合の構成例を示してある。なお、図1に示すように各処理部を共通の演算処理部で実行する構成としてもよく、或いはパーソナルコンピュータ装置などの汎用の演算処理装置に、本例の手書き文字認識をプログラム化したものを実装させて、同様の手書き文字認識が行われるようにしてもよい。 The example of the present embodiment is applied to a system that performs online handwritten character recognition, and FIG. 1 shows a configuration example in which each processing unit has a hardware configuration. In addition, as shown in FIG. 1, it is good also as a structure which performs each process part by a common arithmetic processing part, or what made the handwritten character recognition of this example into the program in general purpose arithmetic processing apparatuses, such as a personal computer apparatus, It may be mounted so that similar handwritten character recognition is performed.
また、以下の説明においては、本例での手書き文字認識に必要な概念を、次の表1に示す用語で定義している。 Moreover, in the following description, the concept required for handwritten character recognition in this example is defined by the terms shown in Table 1 below.
図1に示した構成について説明すると、紙1の上で、ペン2で文字を書くことで、その紙1の上の運筆(筆跡)1aをペン2側で検出する。その運筆1aの検出は、例えばペン2に内蔵されたカメラにより行う。或いは、加速度センサなどからペン2自体の動きを検出するようにしてもよい。さらに、ペン側で検出するのではなく、紙1の側を何らかのパネルで構成して、電気的に筆跡を検出できる構成としてもよい。いずれにしても、本例の場合にはオンライン手書き文字認識であるので、時間の経過による筆跡の変化を判断できる構成としてある。
The configuration shown in FIG. 1 will be described. By writing a character on the
これらの処理で検出された筆跡のデータは、入力処理部3に送られ、文字情報を検出するための入力処理が行われる。入力されたデータは、以下、折れ線近似部4、特徴抽出部5、識別部6、識別結果出力部7に送られて、それぞれの処理部で対応した処理が行われて、最終的に、識別結果出力部7で、識別された文字の表示や、識別された文字コードの出力などの出力処理が行われる。識別された文字コードに基づいた、識別文字の表示或いは印刷を行うようにしてもよい。
The handwriting data detected by these processes is sent to the input processing unit 3, and an input process for detecting character information is performed. The input data is sent to the polygonal line approximation unit 4, the
図2のフローチャートは、本例の文字認識の全体の処理例を示したものである。以下、図2に従って説明すると、入力処理部3から入力された文字/図形パターンは(ステップS11)、折れ線近似部4で折れ線近似される(ステップS12)。この近似から、入力パターンは、各折れ線をベクトルと見た時の、長さ、方向角、隣接する折れ線の方向角の差を要素とするベクトルとして表現される(ステップS13)。また、方向角の差のベクトル表現から、同符号の角の差の和を求め、符号を含め一つの要素として、ここで巻き角と名づけたベクトル表現が求められる。次に、特徴抽出部5で折れ線近似表現から、状況に応じて、特徴が抽出され(ステップS14)、その特徴の抽出結果に基づく1次元の線形グラフ表現を与え、(ステップS15)、そのグラフ表現と始点、終点を特に規定しない開いたマスク構成によるテンプレートとのマッチングにより、文字認識が行われ(ステップS16)、文字認識結果が出力される(ステップS17)。
The flowchart of FIG. 2 shows an example of the entire character recognition process in this example. Hereinafter, referring to FIG. 2, the character / graphic pattern input from the input processing unit 3 (step S11) is approximated by a broken line by the broken line approximation unit 4 (step S12). From this approximation, the input pattern is expressed as a vector whose elements are differences in length, direction angle, and direction angle between adjacent broken lines when each broken line is regarded as a vector (step S13). Further, the sum of the angle differences of the same sign is obtained from the vector expression of the direction angle difference, and a vector expression named as the winding angle is obtained as one element including the sign. Next, the
ここで、ステップS16での文字認識処理の詳細の例を、図3のフローチャートを参照して説明する。まず、入力されたグラフ表現の各ノード形状の並びが一致していることがチェックされる(ステップS21)。そして、ノードの点としての属性の一致がチェックされ、(ステップS22)、続いて、ノード間の辺(エッジ)の属性の一致がチェックされる(ステップS23)。最後に、交点の有無、ノード間距離関係などのその他の属性の一致がチェックされて(ステップS24)、識別される。これらのチェックの結果で全てが一致している場合に、認識結果がOKとなり(ステップS25)、1つでも一致しない場合に排除される(ステップS26)。 Here, an example of the details of the character recognition processing in step S16 will be described with reference to the flowchart of FIG. First, it is checked that the arrangement of the node shapes in the input graph representation is the same (step S21). Then, matching of attributes as node points is checked (step S22), and then matching of attributes of edges (edges) between nodes is checked (step S23). Finally, matching of other attributes such as the presence / absence of intersections and inter-node distance relationships is checked (step S24) and identified. If all of these check results match, the recognition result is OK (step S25), and if any one does not match, it is eliminated (step S26).
本実施の形態における認識手法においては、基本的には上に述べた構造解析的手法に属し、しかし、今までの問題点を克服し、柔軟な構造解析的手法の基礎を与えるものである。それ故、シンボル化の問題を回避し、アナログ的に構造を表現し、標準との柔軟かつ単純なマッチングを行うものである。また構造解析を行うので、必然的に対象を適格に記述することが出来て、原因結果の対応が人間の視覚からみて明確である。従って、文字などの対象の形の評価が出来て、正しい拒否範囲を設定でき、より人間に近い能力をもつ認識システムを提供することができる。 The recognition method in the present embodiment basically belongs to the structural analysis method described above, but overcomes the problems so far and provides a basis for a flexible structural analysis method. Therefore, it avoids the problem of symbolization, expresses the structure in an analog manner, and performs flexible and simple matching with the standard. In addition, since structural analysis is performed, it is inevitably possible to describe the subject appropriately, and the correspondence of the cause and effect is clear from the viewpoint of human vision. Accordingly, it is possible to evaluate the shape of an object such as a character, to set a correct refusal range, and to provide a recognition system having a human-like ability.
ここまでは、本願の発明者が先に提案した構造解析的手法と基本的に同じである。加えて、連続した文字列(例えば筆記体など)において効率的な文字認識を行う上でも、本方式は非常に便利にできている。本発明では、巻き角により、時間軸上に、自然な切り出し候補点が陰に陽に整列していることに着目し、入力された文字列に対し、その候補点(ノード)とノード間の辺(エッジ)の属性を用いた1次元の線形グラフ表現を与え、認識と同時に切り出し(「切り出し認識」)を行い、前処理としての切り出しを行うことなく、孤立して書かれている文字の認識法と同じ方法で認識を可能とするものである。 Up to this point, it is basically the same as the structural analysis method previously proposed by the inventors of the present application. In addition, this method is very convenient for efficient character recognition in continuous character strings (for example, cursive letters). In the present invention, attention is paid to the fact that natural cutout candidate points are implicitly aligned on the time axis according to the winding angle, and for the input character string, between the candidate points (nodes) and the nodes. Gives a one-dimensional linear graph representation using edge attributes, cuts out at the same time as recognition ("cutout recognition"), and cuts out characters written in isolation without cutting out as preprocessing Recognition is possible in the same way as the recognition method.
本発明の効果を説明する上で、連続した文字列の認識から入ることがわかりやすいので、図4にある具体的な数字列の認識法の説明から入る。これは「888」である。これらの各文字は繋がっている。したがって、従来の文字認識では、これらの文字を、切り出して、それぞれ認識システムに送る必要があった。この処理は「切り出し前処理」と呼ばれる。しかし、本方式では、この「切り出し前処理」が不要であり、認識と切り出しを同時に行う。これを以下に説明する。 In describing the effect of the present invention, it is easy to understand from the recognition of continuous character strings, so the description starts with the specific method for recognizing numeric strings in FIG. This is “888”. Each of these characters is connected. Therefore, in the conventional character recognition, it is necessary to cut out these characters and send them to the recognition system. This process is called “pre-cut process”. However, this method does not require this “pre-cutout process”, and recognition and cutout are performed simultaneously. This will be described below.
図4のイメージは、左から書かれたものであるが、これらの基本の表現は、連結する各折れ線の長さ、折れ線角、隣り合う折れ線の角から構成される外角、そして同一符号の外角を足し合わせた、巻き角を要素とする、長さ系列、角系列、外角系列、巻き角系列である。 The image of FIG. 4 is written from the left, but these basic expressions are the length of each connecting polyline, the polyline angle, the external angle composed of the corners of adjacent polyline, and the external angle of the same sign Are a length series, an angle series, an outside angle series, and a winding angle series with the winding angle as an element.
そこで、これらを素材として、「切り出し認識」に適した一次元のグラフ表現に変換する。ここでの、グラフは最も簡単な線形グラフである。図4の最初の「8」の部分を敢えて切り出した図5を実例として、以下に記す。ここでは、始点、終点、90度の整数倍の巻き角を与える点(±n×90度長点)、巻き角の符号が変化する点を「ノード」とし、ノードの属性としてその点の外角(△)と、そのノードが属する巻き角領域の巻き角値(Θ)、またノード間の辺(エッジ)の属性として、ノード間にある折れ線群における外角の絶対値の最大値(最大|Δ|)を用い、グラフ表現を与える。 Therefore, these are converted into one-dimensional graph representations suitable for “cutout recognition” using these as materials. The graph here is the simplest linear graph. FIG. 5 where the first “8” portion of FIG. 4 is intentionally cut out is described below as an example. Here, the start point, the end point, the point that gives a winding angle that is an integral multiple of 90 degrees (± n × 90 degrees long point), the point where the sign of the winding angle changes is a “node”, and the outer angle of that point as a node attribute (△), the winding angle value (Θ) of the winding angle region to which the node belongs, and the maximum value of the absolute value of the outer angle in the polygonal line group between the nodes (maximum | Δ |) To give a graph representation.
ここで、<0> [ s ]、<1> [ − ]、<2> [ −+ ]、<3> [ + ]、<4> [ + ]、<5> [ + ]、…<28> [ e ] はこのグラフのノード番号と、それらの、特性を表現したシンボルである。<0> [ s ] から始まり、<28> [ e ]で終わる。[ s ]、[ e ]はそれぞれ、スタート、エンドのシンボルである。<1> [ − ]は、外角(Δ)系列で最初の巻き角−90度点である。巻き角は離散的であるが、線形補間しているので、一般にα度長点として、アナログ的に求めることが出来る。<1> [ − ]の「−」は左周りという、巻き角の符号を表現している。 Where <0> [s], <1> [-], <2> [-+], <3> [+], <4> [+], <5> [+], ... <28> [e] is a node number of this graph and a symbol expressing their characteristics. Starts with <0> [s] and ends with <28> [e]. [s] and [e] are start and end symbols, respectively. <1> [−] is the first winding angle of −90 degrees in the outer angle (Δ) series. Although the winding angle is discrete, since it is linearly interpolated, it can generally be obtained in analog form as an α-degree long point. <1> The “-” in [-] represents the sign of the winding angle, counterclockwise.
<図5のグラフ表現>
<0> [ s ] 0 ( 326, 121 ), Θ = -172.83
↓
↓ 折れ線数(0〜4) = 4, 長さ = 0.07, 最大|Δ| = |-24.52|
↓
<1> [ − ] 4 ( 156, 121 ), Θ = -172.83, Δ = -33.26
↓
↓ 折れ線数(4〜6) = 2, 長さ = 0.09, 最大|Δ| = |-72.64|
↓
<2> [ −+ ] 6 ( 347, 279 ), Θ(-) = -172.83, Θ(+) = 304.42, Δ(-) = -72.64, Δ(+) = 21.27
↓
↓ 折れ線数(6〜8) = 2, 長さ = 0.02, 最大|Δ| = |45.06|
↓
<3> [ + ] 8 ( 365, 346 ), Θ = 304.42, Δ = 49.31
↓
↓ 折れ線数(8〜12) = 4, 長さ = 0.07, 最大|Δ| = |30.07|
↓
<4> [ + ] 12 ( 195, 329 ), Θ = 304.42, Δ = 20.39
↓
↓ 折れ線数(12〜15) = 3, 長さ = 0.03, 最大|Δ| = |35.79|
↓
<5> [ + ] 15 ( 194, 258 ), Θ = 304.42, Δ = 38.45
↓
↓ 折れ線数(15〜16) = 1, 長さ = 0.05
↓
<6> [ +− ] 16 ( 330, 205 ), Θ(-) = 304.42, Θ(+) = -56.33, Δ(-) = 38.45, Δ(+) = -56.33
・
・
・
<28>[ e ]
<Graphic representation of FIG. 5>
<0> [s] 0 (326, 121), Θ = -172.83
↓
↓ Number of broken lines (0 to 4) = 4, Length = 0.07, Maximum | Δ | = | -24.52 |
↓
<1> [−] 4 (156, 121), Θ = -172.83, Δ = -33.26
↓
↓ Number of broken lines (4-6) = 2, Length = 0.09, Maximum | Δ | = | -72.64 |
↓
<2> [− +] 6 (347, 279), Θ (-) = -172.83, Θ (+) = 304.42, Δ (-) = -72.64, Δ (+) = 21.27
↓
↓ Number of broken lines (6 to 8) = 2, Length = 0.02, Maximum | Δ | = | 45.06 |
↓
<3> [+] 8 (365, 346), Θ = 304.42, Δ = 49.31
↓
↓ Number of broken lines (8 to 12) = 4, Length = 0.07, Max | Δ | = | 30.07 |
↓
<4> [+] 12 (195, 329), Θ = 304.42, Δ = 20.39
↓
↓ Number of broken lines (12 to 15) = 3, Length = 0.03, Max | Δ | = | 35.79 |
↓
<5> [+] 15 (194, 258), Θ = 304.42, Δ = 38.45
↓
↓ Number of broken lines (15 to 16) = 1, Length = 0.05
↓
<6> [+-] 16 (330, 205), Θ (-) = 304.42, Θ (+) = -56.33, Δ (-) = 38.45, Δ (+) = -56.33
・
・
・
<28> [e]
<1> [ − ]、すなわち「−90度点」は、5番目の頂点を少し越えたところにある。そこで、このノードの点の属性として、これが属する巻き角系列(Θ = -172.83)とこれに最も近い時間的に前の頂点(この場合5番目の頂点)の外角(Δ)値、Δ = -33.26を与える。また、巻き角の境界を示す<2> [ −+ ]が重要である。これはすなわち、巻き角(−)から巻き角(+)へ変化した点である。巻き角の境界は点ではなく、1個の折れ線を共有する。その共有する折れ線の、時間軸のプラス方向にある先端をノードとしている。この点の属性は、Θ(-) = -172.83, Θ(+) = 304.42, Δ(-) = -72.64, Δ(+) = 21.27である。すなわち、時間的に変化する前の巻き角Θ(-) = -172.83と、時間的に変化後の巻き角Θ(+) = 304.42、それと共通の折れ線の両端の外角(Δ)値、Δ(-) = -72.64, Δ(+) = 21.27である。 <1> [-], that is, "-90 degree point" is just beyond the fifth vertex. Therefore, as the attribute of the point of this node, the winding angle sequence (Θ = −172.83) to which this node belongs and the outer angle (Δ) value of the closest vertex in time (in this case, the fifth vertex), Δ = − Give 33.26. In addition, <2> [− +], which indicates the boundary of the winding angle, is important. In other words, this is a point where the winding angle (−) is changed to the winding angle (+). The boundary of the wrapping angle is not a point, but shares one line. The tip of the shared broken line in the plus direction of the time axis is a node. The attributes of this point are Θ (−) = − 172.83, Θ (+) = 304.42, Δ (−) = − 72.64, Δ (+) = 21.17. That is, the winding angle Θ (-) = -172.83 before the time change, the winding angle Θ (+) = 304.42 after the time change, and the outer angle (Δ) values at both ends of the common broken line, Δ ( -) = -72.64, Δ (+) = 21.27.
<2> [ −+ ]以降、折れ線系列は巻き角(+)の領域に入る。この最初が<3> [ + ]で、これは90度長点である。属性はΘ = 304.42, Δ = 49.31である。<4> [ + ]は180度長点である。<5> [ + ]は270度長点である。すなわち、このノード<5>で、巻き角は270を越えて巻いたことになる。次は<6> [ +− ]で、これは巻き角が+から−へ変化する点である。 <2> After [− +], the polygonal line sequence enters the winding angle (+) region. The first is <3> [+], which is a 90 degree long point. The attributes are Θ = 304.42, Δ = 49.31. <4> [+] is a 180 degree long point. <5> [+] is a 270 degree long point. In other words, at this node <5>, the winding angle exceeds 270. Next is <6> [+-], which is the point where the winding angle changes from + to-.
次にこれらのノードを結ぶ辺の属性として、折れ線数(0〜4) = 4, 長さ = 0.07, 最大|Δ| = |-24.52|の如く、それらのノード間の、折れ線数、長さ、|Δ|の最大値を取る。これらの特性は、回転不変である。 Next, as the attributes of the edges connecting these nodes, the number of broken lines (0 to 4) = 4, length = 0.07, maximum | Δ | = | -24.52 | , Take the maximum value of | Δ |. These properties are rotation invariant.
以上が入力のグラフ表現であり、これに対し、マスク構成によるテンプレートとのマッチングを行う。「8」の場合のマスク構成の一例を以下に示す。 The above is the graph representation of the input, and matching with the template based on the mask configuration is performed. An example of the mask configuration in the case of “8” is shown below.
<「8」のマスクの一例>
条件1: * = −+ (最初の鍵となるノード)
条件2: −200 <Θ(*−)<−100 & 200<Θ(*+) <360
(注:「Θ(*−)」は最初の「−」巻き角、「Θ(*+)」は後継する「+」巻き角)
条件3: -100 < Δ(*-) < -20 & 10 < Δ(*+) < 100
(注:「Δ(*-)」は「−」巻き角の境界の外角値、「Δ(*+)」は後継する「+」巻き角の境界の 外角値。すなわち、境界線分の両端にある−側、+側の外角値。)
条件4: (*-, *+), Cross: nxm:n∈(*-)〜(*+)
(注:境界線分の両端間に交差点Crossが存在)
条件5: *+1 = +− (2番目の鍵となるノード)
条件6: 200<Θ(*+1+) <360 & -200 <Θ(*+1-) <-10
(注:「/Θ(*+1+)」は+巻き角、「Θ(*+1-)」は次の−巻き角
条件7: 10 < Δ(*+1+) < 100 & -100 < Δ(*+1−) < -20
(注:「 Δ(*+1+)」は+巻き角の境界の 外角値、「Δ(*+1−)」は次の−巻き角の境界の外角値。)
条件8: (*+1-, *+1+), Cross: nxm:m∈(*+1+)〜(*+1−)
(注:境界線分の両端間にCrossが存在)
文字[8]=条件1&条件2&条件3&条件4&条件5&条件6&条件7&条件8である。
<Example of “8” Mask>
Condition 1: * =-+ (first key node)
Condition 2: −200 <Θ (* −) <− 100 & 200 <Θ (* +) <360
(Note: “Θ (* −)” is the first “−” winding angle, “Θ (* +)” is the succeeding “+” winding angle)
Condition 3: -100 <Δ (*-) <-20 & 10 <Δ (* +) <100
(Note: “Δ (*-)” is the outer angle value of the “−” winding angle boundary, and “Δ (* +)” is the outer angle value of the succeeding “+” winding angle boundary. -Side and + side outside angle values in
Condition 4: (*-, * +), Cross: nxm: n∈ (*-) to (* +)
(Note: There is an intersection Cross between both ends of the boundary line)
Condition 5: * + 1 = + − (second key node)
Condition 6: 200 <Θ (* + 1+) <360 & -200 <Θ (* + 1-) <-10
(Note: “/ Θ (* + 1+)” is the + winding angle, “Θ (* + 1-)” is the next − winding angle condition 7: 10 <Δ (* + 1+) <100 & -100 < Δ (* + 1−) <-20
(Note: “Δ (* + 1+)” is the outside angle value at the + winding angle boundary, and “Δ (* + 1−)” is the outside angle value at the next − winding angle boundary.)
Condition 8: (* + 1-, * + 1 +), Cross: nxm: m∈ (* + 1+) to (* + 1−)
(Note: Cross exists between both ends of the boundary line)
Character [8] =
このマスクは非常に簡単で、ノードは2個(「* = −+」と「*+1 = +−)で、それぞれ、−から+への境界、+から−への境界だけである。「±n×90度長点」は使用していない。ここで、「* = −+」における「*」の意味は、このノードがこのマスクの鍵になることを示し、巻き角が「マイナス」から「プラス」に変化するノードが必ず存在すること示している。「*+1 = +−」は次に必要なノードとして、今度は反対に巻き角が「プラス」から「マイナス」に変化するノードをあげている。 This mask is very simple, with two nodes (“* = − +” and “* + 1 = + −”), with only a boundary from − to + and a boundary from + to −, respectively. “± n × 90 degrees long point” is not used. Here, the meaning of “*” in “* = − +” indicates that this node is the key to this mask, and that there is always a node whose winding angle changes from “minus” to “plus”. ing. “* + 1 = + −” is the next necessary node, and on the other hand, the node whose winding angle changes from “plus” to “minus” is raised.
加えて、条件2、条件3、で最初の鍵となるノードの、また条件6、 条件7で2番目の鍵となるノードの属性として、巻き角の値、境界線分の両端での外角Δに詳しい条件を与え、構造を締めている。また重要な、辺(エッジ)特性として、交点情報を使っている。それが、条件4と条件8である。m∈(*+1+)〜(*+1−)は、次の巻き角変化点における境界線分間に交差点が存在することを要求している。交差点をCross: nxmと表現している。これらn、mは交差折れ線の番号であり、n∈(*-)〜(*+)はこの交差折れ線が、巻き角境界線分と一致することを示している。勿論交差点は回転不変特徴である。
In addition, the attributes of the first key node in conditions 2 and 3 and the second key node in
以上、非常に簡単なマスクである。これを入力グラフ表現につき合わせて、この型がはまるノード範囲を探し、存在すれば、そこに「8」があるとするのである。注意しなければならないのは、上のマスクでは[ s ]、[ e ]ノードを使用していない。したがって、両端は開放された形になっている。このため、ともかく、時間の流れの中で、このマスクに当てはまるところ(範囲)があれば、そこに、「8」があるということになり、まったく、場所によらず、「切り出し前処理」が不要である。 This is a very simple mask. This is combined with the input graph expression to search for a node range where this type fits, and if it exists, it is assumed that there is “8” there. Note that the [s] and [e] nodes are not used in the above mask. Therefore, both ends are open. Therefore, anyway, if there is a place (range) that applies to this mask in the flow of time, it means that there is “8”. It is unnecessary.
実際、このマスクで、図4では3個の「8」が認識される。また、図6では、全く傾きが異なる、連結した「8」が、それぞれ認識されている。また、図7では、大きさが著しく異なる、2個の「8」が連結しているが、これらも正しくそれぞれ、「8」と認識される。当然のことながら、連結した文字によらず、単独の文字についても、同様のマスクと入力グラフ表現をつきあわせて、認識することが可能である。 In fact, with this mask, three “8” s are recognized in FIG. In FIG. 6, connected “8” s having completely different inclinations are recognized. In FIG. 7, two “8” s having significantly different sizes are connected, and these are correctly recognized as “8”. As a matter of course, it is possible to recognize a single character by combining a similar mask and an input graph expression regardless of the connected character.
なお、ここで、若干の注意点を述べる。それは、上に述べたマスクは全く、距離または長さと言う特性を含んでいない。それ故、連結の長さに全く、無関係に、どこでも、形がはまり、切り出し認識が出来たのである。しかし、反面、例えば、図7の場合のように2個の「8」の大きさの情報は失われ、人間が見るような、大きさの差が分からないのではと言う疑問がのこる。しかし、これは実は、簡単に求めることができるのである。 Here, some points to note are described. That is, the mask described above does not include the property of distance or length. Therefore, regardless of the length of the connection, the shape was fitted everywhere and the cut-out was recognized. However, on the other hand, for example, as in the case of FIG. 7, two pieces of information of “8” are lost, and there is a question that the difference in size as seen by humans is not known. However, this is actually easy to find.
この入力表現は各ノードの位置座標を持つ。したがって、例えば「8」では、マスクの鍵である「*」ノードから180度戻ったノード、図7では、これは殆ど<s>ノードになるが、それと、*+1ノードから180度進んだノードの位置間のユークリッド距離を求める。 This input representation has the position coordinates of each node. Therefore, for example, in “8”, a node that is returned 180 degrees from the “*” node that is the mask key, in FIG. 7, this is almost an <s> node, and a node that is advanced 180 degrees from the * + 1 node. Find the Euclidean distance between positions.
具体的には、それは大きな方の「8」では(286-38)2+(562-449)2の平方根=273、小さな「8」では(174-55)2+(:625-611)2の平方根=120で両者の比は約0.43となり、直感と合った結果が出る。若干複雑ではあるが図2の場合も両者の「8」の長軸と短軸のベクトルを求めることが出来て、傾き情報も知ることが出来る。このように、ノードの座標値は、長さ、角、方向などの、幾何的計量を求めるのに、有効に利用可能である。 Specifically, it is the square root of (286-38) 2+ (562-449) 2 for the larger “8” = 273, and the square root of (174-55) 2 + (: 625-611) 2 for the smaller “8”. = 120, the ratio of the two is about 0.43, which gives results that match intuition. Although slightly complicated, in the case of FIG. 2 as well, the vector of the major axis and the minor axis of “8” can be obtained, and the tilt information can also be obtained. In this way, the coordinate values of the node can be effectively used to obtain a geometric metric such as length, corner and direction.
<±n×90度ノードの利用>
上述の「8」のマスク構成の例では、本発明の本質を説明するために、±n×90度ノードを条件に加えない、簡単な構成の場合について説明したが、ここでは±n×90度ノードの有効性について、例をあげて説明する。これが特に有効なのは丸い形をもつもので、その典型は「円」である。
<Use of ± n × 90 degree node>
In the example of the mask configuration of “8” described above, in order to explain the essence of the present invention, the case of a simple configuration in which ± n × 90 degree nodes are not added as conditions is described, but here, ± n × 90 The effectiveness of degree nodes will be described with an example. This is particularly effective for round shapes, typically “circles”.
これは実際にも「○」として、良く使用される記号である。この円の形を、その本質は保持し、かつかなりの変形に耐える、マスクを作るのが課題である。
このマスクは以下のように作られる。
<「○」マスクの一例>
条件1: * = +90
条件2: 350< Θ(*) <600 & 0< Δ(*)< 95
条件3:(*.*+1); 0.1 <長さ<0.35 & 0 ≦ |Δ| < 95
条件4: *+1 = +180
条件5: Θ(*+1)= Θ(*) & 0< Δ(*)< 95
条件6: (*+1.*+2); 0.1<長さ<0.35 & 0 ≦ |Δ| < 95
条件7: *+2 = +270
条件8: Θ(*+2)= Θ(*) & 0< Δ(*)< 95
条件9: (*+2.*+3); 0.1<長さ<0.35 & 0≦ |Δ| < 95
条件10: *+2 = +360
条件11: Θ(*+3)= Θ(*) & 0< Δ(*)< 95
条件12:(*+3.*+4); 0.0<長さ<0.35 & 0 ≦ |Δ| < 95
記号「〇」=条件1&条件2&条件3&条件4&条件5&条件6&条件7&条件8&条件9&条件10&条件11&条件12
This is a symbol often used as “◯” in practice. The challenge is to create a mask that retains the shape of this circle and that withstands significant deformation.
This mask is made as follows.
<Example of “○” mask>
Condition 1: * = +90
Condition 2: 350 <Θ (*) <600 & 0 <Δ (*) <95
Condition 3: (*. * + 1); 0.1 <length <0.35 & 0 ≤ | Δ | <95
Condition 4: * + 1 = +180
Condition 5: Θ (* + 1) = Θ (*) & 0 <Δ (*) <95
Condition 6: (* + 1. * + 2); 0.1 <length <0.35 & 0 ≦ | Δ | <95
Condition 7: * + 2 = +270
Condition 8: Θ (* + 2) = Θ (*) & 0 <Δ (*) <95
Condition 9: (* + 2. * + 3); 0.1 <length <0.35 & 0 ≦ | Δ | <95
Condition 10: * + 2 = +360
Condition 11: Θ (* + 3) = Θ (*) & 0 <Δ (*) <95
Condition 12: (* + 3. * + 4); 0.0 <length <0.35 & 0 ≦ | Δ | <95
Symbol “◯” =
このマスクのノードは4個(「*=+90」、「*+1 =+180」、「*+2 =+270」、「*+3=+360」)で、±n×90度ノードの存在(本件の場合は+n×90度ノード)が、この形をおおまかに規定している。すなわち、この場合、nは1〜4で巻き角が90度単位で360度まで巻くことを要請している。一方、ノードの属性としては、+n×90度長点近傍では、急激な角度の増大が0< Δ(*)< 95で抑えられている。また辺の属性として、ノード間の長さが、ある決められた範囲にあることを要請している。これが、「0.1<長さ<0.35」である。また、その間に角の急激な増大がないようにも規定している。これが、「0 < |Δ| < 95」である。 There are four nodes in this mask (“* = + 90”, “* + 1 = + 180”, “* + 2 = + 270”, “* + 3 = + 360”), and the existence of ± n × 90 degree nodes (this case) In the case of + n × 90 degrees node), this shape is roughly defined. That is, in this case, n is 1 to 4, and the winding angle is requested to be wound up to 360 degrees in units of 90 degrees. On the other hand, as an attribute of the node, in the vicinity of the long point of + n × 90 degrees, a sudden increase in angle is suppressed by 0 <Δ (*) <95. In addition, as a side attribute, the length between nodes is requested to be within a predetermined range. This is “0.1 <length <0.35”. It also stipulates that there is no sudden increase in corners during that time. This is “0 <| Δ | <95”.
このマスクは、十分、対ノイズに対し頑健な構成になっていて、両端は開いている。従って、図8に見られるように、外部にかなりのノイズがある場合にも、「○」が認識される。先にも述べた如く、長さを相対的に、例えば180度長点と360度長点間のユークリッド距離で、各長さを正規化すれば、これは、任意個の連結文字系列にも適用可能である。 This mask is sufficiently robust against noise and is open at both ends. Therefore, as can be seen in FIG. 8, “◯” is recognized even when there is considerable noise outside. As described above, if each length is normalized by the relative length, for example, the Euclidean distance between the 180-degree long point and the 360-degree long point, this can be applied to any number of connected character sequences. Applicable.
<凹凸ノード表現>
ここでは、通常の回転不変を必要としない文字の認識の場合のグラフ表現について、述べる。このような場合には、±n×90度ノードを使うよりは、水平、垂直の直交座標系に基づく、凹凸をノードとした方が直感的で分かり易い。イメージとしての図9の説明図をご覧頂きたい。ここで、○がノードであり、矢印のついた→が辺である。
<Uneven node expression>
Here, a graph representation in the case of character recognition that does not require normal rotation invariance will be described. In such a case, it is more intuitive and easy to understand that it is more difficult to use irregularities as nodes based on horizontal and vertical orthogonal coordinate systems than to use ± n × 90 degree nodes. Please see the explanatory diagram of Fig. 9 as an image. Here, ○ is a node and → with an arrow is a side.
ここで、上下の凹凸を∪、∩と示し、左右から見ての凹凸を⊃、⊂と示す。このほかに実は、上下の凹凸と左右の凹凸が同時に存在する。例えば右上にとんがっているような場合には、∩と⊃が重なった∩+⊃と示す。 Here, the upper and lower irregularities are denoted as ∪ and ∩, and the irregularities viewed from the left and right are denoted as ⊃ and ⊂. In addition, there are actually upper and lower unevenness and left and right unevenness simultaneously. For example, when it is pointed to the upper right, it is indicated as ∩ + ⊃ where ∩ and ⊃ overlap.
ノードの属性は先に述べた如くであるが、辺の属性として、ノード間の折れ線群の平均方向角が加わる。これは、凹凸ノード表現では非常に重要な特徴となる。その他、曲がりの程度を示す折れ線群の方向分散がある。つぎに、重要なのは、ノード間の距離比である。例えば図9で言えば、始点は、終点よりある程度上になければならない。これらは、機械的に計算すると、かなりの数になるが、実際には要点だけ抑えれば良く、たいした数にはならない。ここで、例えばノード<5>のY軸値から始点<s>ノードY軸値を引き、文字全体の長さの比で割った値を求める、といった具合である。 The node attributes are as described above, but the average direction angle of the line group between the nodes is added as the edge attribute. This is a very important feature in the uneven node representation. In addition, there is a directional dispersion of a broken line group indicating the degree of bending. Next, what is important is the distance ratio between nodes. For example, referring to FIG. 9, the start point must be somewhat higher than the end point. When these are calculated mechanically, they become a considerable number, but in practice, only the main points need to be suppressed, and not so many. Here, for example, a value obtained by subtracting the start point <s> node Y-axis value from the Y-axis value of the node <5> and dividing by the ratio of the length of the whole character is obtained.
以下、この凹凸グラフ表現による「8」のマスクの一例を示す。
<「8」のマスクの一例>
条件1: *-1 = s/any
条件2: (*, *-1), 110< 加重平均角 <170
条件3: * = ∩
条件4: -420 < Θ(*) < -160
条件5: -110 < Δ(*) < -10
条件6: *+1 = ⊂
条件7: Θ(*+1) = Θ(*)
条件8: -110 < Δ(*+1) < -10
条件9: (*+1, *+2), -80 < 加重平均角 <-30
条件10: (*+1, *+2), 長さ > 0.15
条件11: *+2 = ⊃
条件12: 250 < Θ(*+2) < 500
条件13: 20 < Δ(*+2) < 100
条件14: *+3 = ∪
条件15: Θ(*+3) = Θ(*+2)
条件16: 10 < Δ(*+3) <120
条件17: *+4 = ⊂
条件18: Θ(*+4) = Θ(*+2)
条件19: 10 < Δ(*+4) <100
条件20: (*+4, *+5), 20 < 加重平均角 < 75
条件21: (*+4, *+5), Cross: nxm:n∈(*+1)〜(*+2), m∈(*+4)〜(*+5)
条件22: *+5 = e/any
条件23: ((*+1, *+2)CrossY値-(*)Y値)/高さ 0.20<Y<0.70
//交差点は高さでみてほぼ中心に位置する。符号に注意
文字「8」=条件1&条件2&条件3&条件4&条件5&条件6&条件7&条件8&条件9&条件10&条件11&条件12&条件13&条件14&条件15&条件16&条件17&条件18&条件19&条件20&条件21&条件22&条件23
Hereinafter, an example of the mask of “8” by this concavo-convex graph expression is shown.
<Example of “8” Mask>
Condition 1: * -1 = s / any
Condition 2: (*, * -1), 110 <Weighted average angle <170
Condition 3: * = ∩
Condition 4: -420 <Θ (*) <-160
Condition 5: -110 <Δ (*) <-10
Condition 6: * + 1 = ⊂
Condition 7: Θ (* + 1) = Θ (*)
Condition 8: -110 <Δ (* + 1) <-10
Condition 9: (* + 1, * + 2), -80 <Weighted average angle <-30
Condition 10: (* + 1, * + 2), length> 0.15
Condition 11: * + 2 = ⊃
Condition 12: 250 <Θ (* + 2) <500
Condition 13: 20 <Δ (* + 2) <100
Condition 14: * + 3 = ∪
Condition 15: Θ (* + 3) = Θ (* + 2)
Condition 16: 10 <Δ (* + 3) <120
Condition 17: * + 4 = ⊂
Condition 18: Θ (* + 4) = Θ (* + 2)
Condition 19: 10 <Δ (* + 4) <100
Condition 20: (* + 4, * + 5), 20 <Weighted average angle <75
Condition 21: (* + 4, * + 5), Cross: nxm: n∈ (* + 1) to (* + 2), m∈ (* + 4) to (* + 5)
Condition 22: * + 5 = e / any
Condition 23: ((* + 1, * + 2) CrossY value-(*) Y value) / height 0.20 <Y <0.70
// The intersection is located almost in the center when viewed in height. Pay attention to the sign
Character “8” =
この場合は、特にノード間距離比は必要ない。その代わり、交差点に関する辺の属性である条件23が、その役割を演じている。このように、ノード間距離比は実際には、組み合わせで生じる数よりはるかに少ない。それは、巻き角、外角、折れ線角の制限で、暗黙の内に制限されているからである。また、上のマスクにおける長さの制限は左から右に下がる、折れ線の長さを制限するだけである。実はこのために、非常に、端のノイズに強いマスクとなっている。 In this case, the inter-node distance ratio is not particularly required. Instead, condition 23, which is an edge attribute for the intersection, plays that role. Thus, the inter-node distance ratio is actually much less than the number produced by the combination. This is because it is implicitly limited by the limitation of the winding angle, outer angle, and polygonal line angle. Also, the length limitation in the upper mask only limits the length of the polyline that goes down from left to right. In fact, for this reason, it is a very strong mask against edge noise.
なお、これは、連続した文字系列用の切り出し認識マスクではない。それは、この長さの制限を入れているからである。この点、ノード* = ∩とノード*+3 = ∪間のY軸値で、この長さを正規化してやれば、連続した文字系列用の切り出し認識マスクとなる。 This is not a cut-out recognition mask for continuous character sequences. This is because of this length limitation. In this respect, if this length is normalized with the Y-axis value between node * = ∩ and node * + 3 = ∪, a cut-out recognition mask for a continuous character sequence is obtained.
この手法により、端に極端なノイズが発生した場合や、極端な変形が生じた場合においても、核となる「8」の形を持っていれば、その周りの状況と無関係に、正しい認識が行われる。 With this method, even when extreme noise occurs at the edge or when extreme deformation occurs, if it has the shape of “8” as the core, correct recognition is possible regardless of the surrounding circumstances. Done.
<文字の形の包含関係>
上に述べてきた、切り出しの認識法は、必然的に、複数の答えを出す可能性を持つ。
この、具体的例が図10に示されている。図10は「8」を意図して書かれたものであるが、しかし、この図形には「6」が隠されている。言葉を変えれば、元の図形から、「6」なる文字形が「切り出し認識」されているわけである。したがって、これは必然的な結果である。
<Inclusive relation of character shape>
The cut-out recognition methods described above inevitably have the potential to give multiple answers.
A specific example of this is shown in FIG. FIG. 10 is written with the intention of “8”, but “6” is hidden in this figure. In other words, the character shape “6” is “cut out and recognized” from the original figure. This is therefore an inevitable result.
そこで、意図された、「8」が正しく出力されるメカニズムが必要である。これは直感的に言えば、複雑な形を優先すると言うことであるが、定量的に正確に述べると、「6」のマスクにマッチしている折れ線の長さと、「8」のマスクにマッチしている折れ線の長さを比較すれば、当然、後者がより長くなる。 Therefore, an intended mechanism for correctly outputting “8” is necessary. Intuitively speaking, this means giving priority to complex shapes, but quantitatively speaking accurately, it matches the length of the polygonal line that matches the mask “6” and the mask “8”. If the lengths of the broken lines are compared, the latter is naturally longer.
以下の例から、「8」は「6」より0.27の長さ分、長い。したがって、「6」は定量的にも「8」のイメージに埋没し、「8」は「6」より0.27長い整合部分を持ち、「8」と判定される。このほか、整合ノード数、折れ線数などの整合の測度が考えられる。 From the following example, “8” is longer by 0.27 than “6”. Therefore, “6” is quantitatively buried in the image of “8”, and “8” has a matching portion 0.27 longer than “6”, and is determined to be “8”. In addition, it is possible to consider matching measures such as the number of matching nodes and the number of broken lines.
なお、本発明の手書き文字認識は、実施の形態の説明の最初でも説明したように、図1に示した処理構成に限定されるものではなく、実質的に同様の手書き文字認識が行われる構成であれば、種々の装置やシステムの構成で、認識処理を行うことが可能である。例えば、本発明の手書き文字認識をプログラム(ソフトウエア)化して、汎用のパーソナルコンピュータ装置に実装させるようにしてもよい。手書き文字認識プログラムは、各種記憶媒体に記憶させて、配布することが可能である。 The handwritten character recognition according to the present invention is not limited to the processing configuration shown in FIG. 1 as described in the beginning of the description of the embodiment, and a configuration in which substantially the same handwritten character recognition is performed. If so, it is possible to perform recognition processing with various apparatus and system configurations. For example, the handwritten character recognition of the present invention may be converted into a program (software) and mounted on a general-purpose personal computer device. The handwritten character recognition program can be stored in various storage media and distributed.
ここではオンラインの文字を対象としたが、適当な細線化か、輪郭追跡などで、オフラインの文字に対しても、文字認識を行うようにしてもよい。
さらに、上述した実施の形態では、主として数字の認識を行う場合を例としたが、本発明の手書き文字認識は、基本的にどのような言語の文字や記号にも適用可能である。
Although online characters are targeted here, character recognition may also be performed for offline characters by appropriate thinning or contour tracking.
Furthermore, in the above-described embodiment, the case where numbers are mainly recognized has been described as an example. However, handwritten character recognition according to the present invention is basically applicable to characters and symbols in any language.
1…紙、1a…運筆、2…ペン、3…入力処理部、4…折れ線近似部、5…前処理部、6…特徴抽出部、7…識別部、8…識別結果出力部
DESCRIPTION OF
Claims (8)
入力された手書き文字列を、各画毎にパラメータ表現でとらえ、各画毎に折れ線近似を行い、
その折れ線近似された各折れ線を、始点から終点にいたるベクトルとして、基準となる軸と各折れ線とのなす角度を折れ線角系列として求め、
得られた折れ線の各頂点の外角系列を求め、
前記外角系列のプラス又はマイナスの同じ符号が連続する同符号の外角の和を、巻き角系列とし、
前記求められた各系列による特徴抽出を基にして、始点、終点、90度の整数倍の巻き角を与える点、巻き角が変化する点をノードとし、そのノードの点としての属性とノード間の辺としての属性により、グラフ表現を与え、
始点と終点を特定しない開いたマスク構成によるテンプレートとのマッチングにより、普通の上下、左右の関係を保持した文字に対しても、また回転不変を求められる場合においても、柔軟で、端のノイズや変形に強い頑健な認識を行うことを特徴とする
文字認識方法。 In the handwritten character recognition method for recognizing online handwritten characters,
The input handwritten character string is captured by parameter expression for each image, and a polygonal line approximation is performed for each image,
Each polygonal line approximated by the polygonal line is determined as a vector from the start point to the end point, and the angle between the reference axis and each polygonal line is obtained as a polygonal line angle series.
Obtain the outer angle series of each vertex of the obtained polyline,
A sum of outer angles of the same sign in which the same plus or minus same sign of the outer angle series continues, and a winding angle series,
Based on the feature extraction by each of the obtained series, the start point, the end point, the point that gives a winding angle that is an integer multiple of 90 degrees, and the point at which the winding angle changes are nodes, and the attribute between the node and the node Given the attribute as an edge of
Matching with a template with an open mask configuration that does not specify the start point and end point, it is flexible, even for characters that maintain the normal vertical and horizontal relationship, and when rotation invariance is required, edge noise and A character recognition method characterized by robust recognition against deformation.
回転不変が要求されない、通常の文字形の認識のために、上下の凹凸、左右の凹凸をノードとし、そのノードの点としての属性とノード間の辺としての属性により、グラフ表現を与え、始点と終点を特に規定しない開いたマスク構成によるテンプレートとのマッチングにより、文字認識を行うことを特徴とする
文字認識方法。 The character recognition method according to claim 1,
For recognition of normal character forms that do not require rotation invariance, the top and bottom unevenness and the left and right unevenness are used as nodes, and a graph representation is given by the attributes as points of the nodes and the attributes as edges between the nodes. A character recognition method, wherein character recognition is performed by matching a template with an open mask configuration that does not particularly define an end point.
複数の文字又は記号が包含関係にある場合には、定量的に整合部分が長い文字又は記号を優先することを特徴とする
文字認識方法。 The character recognition method according to claim 1 or 2 ,
A character recognition method characterized in that, when a plurality of characters or symbols are in an inclusive relationship, priority is given to a character or symbol having a long matching portion quantitatively.
連続した文字列文字を切り出しという特別な処理を行うこと無しに認識を行うことを特徴とする
文字認識方法。 The character recognition method according to any one of claims 1 to 3 ,
A character recognition method characterized by performing recognition without performing a special process of cutting out a continuous character string.
手書き文字がオンラインで入力される入力手段と、
入力された手書き文字列を、各画毎にパラメータ表現でとらえ、各画毎に折れ線近似を行う折線近似手段と、
前記折線近似手段で折れ線近似された各折れ線を、始点から終点にいたるベクトルとして、基準となる軸と各折れ線とのなす角度を折れ線角系列として求め、得られた折れ線の各頂点の外角系列を求め、前記外角系列のプラス又はマイナスの同じ符号が連続する同符号の外角の和を、巻き角系列とする処理手段と、
前記処理手段で求められた各系列による特徴抽出を基にして、始点、終点、90度の整数倍の巻き角を与える点、巻き角が変化する点をノードとし、そのノードの点としての属性とノード間の辺としての属性により、グラフ表現を与え、始点と終点を特に規定しない開いたマスク構成によるテンプレートとのマッチングにより、普通の上下、左右の関係を保持した文字に対しても、また回転不変を求められる場合においても、柔軟で、端のノイズや変形に強い頑健な認識を行うステップとを備えることを特徴とする
文字認識システム。 In a handwritten character recognition system that recognizes online handwritten characters,
An input means for entering handwritten characters online;
The input handwritten character string is captured by the parameter expression for each image, and the broken line approximation means for performing the broken line approximation for each image,
Each polygonal line approximated by the polygonal line approximation means is used as a vector from the start point to the end point, and the angle formed between the reference axis and each polygonal line is obtained as a polygonal line angle series, and the outer angle series of each vertex of the obtained polygonal line is obtained. A processing means for determining a sum of outer angles of the same sign in which the same plus or minus same sign of the outer angle series continues as a winding angle series;
Based on the feature extraction by each series obtained by the processing means, the start point, the end point, the point that gives a winding angle that is an integer multiple of 90 degrees, and the point at which the winding angle changes are nodes, and the attributes as points of that node Also, a graph expression is given by the attribute as an edge between the nodes, and a character having an ordinary vertical and horizontal relationship is also obtained by matching with a template with an open mask configuration that does not particularly define the start point and the end point. A character recognition system comprising a step of performing robust recognition that is flexible and resistant to edge noise and deformation even when rotation invariance is required.
入力された手書き文字列を、各画毎にパラメータ表現でとらえ、各画毎に折れ線近似を行うステップと、
その折れ線近似された各折れ線を、始点から終点にいたるベクトルとして、基準となる軸と各折れ線とのなす角度を折れ線角系列として求めるステップと、
得られた折れ線の各頂点の外角系列を求めるステップと、
前記外角系列のプラス又はマイナスの同じ符号が連続する同符号の外角の和を、巻き角系列とするステップと、
前記求められた各系列による特徴抽出を基にして、始点、終点、90度の整数倍の巻き角を与える点、巻き角が変化する点をノードとし、そのノードの点としての属性とノード間の辺としての属性により、グラフ表現を与えるステップと、
始点と終点を規定しない開いたマスク構成によるテンプレートとのマッチングにより、普通の上下、左右の関係を保持した文字に対しても、また回転不変を求められる場合においても、柔軟で、端のノイズや変形にも強い頑健な認識を行うステップとを、
コンピュータに実行させるための
手書き文字認識プログラム。 In a handwritten character recognition program for causing a computer to recognize online handwritten characters,
Capturing the input handwritten character string with a parameter expression for each image and performing a polygonal line approximation for each image;
Obtaining each polygonal line approximated by the polygonal line as a vector from the start point to the end point, and determining an angle formed between the reference axis and each polygonal line as a polygonal line series;
Obtaining an outer angle series of each vertex of the obtained polygonal line;
A step of setting the sum of the outer angles of the same sign that the same plus or minus same sign of the outer angle series continues as a winding angle series;
Based on the feature extraction by each of the obtained series, the start point, the end point, the point that gives a winding angle that is an integer multiple of 90 degrees, and the point at which the winding angle changes are nodes, and the attribute between the node and the node A step of giving a graph representation by attributes as edges of
Matching with a template with an open mask configuration that does not define the start and end points, it is flexible, even for characters that maintain the normal vertical and horizontal relations, and when rotation invariance is required, edge noise and The step of performing robust recognition that is resistant to deformation ,
A handwritten character recognition program to be executed by a computer .
複数の文字又は記号が包含関係にある場合には、定量的に整合部分が長い文字又は記号を優先することを特徴とするWhen multiple characters or symbols are in an inclusive relationship, priority is given to the characters or symbols with long matching parts quantitatively.
手書き文字認識プログラム。Handwritten character recognition program.
記憶媒体に記憶されたプログラムとして、
入力された手書き文字列を、各画毎にパラメータ表現でとらえ、各画毎に折れ線近似を行うステップと、
その折れ線近似された各折れ線を、始点から終点にいたるベクトルとして、基準となる軸と各折れ線とのなす角度を折れ線角系列として求めるステップと、
得られた折れ線の各頂点の外角系列を求めるステップと、
前記外角系列のプラス又はマイナスの同じ符号が連続する同符号の外角の和を、巻き角系列とするステップと、
前記求められた各系列による特徴抽出を基にして、始点、終点、90度の整数倍の巻き角を与える点、巻き角が変化する点をノードとし、そのノードの点としての属性とノード間の辺としての属性により、グラフ表現を与えるステップと、
始点と終点を規定しない開いたマスク構成によるテンプレートとのマッチングにより、普通の上下、左右の関係を保持した文字に対しても、また回転不変を求められる場合においても、柔軟で、端のノイズや変形に強い頑健な認識を行うステップとを備えたことを特徴とする
記憶媒体。 In a storage medium capable of online handwritten character recognition by mounting a stored program on a predetermined arithmetic processing device,
As a program stored in a storage medium,
Capturing the input handwritten character string with a parameter expression for each image and performing a polygonal line approximation for each image;
Obtaining each polygonal line approximated by the polygonal line as a vector from the start point to the end point, and determining an angle formed between the reference axis and each polygonal line as a polygonal line series;
Obtaining an outer angle series of each vertex of the obtained polygonal line;
A step of setting the sum of the outer angles of the same sign that the same plus or minus same sign of the outer angle series continues as a winding angle series;
Based on the feature extraction by each of the obtained series, the start point, the end point, the point that gives a winding angle that is an integer multiple of 90 degrees, and the point at which the winding angle changes are nodes, and the attribute between the node and the node A step of giving a graph representation by attributes as edges of
Matching with a template with an open mask configuration that does not define the start and end points, it is flexible, even for characters that maintain the normal vertical and horizontal relations, and when rotation invariance is required, edge noise and And a step of performing robust recognition resistant to deformation.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006221253A JP5352757B2 (en) | 2006-08-14 | 2006-08-14 | Handwritten character recognition method, handwritten character recognition system, handwritten character recognition program, and storage medium |
PCT/JP2007/065458 WO2008020557A1 (en) | 2006-08-14 | 2007-08-07 | Hand-written character recognizing method, hand-written character recognizing system, hand-written character recognizing program, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006221253A JP5352757B2 (en) | 2006-08-14 | 2006-08-14 | Handwritten character recognition method, handwritten character recognition system, handwritten character recognition program, and storage medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008046825A JP2008046825A (en) | 2008-02-28 |
JP5352757B2 true JP5352757B2 (en) | 2013-11-27 |
Family
ID=39082082
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006221253A Expired - Fee Related JP5352757B2 (en) | 2006-08-14 | 2006-08-14 | Handwritten character recognition method, handwritten character recognition system, handwritten character recognition program, and storage medium |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5352757B2 (en) |
WO (1) | WO2008020557A1 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107067046B (en) * | 2016-11-29 | 2020-09-04 | 南京工程学院 | Hand-written digit recognition method based on mixed feature extraction |
CN113392772B (en) * | 2021-06-17 | 2022-04-19 | 南开大学 | Character recognition-oriented character image shrinkage deformation enhancement method |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6395591A (en) * | 1986-10-13 | 1988-04-26 | Wacom Co Ltd | Method for recognizing hand-written character |
JPS642187A (en) * | 1987-06-24 | 1989-01-06 | Nec Corp | On line successive character recognition device |
JPH06274698A (en) * | 1993-03-18 | 1994-09-30 | Pfu Ltd | On-line hand-written character recognizing system |
JP3198218B2 (en) * | 1994-09-30 | 2001-08-13 | シャープ株式会社 | Online handwriting recognition method |
JPH1049631A (en) * | 1996-05-22 | 1998-02-20 | Seiko Epson Corp | Method and device for on-line handwritted character recognition |
JP4092371B2 (en) * | 2005-02-15 | 2008-05-28 | 有限会社Kiteイメージ・テクノロジーズ | Handwritten character recognition method, handwritten character recognition system, handwritten character recognition program, and recording medium |
-
2006
- 2006-08-14 JP JP2006221253A patent/JP5352757B2/en not_active Expired - Fee Related
-
2007
- 2007-08-07 WO PCT/JP2007/065458 patent/WO2008020557A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
JP2008046825A (en) | 2008-02-28 |
WO2008020557A1 (en) | 2008-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4092371B2 (en) | Handwritten character recognition method, handwritten character recognition system, handwritten character recognition program, and recording medium | |
Kovalevsky | Image pattern recognition | |
US5644656A (en) | Method and apparatus for automated text recognition | |
EP1519300B1 (en) | Shape recognition of hand-drawn objects | |
US7756335B2 (en) | Handwriting recognition using a graph of segmentation candidates and dictionary search | |
Saba et al. | Annotated comparisons of proposed preprocessing techniques for script recognition | |
US20080002884A1 (en) | Method and device for recognition of a handwritten pattern | |
CA2481828C (en) | System and method for detecting a hand-drawn object in ink input | |
US10579868B2 (en) | System and method for recognition of objects from ink elements | |
Nag et al. | New cold feature based handwriting analysis for enthnicity/nationality identification | |
Beigi | An overview of handwriting recognition | |
JP5352757B2 (en) | Handwritten character recognition method, handwritten character recognition system, handwritten character recognition program, and storage medium | |
Kang et al. | Utilization of hierarchical, stochastic relationship modeling for Hangul character recognition | |
Goswami et al. | Classification of printed Gujarati characters using low-level stroke features | |
Abirami et al. | Statistical features based character recognition for offline handwritten Tamil document images using HMM | |
Milewski et al. | Extraction of handwritten text from carbon copy medical form images | |
Naz et al. | Challenges in baseline detection of cursive script languages | |
Valveny et al. | Application of deformable template matching to symbol recognition in handwritten architectural drawings | |
Mahasukhon et al. | Hand-printed English character recognition based on fuzzy theory | |
TWI747450B (en) | Character recognition method, electric device and computer program product | |
EP4109415B1 (en) | Symbol recognition from raster images of p&ids using a single instance per symbol class | |
Nakagawa et al. | Recent results of online Japanese handwriting recognition and its applications | |
Mandal et al. | Slant Estimation and Correction for Online Handwritten Bengali Words | |
Aiolli et al. | ‘A study on the writer identification task for paleographic document analysis | |
JP2592756B2 (en) | Character segmentation device and character recognition device using the same |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090814 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091204 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120418 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120522 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120611 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5352757 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |