JPH0246988B2 - - Google Patents

Info

Publication number
JPH0246988B2
JPH0246988B2 JP57073004A JP7300482A JPH0246988B2 JP H0246988 B2 JPH0246988 B2 JP H0246988B2 JP 57073004 A JP57073004 A JP 57073004A JP 7300482 A JP7300482 A JP 7300482A JP H0246988 B2 JPH0246988 B2 JP H0246988B2
Authority
JP
Japan
Prior art keywords
distribution
stroke
feature point
pattern
direction code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP57073004A
Other languages
Japanese (ja)
Other versions
JPS58191085A (en
Inventor
Kozo Tomono
Fumio Yoda
Keiji Kobayashi
Masataka Yamamoto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Basic Technology Research Association Corp
Original Assignee
Computer Basic Technology Research Association Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Basic Technology Research Association Corp filed Critical Computer Basic Technology Research Association Corp
Priority to JP57073004A priority Critical patent/JPS58191085A/en
Publication of JPS58191085A publication Critical patent/JPS58191085A/en
Publication of JPH0246988B2 publication Critical patent/JPH0246988B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/182Extraction of features or characteristics of the image by coding the contour of the pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 この発明はストロークの多い文字を認識する文
字認識装置に関するものであり、更に詳しくは漢
字を認識する文字認識装置に関するものである。
DETAILED DESCRIPTION OF THE INVENTION The present invention relates to a character recognition device that recognizes characters with many strokes, and more particularly to a character recognition device that recognizes Chinese characters.

従来、漢字を認識する場合、特に印刷漢字を認
識する装置ではパターンマツチング法あるいはこ
れに類する手法が用いられていた。印刷漢字やき
わめて丁寧に書かれた楷書の場合にはこれらの方
法が有効であつた。
Conventionally, when recognizing Chinese characters, particularly in devices that recognize printed Chinese characters, a pattern matching method or a similar method has been used. These methods were effective in the case of printed kanji and extremely carefully written block script.

しかし、第1図に示すように、記入枠1内の基
準文字パターン2に対して入力文字パターン3が
傾いている場合、両者の類似度は小さくなる。ま
た第2図に示すように基準文字パターン4に対し
て、入力文字パターン5の線幅が異なる場合も両
者の類似度は小さくなる。従つて、手書き漢字の
ように各ストロークが基準文字パターンに対して
傾いていたり、線幅が一定でない文字に対して
は、パターンマツチング法を適用しても高い認識
率が得られないという欠点があつた。
However, as shown in FIG. 1, when the input character pattern 3 is tilted with respect to the reference character pattern 2 in the entry frame 1, the degree of similarity between the two becomes small. Furthermore, as shown in FIG. 2, when the input character pattern 5 has a different line width from the reference character pattern 4, the degree of similarity between the two also decreases. Therefore, even if the pattern matching method is applied to characters such as handwritten kanji where each stroke is tilted with respect to the standard character pattern or the line width is not constant, a high recognition rate cannot be obtained. It was hot.

この発明はこれらの欠点を除去するため、入力
文字パターンから輪郭線の方向コードと端点、分
岐点、屈折点等の特徴点とストロークを抽出し、
これらの特の特徴を合せ用いることによつて認識
を行うことを特徴とし、その目的は高い認識精度
の文字認識装置を実現するにある。
In order to eliminate these drawbacks, this invention extracts the direction code of the contour line, feature points such as end points, branch points, and bending points, and strokes from the input character pattern,
The present invention is characterized in that recognition is performed by combining these special features, and its purpose is to realize a character recognition device with high recognition accuracy.

以下図面を用いて詳細に説明する。 This will be explained in detail below using the drawings.

第3図はこの発明の実施例の構成図である。ま
ず、帳票6上の入力文字を走査手段7で走査し、
文字パターンをパターンメモリ8に記憶する。方
向コード抽出手段9は、パターンメモリ8に記憶
された文字パターンの数個に分割された領域毎に
輪郭線の方向コード分布、即ち同一の方向コード
を持つ輪郭点の数を抽出する。ここで、方向コー
ドとは注目する輪郭点から隣接する輪郭点への方
向をコード化したものである。次に細線化手段1
0は、パターンメモリ8に記憶された文字パター
ンを細線化し細線化パターンメモリ11に入れ
る。特徴点抽出手段12は、細線化パターンメモ
リ11に記憶された細線化パターンの数個に分割
された領域毎に端点、分岐点、屈折点等の特徴点
の数を抽出する。また、ストローク抽出手段13
は、細線化パターンメモリ11に記憶された細線
化パターンからストロークを抽出し、その方向、
長さ及び中点の位置を求める。決定手段14で
は、上記方向コード分布、上記特徴点分布、上記
ストロークの中点分布と、決定手段内に予め記憶
されている基準文字の方向コード分布、特徴点分
布、ストロークの中点分布との類似度を求め、こ
れらの類似度を用いて入力文字の文字名を決定す
る。
FIG. 3 is a block diagram of an embodiment of the present invention. First, the input characters on the form 6 are scanned by the scanning means 7,
The character pattern is stored in the pattern memory 8. The direction code extracting means 9 extracts the direction code distribution of the contour line, ie, the number of contour points having the same direction code, for each of several divided regions of the character pattern stored in the pattern memory 8. Here, the direction code is a code that encodes the direction from a contour point of interest to an adjacent contour point. Next, thinning means 1
0 thins the character pattern stored in the pattern memory 8 and stores it in the thinning pattern memory 11. The feature point extracting means 12 extracts the number of feature points such as end points, branch points, and inflection points for each of several divided regions of the thinning pattern stored in the thinning pattern memory 11. Moreover, the stroke extraction means 13
extracts a stroke from the thinning pattern stored in the thinning pattern memory 11, and determines its direction,
Find the length and midpoint position. The determining means 14 compares the direction code distribution, the feature point distribution, and the stroke midpoint distribution with the direction code distribution, feature point distribution, and stroke midpoint distribution of the reference character stored in advance in the determining means. The degree of similarity is determined, and the character name of the input character is determined using these degrees of similarity.

第4図は、漢字“金”の入力文字パターンから
上記方向コード抽出手段9により求めた輪郭線の
方向コードを示す図である。ここで、記号“H”,
“V”,“R”,“L”は各々水平、垂直、右上り、
左上りの方向コードを表している。次に、文字パ
ターンをn1×n2(n1,n2は整数)の領域に分割し、
分割された領域毎に水平、垂直、右上り、左上り
の4つの褒向の方向コードの度数を求め方向コー
ド分布とする。即ち、方向コード分布〓dは、m
=4n1×n2とすると 〓d=(d1,d2,……,dn) で表わされる。ここで、diは各領域での特定の方
向の方向コードの度数である。
FIG. 4 is a diagram showing the direction code of the outline obtained by the direction code extracting means 9 from the input character pattern of the Chinese character "kin". Here, the symbol "H",
"V", "R", "L" are horizontal, vertical, upper right, respectively.
Represents the upper left direction code. Next, divide the character pattern into areas of n 1 × n 2 (n 1 and n 2 are integers),
For each divided area, the frequencies of the direction codes of the four reward directions (horizontal, vertical, upward right, upward left) are determined and used as a direction code distribution. That is, the direction code distribution 〓 d is m
If =4n 1 ×n 2 , then it is expressed as 〓 d = (d 1 , d 2 , ..., d n ). Here, d i is the frequency of the direction code in a specific direction in each region.

第5図は、漢字“金”の入力文字パターンを上
記細線化手段10により細線化した例を示すもの
であり、細線化パターンの文字部15を“1”で
表している。
FIG. 5 shows an example in which the input character pattern of the Chinese character "kin" is thinned by the thinning means 10, and the character portion 15 of the thinning pattern is represented by "1".

第6図は、上記細線化パターンから上記特徴点
抽出手段12により求めた端点、分岐点、屈折点
等の特徴点と、上記ストローク抽出手段13によ
り求めたストロークを示す図である。ここで、各
特徴点を“※”で、各ストロークを“A”〜
“H”で示している。これより特徴点分布及びス
トロークの中点分布を求める。特徴点分布は、細
線化パターンのn3×n4(n3,n4は整数)に分割さ
れた領域毎に特徴点の数を求めたものである。即
ち、特徴点分布〓fは、l=n3×n4とすると 〓f=(f1,f2,…fl) で表わされる。ここでfiは各領域の特徴点であ
る。
FIG. 6 is a diagram showing feature points such as end points, branch points, and bending points obtained from the thinning pattern by the feature point extraction means 12, and strokes obtained by the stroke extraction means 13. Here, each feature point is marked with "*", and each stroke is marked with "A"~
Indicated by "H". From this, the feature point distribution and stroke midpoint distribution are determined. The feature point distribution is obtained by calculating the number of feature points for each region divided into n 3 ×n 4 (n 3 and n 4 are integers) of the thinning pattern. That is, the feature point distribution f is expressed as f = (f 1 , f 2 , . . . f l ) where l=n 3 ×n 4 . Here f i is the feature point of each area.

ストロークの中点分布は、ストロークの中点の
位置をストロークの方向別に求めたものである。
ストロークの方向としては水平、垂直、右上り、
左上りの4種類を用いる。第7図は、水平方向の
ストロークの中点パターンを示したものである。
ストロークの中点には第6図のストローク記号
“C”,“E”,“H”に対応した記号を付けている。
垂直、右上り、左上りのストロークの中点パター
ンも同様にして求められる。
The midpoint distribution of strokes is the position of midpoints of strokes determined for each stroke direction.
The direction of the stroke is horizontal, vertical, upward to the right,
Use the four types shown on the top left. FIG. 7 shows a midpoint pattern of horizontal strokes.
The midpoints of the strokes are marked with symbols corresponding to the stroke symbols "C", "E", and "H" in FIG.
The midpoint patterns of vertical, upward right, and upward left strokes are found in the same way.

決定手段14では、入力文字の方向コード分
布、特徴点分布、ストロークの中点分布と、決定
手段14に記憶されている基準文字Ciの方向コー
ド分布、特徴点分布、ストロークの中点分布との
類似度を各々算出する。これら3つの類似度を
Sd(i),Sf(i),Sc(i)とする。
The determining means 14 determines the direction code distribution, feature point distribution, and stroke midpoint distribution of the input character, and the direction code distribution, feature point distribution, and stroke midpoint distribution of the reference character C i stored in the determining means 14. The similarity of each is calculated. The similarity of these three
Let Sd(i), S f (i), and S c (i).

Sd(i),Sf(i)、Sc(i)の定義はいろいろ考えられる
が、例えば次のように決めることができる。
Various definitions of S d (i), S f (i), and S c (i) can be considered, but for example, they can be determined as follows.

Sd(i)は、入力文字と基準文字の方向コード分布
を各々〓d=(d1,d2,…,dn)、〓d(i)=(d1′,
d2′,…,dn′)とする場合、 Sd(i)=(〓d,〓d(i))/‖〓d‖・‖〓d(i)‖ と定義する。
S d (i) is the direction code distribution of the input character and the reference character, respectively 〓 d = (d 1 , d 2 , ..., d n ), 〓 d (i) = (d 1 ′,
d 2 ′,…,d n ′), it is defined as S d (i)=(〓 d , 〓 d (i))/‖〓 d ‖・‖〓 d (i)‖.

Sf(i)は、入力文字と基準文字の特徴点分布を
各々〓f=f1,f2,…,fl)、〓f(i)=(f1′,f2′,
…,
fl′)とする場合、 Sf(i)=(〓f,〓f(i))/‖〓f‖・‖〓f(i)‖ と定義する。
S f (i) is the feature point distribution of the input character and the reference character, respectively:
...,
f l ′), it is defined as S f (i)=(〓 f , 〓 f (i))/‖〓 f ‖・‖〓 f (i)‖.

Sc(i)は、入力文字のスストロークの方向別中点
パターンと基準文字のストロークの方向別中点パ
ターンを用いてストロークの対応づけを行うこと
によつて求める。具体的にはまず、入力文字のス
トロークの中点に対して基準文字のストロークの
中点のうち距離の最も近い点を対応づける。次に
上記対応づけられた2点間の距離を加算し、その
逆数をSc(i)とする。
S c (i) is obtained by associating strokes using the direction-specific midpoint pattern of strokes of the input character and the direction-specific midpoint pattern of strokes of the reference character. Specifically, first, the closest point among the midpoints of the stroke of the reference character is associated with the midpoint of the stroke of the input character. Next, the distances between the two points correlated above are added, and the reciprocal thereof is set as S c (i).

最後に、Sd(i),Sf(i),Sc(i)から総合類似度S(i)
を求め、入力文字の文字名を決定する。即ちWd
Wf,Wcを各特徴に対する重みとし S(i)=WdSd(i)+WfSf(i)+WcSc(i) で表される総合類似度が最も大きい値を持つ基準
文字を認識文字と決定する。
Finally, the overall similarity S(i) is calculated from S d (i), S f (i), and S c (i).
, and determine the character name of the input character. That is, W d ,
With W f and W c as weights for each feature, the overall similarity expressed as S(i) = W d S d (i) + W f S f (i) + W c S c (i) has the largest value. Determine the reference character as the recognized character.

このように、方向コード分布と特徴点分布とス
トロークの中点分布を用いて認識しているので、
従来の方法に比較して高い認識精度を得ることが
できる。
In this way, recognition is performed using the direction code distribution, feature point distribution, and stroke midpoint distribution, so
Higher recognition accuracy can be obtained compared to conventional methods.

なお、以上は手書き漢字を認識する場合につい
て説明したが、この発明は直線の多い文字、例え
ば手書きカタカナ文字等の認識に使用してもよ
い。
Although the above description has been made regarding the case of recognizing handwritten kanji characters, the present invention may also be used to recognize characters with many straight lines, such as handwritten katakana characters.

また、決定手段の決定方法として、方向コード
分布、特徴点分布、ストロークの中点分布の特徴
を同時に使用する場合について説明したが、これ
に限らず、3種類の特徴を階層に分けて使用して
もよい。例えば、方向コード分布を用いて大分類
をした後、特徴点分布、ストロークの中点分布を
用いて認識を行えばよい。こうすることによつて
処理時間の短縮を図ることができる。
In addition, as a method for determining the determining means, we have explained the case where the characteristics of the direction code distribution, feature point distribution, and stroke midpoint distribution are used simultaneously, but this is not limited to this. It's okay. For example, after performing major classification using direction code distribution, recognition may be performed using feature point distribution and stroke midpoint distribution. By doing so, processing time can be shortened.

以上のように、この発明によれば方向コード、
特徴点、ストロークの中点の分布を用いて認識し
ているので線分の傾きの小さな変動や線幅の変動
に対しても安定であり、かつ性質の異なる3種類
の特徴を組合せて用いているので各々の特徴の長
所を生かし、高い精度で手書き文字を認識できる
利点がある。又、上記3種類の特徴のうち、スト
ロークの中点分布の特徴は最も識別能力が高く必
須である。しかし、認識対象文字の数が少なく、
かつ互いに類似した文字の組がない場合には、特
徴点分布または方向コード分布のいずれかの使用
を除外しても十分な識別能力が得られる。しか
も、処理時間が短縮され、認識辞書の容量低減に
よる低価格化を図ることもできる。従つて、上記
のような条件の下では、ストロークの中点分布と
方向コード分布のみを用いた文字認識装置、ある
いはストロークの中点分布と特徴点分布のみを用
いた文字認識装置を構成することができる。
As described above, according to the present invention, the direction code,
Since recognition is performed using the distribution of feature points and midpoints of strokes, it is stable even with small changes in the slope of line segments and changes in line width, and it is possible to use a combination of three types of features with different properties. The advantage of this method is that it can recognize handwritten characters with high accuracy by taking advantage of the strengths of each feature. Furthermore, among the above three types of features, the feature of stroke midpoint distribution has the highest discrimination ability and is essential. However, the number of characters to be recognized is small,
If there are no sets of characters that are similar to each other, sufficient discrimination ability can be obtained even if the use of either the feature point distribution or the direction code distribution is excluded. Moreover, the processing time is shortened, and the cost can be reduced by reducing the capacity of the recognition dictionary. Therefore, under the above conditions, it is not possible to configure a character recognition device that uses only the stroke midpoint distribution and direction code distribution, or a character recognition device that uses only the stroke midpoint distribution and feature point distribution. Can be done.

【図面の簡単な説明】[Brief explanation of drawings]

第1図及び第2図は入力文字パターンの変動例
を示す図、第3図はこの発明による装置の構成
図、第4図は方向コードを抽出した入力文字パタ
ーンの例、第5図は細線化パターンの例、第6図
は特徴点及びストロークを抽出した入力文字パタ
ーンの例、第7図は水平方向についての入力文字
のストローク中点パターンの例である。 図中、6は帳票、7は走査手段、8はパターン
メモリ、9は方向コード抽出手段、10は細線化
手段、11は細線化パターンメモリ、12は特徴
点抽出手段、13はストローク抽出手段、14は
決定手段である。なお、図中、同一あるいは相当
部分には同一符号を付して示してある。
Figures 1 and 2 are diagrams showing examples of variations in input character patterns, Figure 3 is a block diagram of a device according to the present invention, Figure 4 is an example of an input character pattern from which a direction code has been extracted, and Figure 5 is a thin line FIG. 6 is an example of an input character pattern from which feature points and strokes have been extracted, and FIG. 7 is an example of a stroke midpoint pattern of input characters in the horizontal direction. In the figure, 6 is a form, 7 is a scanning means, 8 is a pattern memory, 9 is a direction code extraction means, 10 is a thinning means, 11 is a thinning pattern memory, 12 is a feature point extraction means, 13 is a stroke extraction means, 14 is a determining means. In the drawings, the same or corresponding parts are denoted by the same reference numerals.

Claims (1)

【特許請求の範囲】[Claims] 1 帳票などの記録媒体に記入または印刷された
文字を認識する文字認識装置において、文字を走
査して光電変換する走査手段と、走査手段で得ら
れた入力文字パターンから輪郭線の方向コードを
抽出する方向コード抽出手段と、入力文字パター
ンを細線化して細線化パターンを得る細線化手段
と、細線化パターンから端点、分岐点、屈折点等
の特徴点を抽出する特徴点注出手段と、細線化パ
ターンから直線線分であるストロークを抽出する
ストローク抽出手段と、上記方向コードと特徴点
とストロークとを用いて入力文字の文字名を決定
する決定手段とを具備し、上記方向コード抽出手
段において、入力文字パターンの複数個に分割さ
れた領域毎に輪郭線の方向コード分布を抽出し、
上記特徴点抽出手段において、細線化パターンの
複数個に分割された領域毎に特徴点分布を抽出
し、上記ストローク抽出手段において、上記スト
ロークの中点分布を抽出し、上記決定手段におい
て、上記方向コード分布、上記特徴点分布、上記
ストロークの中点分布と、決定手段内に予め記憶
されている基準文字の方向コード分布、特徴点分
布、ストロークの中点分布との類似度を各々算出
し、上記方向コード分布とストロークの中点分
布、又は上記特徴点分布とストロークの中点分
布、又は上記方向コード分布と特徴点分布とスト
ロークの中点分布の類似度を用いて文字を認識す
ることを特徴とする文字認識装置。
1 A character recognition device that recognizes characters written or printed on a recording medium such as a form includes a scanning means that scans and photoelectrically converts characters, and extracts a direction code of an outline from an input character pattern obtained by the scanning means. a direction code extracting means for thinning an input character pattern to obtain a thinning pattern; a feature point extracting means for extracting feature points such as end points, branch points, and bending points from the thinning pattern; a stroke extracting means for extracting a stroke that is a straight line segment from a pattern, and a determining means for determining a character name of an input character using the direction code, feature points, and stroke; , Extract the direction code distribution of the contour line for each region divided into multiple parts of the input character pattern,
The feature point extraction means extracts a feature point distribution for each region divided into a plurality of areas of the thinning pattern, the stroke extraction means extracts a midpoint distribution of the stroke, and the determination means extracts a distribution of midpoints in the direction Calculating the degree of similarity between the code distribution, the feature point distribution, the midpoint distribution of the stroke, and the direction code distribution, feature point distribution, and stroke midpoint distribution of a reference character stored in advance in the determining means, respectively; Characters are recognized using the similarity between the above direction code distribution and stroke midpoint distribution, or the above feature point distribution and stroke midpoint distribution, or the above direction code distribution, feature point distribution, and stroke midpoint distribution. Characteristic character recognition device.
JP57073004A 1982-04-30 1982-04-30 Character recognizer Granted JPS58191085A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57073004A JPS58191085A (en) 1982-04-30 1982-04-30 Character recognizer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57073004A JPS58191085A (en) 1982-04-30 1982-04-30 Character recognizer

Publications (2)

Publication Number Publication Date
JPS58191085A JPS58191085A (en) 1983-11-08
JPH0246988B2 true JPH0246988B2 (en) 1990-10-18

Family

ID=13505767

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57073004A Granted JPS58191085A (en) 1982-04-30 1982-04-30 Character recognizer

Country Status (1)

Country Link
JP (1) JPS58191085A (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4775827B2 (en) * 2009-06-15 2011-09-21 株式会社大一商会 Game machine

Also Published As

Publication number Publication date
JPS58191085A (en) 1983-11-08

Similar Documents

Publication Publication Date Title
US4757551A (en) Character recognition method and system capable of recognizing slant characters
US5054102A (en) Self-centering character stroke thickening for optical character recognition
JPH0246988B2 (en)
JP3113769B2 (en) Character recognition device
JP2788506B2 (en) Character recognition device
JPH026113B2 (en)
JP2789622B2 (en) Character / graphic area determination device
JPS60153578A (en) Character recognizing device
JP2797523B2 (en) Drawing follower
JPS60147891A (en) Character recognition device
JP2575402B2 (en) Character recognition method
JPH0335400A (en) Method for recognizing use code of number plate
JPH0253830B2 (en)
KR910005385B1 (en) Character recognition system by means of extracting approximated stroke lines
JPH0664629B2 (en) Character recognition method
JPS63109592A (en) Character recognition system
JPH0545992B2 (en)
JPS6238752B2 (en)
JPH02166583A (en) Character recognizing device
JPS62154079A (en) Character recognition system
JP2004152048A (en) Vehicle number reading device
JPH11120291A (en) Pattern recognition system
JPH0436432B2 (en)
Shaban Arabic Characters Recognition by Edge Detection Using Connected Component Contour (CO3)
JPH0436431B2 (en)