JPS5822781B2 - Character pattern recognition processing method - Google Patents

Character pattern recognition processing method

Info

Publication number
JPS5822781B2
JPS5822781B2 JP53049642A JP4964278A JPS5822781B2 JP S5822781 B2 JPS5822781 B2 JP S5822781B2 JP 53049642 A JP53049642 A JP 53049642A JP 4964278 A JP4964278 A JP 4964278A JP S5822781 B2 JPS5822781 B2 JP S5822781B2
Authority
JP
Japan
Prior art keywords
character
pattern
patterns
character pattern
processing method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP53049642A
Other languages
Japanese (ja)
Other versions
JPS54141529A (en
Inventor
梅田三千雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP53049642A priority Critical patent/JPS5822781B2/en
Publication of JPS54141529A publication Critical patent/JPS54141529A/en
Publication of JPS5822781B2 publication Critical patent/JPS5822781B2/en
Expired legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 本発明は、文字パターンの認識処理方式、特に光電変換
によってえられた印刷漢字パターンに対して、フォント
の違いによる字形の変化に対処するため、文字パターン
をその外接枠で規格化し、文字パターンのもつ2つの相
補的な特徴を抽出して分類するとともに、この分類過程
を階層化することによって識別を行なうようにした文字
パターンの認識処理方式に関するものである。
DETAILED DESCRIPTION OF THE INVENTION The present invention uses a character pattern recognition processing method, particularly for printed kanji patterns obtained by photoelectric conversion, in order to deal with changes in character shape due to differences in fonts. The present invention relates to a character pattern recognition processing method in which two complementary features of a character pattern are extracted and classified, and the classification process is hierarchized to perform identification.

従来、漢字を含めた文字パターンの階層的認識方式とし
ては、単一フォントの印刷漢字を認識の対象として、光
電変換された未知入力文字パターンにぼかし処理を施し
、粗いメツシュの矩形領域に分割し、類似度によって分
類するとともに、分割する矩形領域を細かくしていくこ
とによって階層化し、文字パターンの認識を行なう方法
が知られている。
Conventional hierarchical recognition methods for character patterns, including kanji, target printed kanji in a single font, apply blurring to the photoelectrically converted unknown input character pattern, and divide it into coarse mesh rectangular regions. There is a known method for recognizing character patterns by classifying them based on their degree of similarity, and by dividing the rectangular regions into smaller areas to create a hierarchy.

しかしながら、この認識方式においては、用いる文字パ
ターンの特徴が唯一であるため、フォントの違いによっ
て生じる字形のわずかな変化に対しても認識精度が低下
するばかりでなく、高い精度を得ようとすれば正確な位
置あわせを行なう煩雑な処理過程が要求されるという欠
点がある。
However, in this recognition method, the characteristics of the character pattern used are unique, so not only does the recognition accuracy decrease even with slight changes in character shape caused by differences in fonts, but it is difficult to achieve high accuracy. This method has the disadvantage that a complicated process for accurate positioning is required.

また、ぼかし処理による処理過程の複雑化も問題となる
Another problem is that the blurring process complicates the processing process.

さらに、漢字パターンのもつ特徴によって分類する方法
には、漢字パターンの周辺の状態コード、複雑指数など
を用いるものが知られているが、これらの方法で抽出さ
れる漢字パターンの特徴は未知入カバターンから一意に
抽出されてしまうため、漢字パターンの大分類は可能で
あるが、階層化による識別までを実現することは不可能
である。
Furthermore, there are known methods for classifying kanji patterns based on their characteristics, such as using status codes around kanji patterns, complexity indexes, etc., but the features of kanji patterns extracted by these methods are based on unknown input patterns. Since the kanji patterns are uniquely extracted from the kanji characters, it is possible to roughly classify the kanji patterns, but it is impossible to achieve the level of identification through hierarchization.

本発明はこれらの問題点を解決するため、文字パターン
のもつ2つの相補的特徴、つまり文字部に着目した文字
の大まかな複雑さの特徴と文字部でない部分に着目した
文字の大まかな形状の特徴、とを用い、かつ特徴を表わ
すパターンを階層化することによって効率的な認識を実
現するようにしたものであり、簡単でかつ統一的な処理
過程の重ね合せによる文字パターンの認識処理方式を提
供することを目的としたものである。
In order to solve these problems, the present invention has two complementary features of a character pattern: a feature of the general complexity of the character focusing on the character part, and a feature of the rough shape of the character focusing on the part other than the character part. This method realizes efficient recognition by using the features and by layering the patterns representing the features. It is intended to provide.

以下、図面により本発明の内容を詳細に説明する。Hereinafter, the contents of the present invention will be explained in detail with reference to the drawings.

第1図は本発明による文字パターンの認識処理方式の一
実施例のフ七ツク図を示す。
FIG. 1 shows a block diagram of an embodiment of a character pattern recognition processing method according to the present invention.

図において、1は入力文字パターンであり、これを走査
、光電変換器2によって走査し、文字パターンの濃淡に
比例した信号を得る。
In the figure, 1 is an input character pattern, which is scanned by a photoelectric converter 2 to obtain a signal proportional to the shading of the character pattern.

この光電変換された信号は2値化回路3において基準値
と比較し、文字部分でない白領域は0″、文字部つまり
黒領域は1゛′の2値量子化文字パターンに変換される
This photoelectrically converted signal is compared with a reference value in a binarization circuit 3, and converted into a binary quantized character pattern in which non-text white areas are 0'' and text areas, that is, black areas are 1''.

4は文字パターンの外接枠検出回路で、2値化された文
字パターンの各辺より中心方向に触手をのばし、最初に
文字部分に出合ったところでその辺の外接枠を検出する
Reference numeral 4 denotes a character pattern circumscribing frame detection circuit, which extends its tentacles toward the center from each side of the binarized character pattern, and detects the circumscribing frame of that side when it first encounters a character part.

このようにして検出された各外接枠によってかこまれた
部分の情報をあらためて文字パターンとし、記憶回路5
に記憶しておく。
The information of the part surrounded by each circumscribed frame detected in this way is again set as a character pattern, and the memory circuit 5
Remember it.

6は本発明の主要部をなす階層的認識装置であり、その
一実施例のブ爾ツク図を第2図に示す。
Reference numeral 6 denotes a hierarchical recognition device which constitutes the main part of the present invention, and a block diagram of one embodiment thereof is shown in FIG.

この図は3層に階層化した認識装置の例である。This figure is an example of a recognition device layered into three layers.

。階層的認識装置6では、文字パターンのもつ2つの相
補的な特徴、つまり黒領域に着目した文字パターンの構
造の複雑さおよび位置の特徴と白領域に着目した文字パ
ターンの形状および位置の特徴とを用い、しかも用いる
特徴を抽出する文字パク:−ンの情報の細かさの程度に
よって階層化し、効率的に文字パターンを分類したのち
識別して、認識結果7が得られる。
. The hierarchical recognition device 6 recognizes two complementary features of the character pattern, namely, the complexity and positional characteristics of the character pattern focusing on the black area, and the shape and positional characteristics of the character pattern focusing on the white area. The recognition result 7 is obtained by efficiently classifying and identifying character patterns by classifying them into hierarchies based on the level of detail of the information in character patterns that extract the features to be used.

記憶回路5に記憶された文字パターンは、まず4×4程
度の粗さの黒パターン作成回路8と白パターン作成回路
9によって、特徴パターンに変換される。
The character pattern stored in the memory circuit 5 is first converted into a characteristic pattern by a black pattern creation circuit 8 and a white pattern creation circuit 9 each having a roughness of approximately 4×4.

第3図は4×4の粗い黒パターン作成の動作例を示した
ものである。
FIG. 3 shows an example of the operation for creating a 4×4 coarse black pattern.

第3図Aは外接枠で切り出し、記憶しておいた文字パタ
ーンでこの文字パターンを、同図Bに示すように、4×
4の粗Jい矩形のメツシュ領域に分割し、各メツシュ領
域に存在する文字部つまり黒領域の面積を計数し、これ
を文学部全体の面積で規格化して、分類のための特徴パ
ターンを作成する。
Figure 3A shows the character pattern cut out using the circumscribed frame and the character pattern that has been memorized, as shown in Figure 3B.
Divide into 4 coarse rectangular mesh areas, count the area of the character part, that is, the black area, that exists in each mesh area, and normalize this with the area of the entire literature department to create a feature pattern for classification. .

同図Cはこの特徴パターンの一例であり、規格化して求
めた値を−4定倍し、整数値で示したものである。
C in the figure is an example of this characteristic pattern, which is a normalized value multiplied by -4 constant and expressed as an integer value.

このように、粗い黒パターンは、文字パターンはあくま
でもストロークの存在によって特徴づけられているもの
とみなし、粗いメツシュに分割した各領域に含まれる文
字部の情報により、文字パターンの大まかな領域のちが
いによる複雑さの特徴を表わしている。
In this way, the coarse black pattern assumes that the character pattern is characterized solely by the presence of strokes, and uses the information about the character part contained in each area divided into coarse meshes to determine the differences in the rough areas of the character pattern. It represents the characteristics of complexity due to

第4図は4×4の粗い白パターン作成回路9の動作例を
示したものである。
FIG. 4 shows an example of the operation of the 4×4 coarse white pattern creation circuit 9.

第4図Aは外接枠で切り出された文字パターンで、この
文字パターンの外接枠を同図BおよびCに示すように粗
く分割し、分割された外接枠の各部分より反対側の外接
枠方向に文字部に出合うまでの文字部でない部分・つま
り白領域の面積を計数し、これを文字パターン領域全体
における白領域の面積で規格化し、分類のための特徴パ
ターンを作成する。
Figure 4A shows a character pattern cut out using a circumscribing frame.The circumscribing frame of this character pattern is roughly divided as shown in Figures B and C, and each part of the divided circumscribing frame is directed toward the opposite side of the circumscribing frame. The area of the non-character part, that is, the white region, is counted until the character part is encountered, and this is normalized by the area of the white region in the entire character pattern region, to create a characteristic pattern for classification.

同図りはこのようにして求めた特徴パターンの例である
The figure is an example of a characteristic pattern obtained in this way.

このように、粗い白パターンは、文字パターンの周囲か
らみた文字部でない領域の情報に着目し、文字パターン
の大まかな領域のちがいによる外郭形状の特徴を表わし
ている。
In this way, the coarse white pattern focuses on information on non-character areas seen from the periphery of the character pattern, and expresses the characteristics of the outline shape due to the rough differences in the areas of the character pattern.

つぎに、このような2つの特徴パターン作成回路8およ
び9によって作成された未知入力文字パターンの特徴パ
ターンに対して、照合回路10によって、各カテゴリの
文字に対してすてにだくわえておいた2つの特徴パター
ンテーブル11および12とのマツチングをとり、値の
大きなものから一定個数のカテゴリを未知入力文字に対
する候補カテゴリとして選びだす。
Next, with respect to the feature patterns of the unknown input character patterns created by these two feature pattern creation circuits 8 and 9, the matching circuit 10 uses the previously stored character patterns for each category of characters. Matching is performed with the two feature pattern tables 11 and 12, and a certain number of categories are selected from those with the largest values as candidate categories for the unknown input character.

このようにして抽出された候補カテゴリに対して、つぎ
に8×8程度の粗い黒パターンと白パターンを作成する
Next, roughly 8×8 black and white patterns are created for the candidate categories extracted in this way.

13は8×8の粗い黒パターン作成回路で、その動作例
を第5図に示す。
Reference numeral 13 denotes an 8×8 coarse black pattern forming circuit, an example of its operation is shown in FIG.

同図Aは外接枠で切り出された文字パターンで、これを
同図Bに示すように、8×8の粗い矩形のメツシュ領域
に分割し、各メツシュ領域に存在する文字部の情報から
同図Cに示すような特徴パターンを作成する。
Figure A shows a character pattern cut out using a circumscribing frame, which is divided into 8x8 rough rectangular mesh areas as shown in Figure B, and information on the character parts present in each mesh area is used as shown in Figure B. Create a characteristic pattern as shown in C.

一方、14は8×8程度の粗い白パターン作成回路で、
その動作例を第6図に示す。
On the other hand, 14 is a roughly 8x8 white pattern creation circuit.
An example of its operation is shown in FIG.

同図Aに示した文字パターンに対して、同図BおよびC
に示すように、4つの外接枠を8分割して、分割された
外接枠の各部分から最初に文字部に出合うまでの白領域
の面積を計数するとともに、同図りに示すように、外接
枠からの面積の計数において、最初の文字部との出合い
の場合にはこれを無視してそのまま計数を続け、2つめ
の文字部に出合うまでの面積を求め(このパターンを2
次の白パターンと呼ぶ、これに対して上記の最初の文字
部との出合によって作られるパターンを1次の白パター
ンと呼ぶことにする)、あわせて8×8の特徴パターン
を作成する。
For the character pattern shown in A of the same figure, B and C of the same figure
As shown in the figure, the four circumscribing frames are divided into eight parts, and the area of the white area from each part of the divided circumscribing frames to the first encounter with the character part is counted. When calculating the area from
(This will be referred to as the next white pattern; on the other hand, the pattern created by the encounter with the first character portion will be referred to as the primary white pattern), and an 8×8 feature pattern is created in total.

なお同図りは上枠からの2次の白パターンの作成例であ
る。
The figure is an example of creating a secondary white pattern from the upper frame.

このようにして作成された2つの特徴パターン、つまり
8×8の黒パターンと白パターンに対して、照合回路1
5により、既知文字の2つの特徴パターンテーブルとの
照合をとり、さらに候補カテゴリをしぼる。
The matching circuit 1
5, the known characters are compared with two feature pattern tables, and candidate categories are further narrowed down.

さらに、このようにして抽出された候補カテゴリについ
て、16X16程度に分割した黒パターンと白パターン
を作成する。
Furthermore, for the candidate categories extracted in this way, a black pattern and a white pattern divided into about 16×16 are created.

黒パターン作成回路18では文字パターン領域を16X
16に分割することにより、また白パターン作成回路1
9では文字パターンの外接枠を16分割し、8×8の白
パターン作成方法と同様に、■から4次の白パターンを
求めることにより、それぞれ所望の情報量の特徴パター
ンが作成される。
In the black pattern creation circuit 18, the character pattern area is
By dividing into 16, the white pattern creation circuit 1
In step 9, the circumscribed frame of the character pattern is divided into 16 parts, and a fourth-order white pattern is obtained from 1, similarly to the 8×8 white pattern creation method, thereby creating characteristic patterns each having a desired amount of information.

このようにして作成された2つの特徴パターンを用いて
、照合回路シ20によって、2つの特徴パターンテーブ
ル21および22との照合をとり、最終的に1つの候補
カテゴリを求めて未知入力文字パターンを識別し、認識
結果7を得る。
Using the two feature patterns created in this way, the matching circuit 20 performs matching against the two feature pattern tables 21 and 22, and finally finds one candidate category to identify the unknown input character pattern. The recognition result 7 is obtained.

以上説明したように、本発明による文字バターシンの認
識処理方式においては、文字パターンのもつ2つの相補
的な特徴、つまり文字部に着目した文字構造の複雑さの
特徴と、文字部でない部分に着目した文字形状の特徴、
を並用し、しかも用いる特徴量、つまり文字パターン観
測の細かさの程度によって階層的に文字パターンの認識
処理を行なうため、文字形状の変化、特にマルチフォン
ト印刷漢字のようにフォントが異なることによって文字
パターンの形状に差を生じるようなパターンに対して、
高い精度でかつ効率のよい認識が行なえるという利点が
ある。
As explained above, the character batashin recognition processing method according to the present invention focuses on two complementary features of a character pattern, that is, the complexity of the character structure focusing on the character part, and the feature of the complexity of the character structure that focuses on the character part, and the character part that focuses on the non-character part. Characteristics of character shapes,
In addition, character patterns are recognized in a hierarchical manner depending on the features used, that is, the degree of detail of character pattern observation. For patterns that cause differences in pattern shape,
It has the advantage of being able to perform highly accurate and efficient recognition.

また、特徴パターンの作成は計数処理のみによって実現
できるため簡単であり、かつ2つの異なった方法によっ
て作り出される特徴パターンは、その大きさ、性質など
が同じであるため、階層の各段階において行なわれるマ
ツチングの処理は共通の回路によって実現できるという
利点もある。
In addition, the creation of feature patterns is easy because it can be achieved only by counting processing, and the feature patterns created by two different methods have the same size, properties, etc., so it is easy to create feature patterns at each stage of the hierarchy. Another advantage is that the matching process can be realized by a common circuit.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明による文字パターンの認識処理方式の一
実施例図、第2図は第1図の主要部である階層的認識装
置の一実施例を示す図、第3図および第5図は黒パター
ン作成回路の動作を説明するための説明図、第4図およ
び第6図は白パターン作成回路の動作を説明するための
説明図を示す。 図において1は入力文字パターン、2は走査・光電変換
器、3は2値化回路、4は外接枠検出回路、5は記憶回
路、6は階層的認識装置、7は認識結果であり、また8
、13.18は黒パターン作成回路、9,14.22は
白パターン作成回路、10.15.20は照合回路、1
1,16.21は黒パターンの特徴パターンテーブル記
憶回路、12.17.22は白パターンの特徴パターン
テーブル記憶回路を表わす。
FIG. 1 is a diagram showing an embodiment of the character pattern recognition processing method according to the present invention, FIG. 2 is a diagram showing an embodiment of the hierarchical recognition device which is the main part of FIG. 1, and FIGS. 3 and 5. 4 and 6 are explanatory diagrams for explaining the operation of the black pattern generation circuit, and FIGS. 4 and 6 are explanatory diagrams for explaining the operation of the white pattern generation circuit. In the figure, 1 is an input character pattern, 2 is a scanning/photoelectric converter, 3 is a binarization circuit, 4 is a circumscribing frame detection circuit, 5 is a storage circuit, 6 is a hierarchical recognition device, 7 is a recognition result, and 8
, 13.18 is a black pattern creation circuit, 9, 14.22 is a white pattern creation circuit, 10.15.20 is a matching circuit, 1
Reference numerals 1, 16, and 21 represent feature pattern table storage circuits for black patterns, and reference numerals 12, 17, and 22 represent feature pattern table storage circuits for white patterns.

Claims (1)

【特許請求の範囲】 1 文字パターンを走査して光電変換する手段と、。 光電変換された文字パターンの情報を2値化する手段と
、2値化された文字パターンに対して文字の外接矩形領
域で枠とりして記憶しておく記憶手段を有する文字パタ
ーン認識処理方式において、上記記憶手段によってえら
れた文字パターンの文2字部に着目して当該文字部の構
造および形状の特徴を表わすパターンを作成する文学部
特徴パターン作成手段と、上記記憶手段によってえられ
た文字パターンに対して文字部でない領域の特徴によっ
て文字の輪郭形状を表わすパターンを作成する5輪郭形
状特徴パターン作成手段と、上記2つのパターン作成手
段によって作成されたパターンと別に用意しておいた既
知文字パターンから求めたパターンとの照合をとる手段
とをそなえ、これらのパターン作成、照合の段階をパタ
ーン観測の細かJさの程度のちがいによって階層化して
順次処理を階層的に実行し、未知入力文字パターンを認
識する手段とを具備することを特徴とする文字パターン
の認識処理方式。
[Claims] 1. A means for scanning and photoelectrically converting a character pattern. In a character pattern recognition processing method having means for binarizing information of a photoelectrically converted character pattern, and a storage means for storing the binarized character pattern as a frame in a circumscribed rectangular area of the character. , a literature feature pattern creation means that focuses on the two-character part of the character pattern obtained by the storage means and creates a pattern representing the structure and shape characteristics of the character part; and a character pattern obtained by the storage means. 5 outline shape feature pattern creation means for creating a pattern representing the outline shape of a character based on the features of areas other than character parts; and known character patterns prepared separately from the patterns created by the above two pattern creation means. The pattern creation and matching steps are stratified according to the degree of fineness of the pattern observation, and the processing is executed hierarchically in order to detect unknown input character patterns. 1. A character pattern recognition processing method, comprising: means for recognizing a character pattern.
JP53049642A 1978-04-25 1978-04-25 Character pattern recognition processing method Expired JPS5822781B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP53049642A JPS5822781B2 (en) 1978-04-25 1978-04-25 Character pattern recognition processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP53049642A JPS5822781B2 (en) 1978-04-25 1978-04-25 Character pattern recognition processing method

Publications (2)

Publication Number Publication Date
JPS54141529A JPS54141529A (en) 1979-11-02
JPS5822781B2 true JPS5822781B2 (en) 1983-05-11

Family

ID=12836853

Family Applications (1)

Application Number Title Priority Date Filing Date
JP53049642A Expired JPS5822781B2 (en) 1978-04-25 1978-04-25 Character pattern recognition processing method

Country Status (1)

Country Link
JP (1) JPS5822781B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63172388A (en) * 1987-01-10 1988-07-16 Alps Electric Co Ltd System for recognition character image

Also Published As

Publication number Publication date
JPS54141529A (en) 1979-11-02

Similar Documents

Publication Publication Date Title
USRE47889E1 (en) System and method for segmenting text lines in documents
Kumar et al. A detailed review of feature extraction in image processing systems
Lee et al. Parameter-free geometric document layout analysis
Bhowmik et al. Text and non-text separation in offline document images: a survey
Srihari et al. Document Image Understanding.
KR19980023917A (en) Pattern recognition apparatus and method
JP2002024836A (en) Method for extracting title from digital image
Chi et al. Separation of single-and double-touching handwritten numeral strings
Feng et al. Scene text detection based on multi-scale SWT and edge filtering
US4769851A (en) Apparatus for recognizing characters
JPH09167233A (en) Image processing method and device therefor
JPS5822781B2 (en) Character pattern recognition processing method
Biswas et al. Text extraction from scanned land map images
Ting et al. A syntactic business form classifier
JPS5822780B2 (en) Hierarchical identification processing method for character patterns
JP3113769B2 (en) Character recognition device
JPH033089A (en) Method for recognizing pattern
JPS58165178A (en) Character reader
JP3083609B2 (en) Information processing apparatus and character recognition apparatus using the same
JPH0916715A (en) Character recognition system and method therefor
Paranjape et al. A Robust and Automated Approach for Multilingual Indian Document Indexing
JPH0877293A (en) Character recognition device and generating method for dictionary for character recognition
KR100317653B1 (en) An feature extraction method on recognition of large-set printed characters
JPS6318787B2 (en)
JPH0324709B2 (en)