JPH0638276B2 - Pattern identification device - Google Patents

Pattern identification device

Info

Publication number
JPH0638276B2
JPH0638276B2 JP58234251A JP23425183A JPH0638276B2 JP H0638276 B2 JPH0638276 B2 JP H0638276B2 JP 58234251 A JP58234251 A JP 58234251A JP 23425183 A JP23425183 A JP 23425183A JP H0638276 B2 JPH0638276 B2 JP H0638276B2
Authority
JP
Japan
Prior art keywords
pattern
cluster
standard
clustering
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP58234251A
Other languages
Japanese (ja)
Other versions
JPS60126784A (en
Inventor
浩道 藤沢
康雄 黒須
修 国崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP58234251A priority Critical patent/JPH0638276B2/en
Publication of JPS60126784A publication Critical patent/JPS60126784A/en
Publication of JPH0638276B2 publication Critical patent/JPH0638276B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明はパターン整合法を用いるパターン識別装置の辞
書(標準パターンの集合)を作成する装置に関する。
Description: BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a device for creating a dictionary (a set of standard patterns) of a pattern identification device using a pattern matching method.

〔発明の背景〕[Background of the Invention]

従来、文字認識の手法には、パターン整合的手法と構造
解析的手法とがあり、前者は主に活字に、後者は手書文
字に用いられてきた。しかし、認識対象が英数字から漢
字にまで拡張されると、手書文字にもパターン整合的手
法が要求される。そこでパターン整合的手法は、手書文
字にも耐えられるように、単なるぼかし処理(例えば複
合類似度法;階層的パターン整合法がある。詳細は「文
字認識概論」,橋本編著,電気通信協会,p.35およ
びp88を参照)から、パターンの方向性などの特徴抽
出を行うパターン整合法(例えば、特開昭56−65275号
「パターン認識方式」)へ発展しつつある。
Conventionally, there are a pattern matching method and a structural analysis method for character recognition. The former has been mainly used for printing and the latter has been used for handwritten characters. However, if the recognition target is expanded from alphanumeric characters to kanji, handwritten characters also require a pattern matching method. Therefore, the pattern matching method is a mere blurring process (for example, there is a composite similarity method; a hierarchical pattern matching method so that it can endure handwritten characters. For details, see “Introduction to Character Recognition”, edited by Hashimoto, Telecommunications Association, p.35 and p88), a pattern matching method for extracting features such as pattern directionality is being developed (for example, Japanese Patent Laid-Open No. 56-65275, "Pattern Recognition Method").

一方、パターン整合法においては辞書をどのように作る
か、あるいは辞書の中身をどのように改良して行けば認
識精度が逐次向上していくかという問題がある。十分な
認識精度をもつ文字認識装置などのパターン識別装置を
実用化するには、上記の問題の方が、特徴抽出の細かな
内容よりも実際上は重要である。より具体的に述べる
と、原理的な認識方式で、ある一定のサンプルパターン
集合から認識シミュレーション実験により、例えば95
%の精度が得られても、実用化するためには同精度を例
えば99.9%にまで上げる必要がある。ここに3つの
問題がある。
On the other hand, the pattern matching method has a problem of how to make a dictionary, or how to improve the contents of the dictionary to successively improve the recognition accuracy. In order to put a pattern recognition device such as a character recognition device having sufficient recognition accuracy into practical use, the above problem is actually more important than the detailed contents of feature extraction. More specifically, in a principle recognition method, for example, 95
Even if the accuracy of 10% is obtained, it is necessary to raise the accuracy to 99.9% for practical use. There are three problems here.

第一の問題は認識精度が識別に用いる特徴とともに辞書
にも依存することである。特徴の優劣は必ずしも容易に
判断できない。特に手書文字の場合には、特徴抽出の改
良のみでは実用レベルに達せず、各カテゴリに対し複数
個の標準パターンを用意することが不可欠になる。文字
形状に対し変形をかなり許容しようとすると、カテゴリ
という抽象概念に対し複数のパターン概念(パターンク
ラスタを形成する)が存在することは明らかである。す
なわち、第一の問題は特徴抽出の改良のみでは実用レベ
ルに達しないことである。
The first problem is that recognition accuracy depends on the dictionary as well as the features used for identification. The superiority or inferiority of features cannot always be easily determined. Especially in the case of handwritten characters, improvement of feature extraction alone does not reach a practical level, and it is indispensable to prepare a plurality of standard patterns for each category. It is clear that there are multiple pattern concepts (forming pattern clusters) for the abstract concept of category, if we try to allow deformation to the character shape. That is, the first problem is that improvement of feature extraction alone does not reach a practical level.

第二の問題は、実験で用いるサンプルパターンは限定さ
れており、そこに含まれていないパターンに関しての保
証はない。実際に文字認識装置の実用化で費やされる大
部分の時間は、新しい入力パターンに対しても十分な認
識精度を保持するように辞書の中を改良することに費や
される。その大きな原因は、新規入力パターンに対する
精度向上の対策が、以前に行つた対策と背反することが
あり、しかもその事実が検知できないことが多いことで
ある。したがつて、精度向上の対策後にすべてのサンプ
ルパターンを認識させて、効果の確認をする必要があ
り、結局、対策と確認の繰返しが必要であつた。
The second problem is that the sample patterns used in the experiment are limited, and there is no guarantee for patterns not included therein. Most of the time actually spent in practical application of the character recognition device is spent in improving the dictionary so as to maintain sufficient recognition accuracy even for a new input pattern. The main reason for this is that the measures for improving the accuracy of new input patterns conflict with the measures taken before, and in many cases the fact cannot be detected. Therefore, it is necessary to recognize all the sample patterns and confirm the effect after the measure for improving the accuracy, and eventually it is necessary to repeat the measure and the confirmation.

第三の問題はパターン整合法を前提とした辞書の作り方
であり、しかも第二の問題を解決するような作り方の問
題である。
The third problem is how to make a dictionary based on the pattern matching method, and the problem to solve the second problem.

従来、一カテゴリに対する標準パターンを増やしていく
と、その数に対して指数的に認識精度が向上していくこ
とが分つている。その際、複数標準パターンを得るため
にはクラスタリングという処理が用いられている。しか
しながら、通常的に行うところのカテゴリ内クラスタリ
ングでは、十分な精度に達するに必要な標準パターン数
が多すぎる、カテゴリ毎に独立にクラスタリングを行う
ためクラスタ数のバランスが必ずしもよくない、という
欠点がある。更に、一般的に、新規入力パターンが得ら
れ辞書の改良が求められたときに、クラスタリングの全
過程をやり直さねばならないという欠点がある。
Conventionally, it has been found that when the number of standard patterns for one category is increased, the recognition accuracy increases exponentially with respect to the number. At that time, a process called clustering is used to obtain a plurality of standard patterns. However, in-category clustering, which is usually performed, has the disadvantages that the number of standard patterns required to reach sufficient accuracy is too large and the number of clusters is not balanced because clustering is performed independently for each category. . Further, generally, there is a drawback that the whole process of clustering has to be redone when a new input pattern is obtained and a dictionary improvement is required.

〔発明の目的〕[Object of the Invention]

本発明の目的は上記のような問題点を解決し、短期間で
パターン識別用辞書を信頼度高く作成し得るパターン識
別装置を提供することである。
An object of the present invention is to solve the above problems and to provide a pattern identification device that can create a pattern identification dictionary with high reliability in a short period of time.

〔発明の概要〕[Outline of Invention]

本発明は、パターン整合法を前提としたパターン識別用
辞書を備えたパターン識別装置において、サンプルパタ
ーンより特徴抽出を行なって特徴パターンを抽出する手
段と、上記特徴パターンを蓄積する手段と、蓄積した特
徴パターンに対して、夫々の大きさのクラスタで階層的
クラスタリングを施し、その際に、少なくとも、最下位
の階層は1クラスタに属する特徴パターンが単一のカテ
ゴリで構成されるように、所定の大きさのクラスタでク
ラスタリングし、各階層のクラスタ構成を階層構造で表
現し、上記階層構造に従って各階層のクラスタ構成に応
じた標準パターンを作成する手段と、上記各階層のクラ
スタ構成に応じた標準パターンを上記パターン識別用辞
書として蓄積する手段と、上記各階層のクラスタ構成に
応じて作成された標準パターンのうち、上位の階層のク
ラスタ構成に応じて作成された標準パターンから、入力
パターンと標準パターンとの間の距離または類似度を順
次求め、求められた距離または類似度を評価して標準パ
ターンの候補を絞り、上記入力パターンの識別を行う手
段と、未知の入力パターンに対して、上記階層的クラス
タリングが施された上記最下位の階層より上位の階層に
対して階層毎に上記未知の入力パターンの特徴パターン
を加えて順次再クラスタリングを施していき、上記再ク
ラスタリングした結果、上記未知の入力パターンの特徴
パターンの属するクラスタ以外のクラスタに変化が生じ
ない階層まで再クラスタリングを行ない、上記階層構造
を変更して上記各階層のクラスタ構成に応じた上記標準
パターンを修正し、上記パターン識別用辞書としての蓄
積手段に蓄積する手段とを具備することを特徴とする。
According to the present invention, in a pattern identification device provided with a pattern identification dictionary based on the pattern matching method, a means for performing feature extraction from a sample pattern to extract a feature pattern, a means for accumulating the feature pattern, and an accumulation means. Hierarchical clustering is performed on the feature patterns with clusters of different sizes, and at this time, at least the lowest hierarchy has a predetermined pattern so that the feature patterns belonging to one cluster are composed of a single category. Clustering with a cluster of a size, expressing the cluster configuration of each layer by a layered structure, creating a standard pattern according to the cluster configuration of each layer according to the layered structure, and a standard according to the cluster configuration of each layer A means for accumulating patterns as the pattern identification dictionary and created according to the cluster configuration of each layer Among the quasi-patterns, the distance or similarity between the input pattern and the standard pattern is sequentially obtained from the standard pattern created according to the cluster structure of the upper layer, and the obtained distance or similarity is evaluated to obtain the standard. Means for narrowing down the pattern candidates and identifying the input pattern, and for the unknown input pattern, the unknown level of each unknown layer above the lowest hierarchical layer subjected to the hierarchical clustering. The feature pattern of the input pattern is sequentially added and re-clustering is performed. As a result of the re-clustering, re-clustering is performed up to a layer in which a cluster other than the cluster to which the feature pattern of the unknown input pattern does not change, Change the structure to modify the standard pattern according to the cluster configuration of each layer, and Characterized by comprising a means for storing in the storage means as use a dictionary.

まず本発明の原理図を第1図〜第3図を用いて説明す
る。いま簡単化のため3カテゴリ(A,B,Cとする)
が2次元空間に散在しているとする。
First, the principle of the present invention will be described with reference to FIGS. 3 categories (A, B, C) for simplification
Are scattered in a two-dimensional space.

第1図は各カテゴリに1個の標準パターンを設ける場合
の模式図である。破線100,200,300は各標準
パターンを中心とする超円(単純類似度法のとき)また
は超楕円体(複合類似度法のとき)である。同図の如く
単一標準パターンでは各標準パターンの張る領域はオー
バーラツプし、手書文字の場合は変形が大きいためオー
バーラツプする領域は大きい。すなわち認識不能が多発
する。
FIG. 1 is a schematic diagram when one standard pattern is provided for each category. Dashed lines 100, 200 and 300 are hypercircles (in the case of the simple similarity method) or hyperelliptic bodies (in the case of the compound similarity method) centered on the respective standard patterns. As shown in the figure, in the single standard pattern, the area covered by each standard pattern overlaps, and in the case of handwritten characters, the deformation is large, and thus the overlapping area is large. That is, unrecognizable images often occur.

第2図は各カテゴリ単位でそれぞれ独立にクラスタリン
グを適用した場合の模式図である。クラスタリングに際
しては、各クラスタの大きさを指定するパラメータがあ
る。一般に、クラスタの定義は存在せず、全体を1つの
クラスタと見倣す場合と、それぞれのサンプルを1つの
クラスタと見倣す場合のどの中間点を求めるクラスタと
するかは、人間が決定するパラメータに依存する。第2
図はあるパラメータでクラスタリングした結果であると
する。
FIG. 2 is a schematic diagram when clustering is applied independently for each category. In clustering, there is a parameter that specifies the size of each cluster. Generally, there is no definition of a cluster, and a human determines which intermediate point is to be obtained between the case where the whole is imitated as one cluster and the case where each sample is imitated as one cluster. Depends on the parameter. Second
The figure is the result of clustering with certain parameters.

同図で示す如く、カテゴリ毎独立にクラスタリングする
ので一般にはオーバーラツプする領域(標準パターン)
が残る。従つて、認識精度を高くするためには更に細か
なクラスタリングをするように指定し、全体のクラスタ
リングをやり直す必要がある。また、全体の再クラスタ
リングを行うと、オーバーラツプしている標準パターン
以外のクラスタも細分化されてしまい、全体として余分
な標準パターンが生成されてしまう。すなわち、高精度
を達成するのに不必要に多くの標準パターンが必要とな
る。更に、辞書が構築された後に、正しく認識できない
新規入力パターンが現われたときに、クラスタリングを
再実行しなればならないという問題点がある。
As shown in the figure, since the categories are clustered independently, generally the overlapping area (standard pattern)
Remains. Therefore, in order to increase the recognition accuracy, it is necessary to specify finer clustering and to re-execute the entire clustering. Further, when the whole re-clustering is performed, clusters other than the overlapping standard patterns are also subdivided, and extra standard patterns are generated as a whole. That is, unnecessarily many standard patterns are required to achieve high accuracy. Furthermore, when a new input pattern that cannot be recognized correctly appears after the dictionary is constructed, there is a problem that clustering must be re-executed.

第3図は本発明方式の原理を説明するための図である。
本発明による階層クラスタリングでカテゴリの境界は意
識せずに、全サンプルについてクラスタリングする。こ
のクラスタリング手法自体は第2図で説明した方式の各
カテゴリ単位に適用するところのクラスタリング手法と
同一であつてもよい。あるパラメータでクラスタリング
した結果が第3図(a)であつたとする。一般に粗いクラ
スタを指定すると、クラスタを構成するサンプルパター
ンは同一カテゴリで占められるとは限らない。第3図
(a)の例では2つのクラスタが、それぞれAとB、Bと
Cなるカテゴリから成つている。
FIG. 3 is a diagram for explaining the principle of the method of the present invention.
In the hierarchical clustering according to the present invention, all samples are clustered without being aware of category boundaries. This clustering method itself may be the same as the clustering method applied to each category unit of the method described in FIG. It is assumed that the result of clustering with a certain parameter is shown in FIG. Generally, when a coarse cluster is designated, the sample patterns forming the cluster are not always occupied by the same category. Fig. 3
In the example of (a), two clusters consist of categories A and B, and B and C, respectively.

上記のようなカテゴリの混在するクラスタは更にその内
部についてクラスタリングを適用する。LEVEL-2の層で
ある。この処理は回帰的な処理であり、すべてのクラス
タが唯一のカテゴリに属すサンプルパターンから成るよ
うになるまで繰返えす。第3図の例ではLEVEL-3(第3
層)までで、すべてのクラスタが単一カテゴリになつて
いる。
For the cluster having the mixed categories as described above, the clustering is applied to the inside thereof. It is a layer of LEVEL-2. This process is recursive and repeats until all clusters consist of sample patterns that belong to only one category. In the example of FIG. 3, LEVEL-3 (3rd
Up to the layer), all clusters are in a single category.

第4図は第3図のクラスタ構成を階層木で表現したもの
である。第4図においてSはサンプル集合を意味する。
階層木の「葉」の部分がクラスタであり、そこの記号は
クラスタを構成するメンバであるサンプルパターンを表
わしている。パターン認識用の辞書を構成する標準パタ
ーンは各クラスタのメンバから作られる。一般的に行わ
れる方法はメンバであるサンプルパターン(数学的には
ベクトル)の平均を求める方法である。第4図における
23は各クラスタの平均ベクトルを表わす。も
ちろん、特徴抽出を行うパターン整合法では特徴ベクト
ルがサンプルパターンを表現する。
FIG. 4 shows the cluster structure of FIG. 3 in a hierarchical tree. In FIG. 4, S means a sample set.
The “leaf” portion of the hierarchical tree is a cluster, and the symbols there represent sample patterns that are members that make up the cluster. The standard patterns that make up the dictionary for pattern recognition are created from the members of each cluster. A commonly used method is to find the average of the sample patterns (mathematically vectors) that are members. In Figure 4
1 to 23 represent the average vector of each cluster. Of course, in the pattern matching method for feature extraction, the feature vector represents the sample pattern.

さて、新規なパターンが入力された場合について説明す
る。まず、この入力パターンが正しく識別されない場合
について、第5図を用いて説明する。
Now, a case where a new pattern is input will be described. First, the case where this input pattern is not correctly identified will be described with reference to FIG.

第5図(a)(b)で示す初期クラスタがあり、そこへ新規パ
ターンCが入力されたとすると、識別結果から新規パ
ターンCはクラスタに最も近いと判断される。と
ころがクラスタはカテゴリBのクラスタであるので
誤識別ということになる。ここで、本方式では以下のよ
うな部分的再クラスタリングを行う。
If there is an initial cluster shown in FIGS. 5 (a) and 5 (b) and a new pattern C 3 is input thereto, the new pattern C 3 is determined to be closest to the cluster 3 from the identification result. However, since the cluster 3 is a category B cluster, it is misidentified. Here, in this method, the following partial re-clustering is performed.

まずCはクラスタに属すと判断されたのでメンバ
{B,B,C}に対して階層クラスタリングを適
用し、この場合、結果的に第6図に示すクラスタ木を得
る。ここで明らかにクラスタの中心ベクトルは
′へ、′へ、′へそれぞれ移
動する。従つて、変動の割合が大きいクラスタをもつレ
ベルのサンプルは正しく識別されない可能性がある。そ
こでレベルの低い方から正しく識別できるか否かを検定
し、できない場合は同レベル以降の階層クラスタリング
をやり直す。
First, since it is determined that C 3 belongs to the cluster 3 , hierarchical clustering is applied to the members {B 3 , B 4 , C 3 }, and in this case, the cluster tree shown in FIG. 6 is obtained as a result. Here clearly the central vector of cluster 3 is
Move to 3 ', 5 to 5 ', 0 to 0 '. Therefore, samples at the level with clusters with a high rate of variation may not be correctly identified. Therefore, it is tested whether or not the lower level can be correctly identified, and if it is not possible, the hierarchical clustering after the same level is performed again.

第6図の例では、‖′‖が所定の閾値よりも
大きいかどうかを比較する。いま、大きいと仮定する
と、クラスタ′の位置するレベル以下の階層木のサ
ンプル{A,A,B,B,B,B,C
について正しく識別が成されるか否かを検定する。この
検定はクラスタ′について行う。も
し、正しく認識されれば{B,B,C}がクラス
に対して正しく認識されるはずであるの
で、同レベルの検定を終了する。もし、正しく識別され
ないサンプルが有る場合は、クラスタ
′のレベル以降の階層クラスタリングをやり直す。
In the example of FIG. 6, ‖ 3 - 3 '‖ compares whether greater than a predetermined threshold. Now, assuming that a large sample position to the level below the hierarchical tree of clusters 3 '{A 1, A 2 , B 1, B 2, B 3, B 4, C 3}
Is tested for correct discrimination. This test is performed on clusters 1 , 2 , and 3 '. If it is correctly recognized, {B 3 , B 4 , C 3 } should be correctly recognized for the clusters 7 and 8 , and the test of the same level is terminated. If some samples are not correctly identified, cluster 1 , 2 ,
Redo hierarchical clustering after the level 3 '.

同レベルの検定と修正が終了すると、その上のレベル
(クラスタ′,′)に対し同じことを行う。す
なわち、クラスタ中心ベクトルの移動量‖
‖を閾値εと比較し、小さいときは再クラスタリングを
終了し、大きいときはサンプル{A,A,B,B
,B,B,C,C,C}について正しく識
別されるか否かをクラスタ′と′について検定
する。もしすべて正しく識別されれば再クラスタリング
を終了し、正しくない場合は全サンプルに対する階層ク
ラスタリングをやり直す。
Once the same level of testing and modification is complete, do the same for the levels above it (clusters 5 ', 6 '). That is, the amount of movement of the cluster center vectors ‖ 5 - 5 '
‖ Is compared with the threshold value ε, and when it is small, the reclustering is terminated, and when it is large, the sample {A 1 , A 2 , B 1 , B
2 , B 3 , B 4 , C 3 , C 1 , C 2 } are tested correctly for clusters 5 ′ and 6 ′. If all are correctly identified, re-clustering is terminated, and if not, hierarchical clustering is performed again for all samples.

再クラスタリングの終了条件として、隣接するクラスタ
内のサンプルの配置が変化しなくなる条件としてもよ
い。
The reclustering termination condition may be a condition in which the arrangement of samples in adjacent clusters does not change.

新規パターンが第5図の場合とは異なり、第7図(a)の
如く正しく識別される場合について説明する。この場合
はクラスタは中心ベクトルを′に移動し、メン
バ{B,B,B}を含むように修正される。更に
クラスタ中心ベクトル′へ移動する。クラス
タ中心ベクトルが移動すれば一般にサンプルパターンの
正しい識別は保証されないので、先に説明した再クラス
タリングの処理を全く同様に行う。
Different from the case of FIG. 5, the case where the new pattern is correctly identified as shown in FIG. 7A will be described. In this case moves cluster 3 the central vector the 3 ', it is modified to include members {B 3, B 4, B 5}. Further, the cluster center vector 5 moves to 5 '. If the cluster center vector moves, the correct identification of the sample pattern is generally not guaranteed, so the reclustering process described above is performed in exactly the same way.

新規パターンが正しく修正される場合には何も修正をし
ないという変形アルゴリズムもあり得るが、今まで正し
く識別されていたパターンが後の他の原因による再クラ
スタリングによつて正識別されなくなるという危険があ
り、望ましくない。
There can be a transformation algorithm that does nothing if the new pattern is corrected correctly, but there is a risk that the previously correctly identified pattern will not be correctly identified by reclustering due to other causes later. Yes, not desirable.

〔発明の実施例〕Example of Invention

以下、本発明のパターン識別装置を実施例にもとづいて
詳細に説明する。第8図は本発明の一実施例の構成を示
す系統図である。第8図において帳票1は光電変換装置
2によつて電気信号に変換される。この光電変換の像は
走査制御回路3によつて走査を受ける。この走査出力は
しきい値回路4により2値化される。このしきい値回路
4に濃度分布に応じて可変しきい値を設け、シエーデイ
ングを補正することは有効である。2値化された文字群
は文字切り出し回路5に送られ、一文字ずつ切り出され
る。切り出された文字は前処理部6において雑音の除
去、大きさの正規化等の処理が施される。前処理が施さ
れた文字は特徴抽出部7において、分類に必要なストロ
ーク等の情報が抽出される。なお、抽出する特徴はその
種類を問わずに本方式に適用可能なことは自明である。
次に、抽出された特徴はキーボードから入力されるその
属性を表わす情報と共に一文字記憶部8を経由して特徴
記憶部10に送られる。これら一連の処理分類対象文字
すべてについて繰り返し、カウンター9は所定の文字数
だけカウントすると、パターン作成操作を終了する。か
くして、一括して処理すべき特徴パターンの集合が特徴
記憶部10に蓄積される。ここで、特徴の属性を表わす
情報とは、文字の種類を表わすコードとそのコード内の
順番などを表わす。また前述の各回路は専用の論理回路
である必然性はなく、処理の手順を記憶したマイクロコ
ンピュータであつてもなんら差しつかえない。
Hereinafter, the pattern identification device of the present invention will be described in detail based on examples. FIG. 8 is a system diagram showing the configuration of an embodiment of the present invention. In FIG. 8, the form 1 is converted into an electric signal by the photoelectric conversion device 2. The photoelectric conversion image is scanned by the scanning control circuit 3. This scan output is binarized by the threshold circuit 4. It is effective to provide the threshold circuit 4 with a variable threshold value according to the density distribution to correct the shading. The binarized character group is sent to the character cutting circuit 5 and is cut out character by character. The cut-out characters are subjected to processing such as noise removal and size normalization in the preprocessing unit 6. Information such as strokes required for classification is extracted by the feature extraction unit 7 from the preprocessed characters. It is obvious that the features to be extracted can be applied to this method regardless of the types.
Next, the extracted features are sent to the feature storage unit 10 via the one-character storage unit 8 together with the information indicating the attribute input from the keyboard. When the counter 9 counts a predetermined number of characters by repeating all of the series of processing classification target characters, the pattern creating operation ends. Thus, a set of characteristic patterns to be processed collectively is stored in the characteristic storage unit 10. Here, the information representing the attribute of the feature represents a code representing the type of character and the order in the code. Further, each circuit described above does not necessarily have to be a dedicated logic circuit, and a microcomputer storing a processing procedure may be used.

特徴記憶部10に貯えられた特徴パターンは後述する階
層クラスタ作成装置11に取り出され、順次クラスタリ
ングの処理が施される。特徴記憶部10に貯えられた全
特徴パターンに対する処理が終了すると、第4図に示し
た階層的なデータ構造を階層構造記憶部12に送出す
る。次に、後述する標準パターン作成装置13は、階層
構造記憶部の情報に従つて、第4図に示した各ノードに
対応する標準パターンを特徴記憶部10の特徴から合成
する。順次、合成された標準パターンは標準パターン記
憶部14に送出され、蓄積される。ただし、標準パター
ン記憶部14の記憶容量を削減する観点に立つて、標準
パターンを作成するノードを間引いても差しつかえな
い。かくして、一括処理による標準パターンが構築され
る。この様にして構成された標準パターンを用いて、第
4図に示した階層木の上から順次、整合を取る分類方式
を採用すれば、少なくとも学習した文字に対しては、全
て正解となることは自明である。
The characteristic pattern stored in the characteristic storage unit 10 is taken out by the hierarchical cluster creation device 11 described later and sequentially subjected to clustering processing. When the processing for all the characteristic patterns stored in the characteristic storage unit 10 is completed, the hierarchical data structure shown in FIG. 4 is sent to the hierarchical structure storage unit 12. Next, the standard pattern creation device 13 described later synthesizes the standard pattern corresponding to each node shown in FIG. 4 from the features of the feature storage unit 10 according to the information of the hierarchical structure storage unit. The synthesized standard patterns are sequentially sent to the standard pattern storage unit 14 and stored therein. However, from the viewpoint of reducing the storage capacity of the standard pattern storage unit 14, it is acceptable to thin out the nodes that create standard patterns. In this way, the standard pattern by batch processing is constructed. By using the standard pattern configured in this way and adopting a classification method that sequentially matches from the top of the hierarchical tree shown in FIG. 4, at least all learned characters will be correct. Is self-evident.

次に、逐次処理による標準パターンの修正法を説明す
る。あらかじめ学習した入力文字に対しては必ず正解に
分類し得ることは明らかであるが、未学習の入力文字に
対しては、この限りではない。したがつて、未学習の入
力文字を学習する必要性が生じることになる。一方、一
括処理による標準パターンを構成する方式は、全ての入
力に対して階層的クラスタリングを施し、階層木の各ノ
ード毎に標準パターンを作成しなければならない。この
様な膨大な処理を未学習文字が入力される毎に実行する
ことは実用的見地に立つと望ましくない。そこで、学習
した文字に対して、全て正解になるという特性を損なう
ことなく、局所的なクラスタリングを実行することによ
り、わずかな処理量で標準パターンを修正する方法が逐
次学習による標準パターンの修正法であり、本発明の主
眼の一つである。
Next, a method of correcting a standard pattern by sequential processing will be described. It is obvious that input characters learned in advance can be classified as correct answers, but this is not the case with unlearned input characters. Therefore, it becomes necessary to learn unlearned input characters. On the other hand, in the method of constructing a standard pattern by batch processing, hierarchical input must be applied to all inputs to create a standard pattern for each node of the hierarchical tree. It is not desirable from a practical point of view to execute such a huge amount of processing each time an unlearned character is input. Therefore, a method of correcting the standard pattern with a small amount of processing by performing local clustering without impairing the property that all learned characters are correct answers is a standard pattern correction method by sequential learning. That is one of the main points of the present invention.

逐次学習の手順を第8図に従つて説明する。The sequential learning procedure will be described with reference to FIG.

帳票1は光電変換装置2によつて電気信号に変換され
る。この光電変換の像は走査制御回路3によつて走査を
受ける。この走査出力はしきい値回路4により2値化さ
れる。2値化された文字群は文字切り出し回路5に送ら
れ、一文字ずつ切り出される。切り出された文字は前処
理部6において雑音の除去、大きさの正規化等の処理が
施される。前処理が施された文字は特徴抽出部7におい
て、あらかじめ定められた特徴が抽出される。抽出され
た特徴はその属性を表わす情報と共に一文字記憶部8に
送られる。一文字記憶部8に送られた学習すべき未知入
力文字は、第4図に示した階層木中の、いずれのクラス
タに属するか検証するため、整合部15に転送される。
整合部15では、階層構造記憶部12に保持されている
階層木に従つて、標準パターン記憶部に貯えられた標準
パターンとの間で距離を求め、階層木の上から順次、同
一の層内で最も距離の小さなノードを選択してゆき、階
層木の最下層において、いずれのクラスタに属するか検
証する。次に判定部16で、未知入力文字が正しく分類
されたか否かを判定する。正しく分類されなかつた場合
は制御部17を介して階層クラスタ作成装置11に起動
が掛けられる。階層クラスタ作成装置11は階層構造記
憶部12から階層木を読み出し、未知入力文字を含む最
下層から数えて一層上のクラスタの特徴を特徴記憶部1
0から読み出し、クラスタリングを施す。部分クラスタ
の階層的クラスタリングが終了すると、階層構造記憶部
12に蓄積された階層木と比較する。未知入力文字が入
つたクラスタ以外に変化が生じなかつたら、処理を終了
する。変化が生じた場合は一層上のクラスタを含め同様
の処理を施し、変化が生じなくなるまで繰り返す。廻り
のクラスタに変化が生じなくなつたら、階層構造記憶部
12に新らたな階層木を書き込む。クラスタリング処理
が終了すると、制御部17を介して標準パターン作成装
置13に起動が掛けられる。標準パターン作成装置13
は、更新された階層構造記憶部12の情報に従つて、合
成すべき標準パターンを特徴記憶部10の特徴から作成
する。かくして、未知入力文字が正しく分類されなかつ
た場合の逐次学習が終了する。正しく分類された場合
も、クラスタの中心ベクトルが移動するので、正しく分
類されない処理と同様の処理を施す。ただし、前述の如
く正しく分類された場合は修正操作を施さないという変
形処理も可能である。
The form 1 is converted into an electric signal by the photoelectric conversion device 2. The photoelectric conversion image is scanned by the scanning control circuit 3. This scan output is binarized by the threshold circuit 4. The binarized character group is sent to the character cutting circuit 5 and is cut out character by character. The cut-out characters are subjected to processing such as noise removal and size normalization in the preprocessing unit 6. A predetermined feature is extracted from the feature extraction unit 7 for the preprocessed character. The extracted feature is sent to the one-character storage unit 8 together with the information indicating the attribute. The unknown input character to be learned sent to the one-character storage unit 8 is transferred to the matching unit 15 in order to verify which cluster in the hierarchical tree shown in FIG. 4 belongs.
The matching unit 15 obtains a distance from the standard pattern stored in the standard pattern storage unit according to the hierarchical tree held in the hierarchical structure storage unit 12, and sequentially in the same layer from the top of the hierarchical tree. Select the node with the smallest distance in and verify which cluster it belongs to at the bottom of the hierarchical tree. Next, the determination unit 16 determines whether or not the unknown input character is correctly classified. If it is not correctly classified, the hierarchical cluster creation device 11 is activated via the control unit 17. The hierarchical cluster creation device 11 reads a hierarchical tree from the hierarchical structure storage unit 12, and determines the characteristics of the cluster above the lowermost layer including the unknown input character as the characteristic storage unit 1.
Clustering is performed by reading from 0. When the hierarchical clustering of the partial clusters is completed, it is compared with the hierarchical tree accumulated in the hierarchical structure storage unit 12. If there is no change other than in the cluster containing the unknown input character, the process ends. When a change occurs, the same process is performed including the clusters on the higher level and the process is repeated until the change does not occur. When there is no change in the surrounding clusters, a new hierarchical tree is written in the hierarchical structure storage unit 12. When the clustering process is completed, the standard pattern creation device 13 is activated via the control unit 17. Standard pattern creation device 13
Creates a standard pattern to be synthesized from the features of the feature storage unit 10 according to the updated information in the hierarchical structure storage unit 12. Thus, the sequential learning when the unknown input character is not correctly classified is completed. Even if it is correctly classified, the center vector of the cluster moves, so the same process as the process of not being correctly classified is performed. However, a modification process in which no correction operation is performed when the classification is performed correctly as described above is also possible.

次に、分類装置について第8図を用いて説明する。帳票
1は光電変換装置2によつて電気信号に変換される。こ
の光電変換の像は走査制御回路3によつて走査を受け
る。この走査出力はしきい値回路4によつて2値化され
る。2値化された文字群は文字切り出し回路5に送ら
れ、一文字ずつ切り出される。切り出された文字は前処
理部6において雑音の除去、大きさの正規化等の処理が
施される。前処理が施された文字は特徴抽出部7におい
て、あらかじめ定められた特徴が抽出される。抽出され
た特徴は一文字記憶部8を介して整合部15に転送され
る。整合部15では、階層構造記憶部12に保持されて
いる階層木に従つて、標準パターン記憶部に貯えられた
標準パターンとの間で距離を求め、階層木の上から順
次、同一の層内で最も距離の小さなノードを選択し候補
を絞つてゆき、最下層のノードで最も距離の小さなカテ
ゴリを候補として、判定部16に送出する。判定部16
では、最下層のクラスタリングに用いた閾値を判定閾値
として用い、候補の距離が閾値以内であれば、正解と
し、逆に閾値よりも大きければリジエクトとする。ただ
し、判定部16において閾値を用いない方法あるいは複
数の候補を入力して相対閾値を用いる方法など考えられ
るが、いずれの方式を採用しても本発明の原理と関係が
ないので差しつかえない。
Next, the classification device will be described with reference to FIG. The form 1 is converted into an electric signal by the photoelectric conversion device 2. The photoelectric conversion image is scanned by the scanning control circuit 3. This scan output is binarized by the threshold circuit 4. The binarized character group is sent to the character cutting circuit 5 and is cut out character by character. The cut-out characters are subjected to processing such as noise removal and size normalization in the preprocessing unit 6. A predetermined feature is extracted from the feature extraction unit 7 for the preprocessed character. The extracted features are transferred to the matching unit 15 via the one-character storage unit 8. The matching unit 15 obtains a distance from the standard pattern stored in the standard pattern storage unit according to the hierarchical tree held in the hierarchical structure storage unit 12, and sequentially in the same layer from the top of the hierarchical tree. The node with the smallest distance is selected to narrow down the candidates, and the category with the smallest distance among the nodes in the lowest layer is sent to the determination unit 16. Judgment unit 16
Then, the threshold used for the clustering of the bottom layer is used as the determination threshold, and if the candidate distance is within the threshold, the correct answer is given, and conversely, if it is larger than the threshold, the reject is given. However, a method in which the threshold value is not used in the determination unit 16 or a method in which a plurality of candidates are input and the relative threshold value is used can be considered, but any method may be used because it has nothing to do with the principle of the present invention.

第9図は階層クラスタ作成装置の構成を示す系統図であ
る。レジスタ111は特徴記憶部10より特徴パターン
を1文字分ずつ取り込む。また、レジスタ112には、
レジスタ111に特徴パターンが一文字分取り込まれる
と、クラスタ・フアイル118にある各クラスタの中心
パターンを順調に取り込み距離計算回路113でレジス
タ111とレジスタ112の両特徴パターン間の距離を
求める。求まられた距離は、定められたしきい値と比較
するため、比較器114へ送られる。レジスタ115に
は、各層ごとに定めたしきい値がしきい値フアイル11
6より取り出され、保持されている。しきい値を変更す
るタイミングは、カウンター119により制御される。
カウンター119は特徴記憶部10より特徴パターンが
取り出される毎にカウントアツプし、所定のパターン数
だけカウントすると、レジスタ115のしきい値を変更
する。比較器114は、レジスタ115のしきい値と距
離計算回路113で求めた距離とを比較し、しきい値以
下ならば、レジスタ111に保持された特徴がレジスタ
112に保持されたクラスタに所属するとして、演算回
路117に対して、実行の指令を送出する。演算回路1
17は、比較器114の指令に基づき、レジスタ111
の特徴パターンを該当クラスタの構成数で除算し、レジ
スタ112に保持されているクラスタ中心との間で加算
し、新らたなクラスタ中心とする。かくして求まつた新
クラスタ中心をレジスタ111に保持されている特徴パ
ターンの属性と共に、クラスタ・フアイル118に転送
する。また、比較器114において、距離がしきい値以
上であるならばレジスタ111の特徴パターンは、レジ
スタ112のクラスタに所属しないものと判断され、ク
ラスタ・フアイル118からの別のクラスタ中心をレジ
スタ112に送出し、しきい値以下になるまで、この処
理を繰り返す。さらに、レジスタ111に保持されてい
る特徴パターンがクラスタ・フアイル118のいずれの
クラスタ中心にも捕らえられなかつた場合は、新らたに
クラスタ中心を新設する。すなわち、演算回路117
は、レジスタ111の特徴パターンを1で除算し、レジ
スタ112に保持されている0のパターンとの間で加算
し、クラスタ・フアイル118に転送する。
FIG. 9 is a system diagram showing the configuration of the hierarchical cluster creation device. The register 111 fetches the characteristic pattern for each character from the characteristic storage unit 10. In addition, in the register 112,
When the characteristic pattern for one character is fetched in the register 111, the central pattern of each cluster in the cluster file 118 is smoothly fetched and the distance calculation circuit 113 obtains the distance between the characteristic patterns of the register 111 and the register 112. The determined distance is sent to the comparator 114 for comparison with a predetermined threshold. The register 115 stores the threshold value determined for each layer in the threshold file 11.
It is taken out from 6 and held. The timing of changing the threshold value is controlled by the counter 119.
The counter 119 counts up each time a characteristic pattern is retrieved from the characteristic storage unit 10, and changes the threshold value of the register 115 after counting a predetermined number of patterns. The comparator 114 compares the threshold value of the register 115 with the distance calculated by the distance calculation circuit 113. If the threshold value is less than or equal to the threshold value, the feature held in the register 111 belongs to the cluster held in the register 112. As a result, an execution command is sent to the arithmetic circuit 117. Arithmetic circuit 1
17 is a register 111 based on a command from the comparator 114.
Is divided by the number of constituent clusters, and added to the cluster center held in the register 112 to obtain a new cluster center. The new cluster center thus obtained is transferred to the cluster file 118 together with the attribute of the characteristic pattern held in the register 111. Further, in the comparator 114, if the distance is equal to or larger than the threshold value, it is determined that the characteristic pattern of the register 111 does not belong to the cluster of the register 112, and another cluster center from the cluster file 118 is set in the register 112. It is sent out and this process is repeated until it becomes less than the threshold value. Further, when the feature pattern held in the register 111 is not captured in any cluster center of the cluster file 118, a new cluster center is newly established. That is, the arithmetic circuit 117
Divides the characteristic pattern of the register 111 by 1, adds it to the 0 pattern held in the register 112, and transfers it to the cluster file 118.

この処理をレジスタ111に全特徴パターンが入力され
るまで行なうと、クラスタ・フアイル118には各クラ
スタ中心と一層分のクラスタの構成表が作成される。一
層分の構成表が作成されると、レジスタ122を介し
て、階層構造記憶部12に転送される。この時、クラス
タ・フアイル118に保持されている各クラスタ中心を
標準パターンとして用いるため標準パターン記憶部14
(第8図)に転送しても差しつえない。一層分の処理が
終了すると、カウンター119が検知し、レジスタ11
5のしきい値が更新される。更新されたしきい値に基づ
いて、更に下段のクラスタリングが開始され、各クラス
タを構成する特徴パターンがすべて同一の字種になると
クラスタリングを完了する。
When this process is repeated until all the characteristic patterns are input to the register 111, a cluster configuration table of cluster centers and clusters for one layer is created in the cluster file 118. When the configuration table for one layer is created, it is transferred to the hierarchical structure storage unit 12 via the register 122. At this time, since the center of each cluster held in the cluster file 118 is used as a standard pattern, the standard pattern storage unit 14
It can be transferred to (Fig. 8). When the processing for one layer is completed, the counter 119 detects and the register 11
The threshold value of 5 is updated. Based on the updated threshold value, the clustering in the lower stage is started, and the clustering is completed when all the characteristic patterns forming each cluster have the same character type.

逐次学習の場合は、必要な部分階層木が階層クラスタ記
憶部12からレジスタ121に転送される。このレジス
タ121の情報に基づいて、特徴記憶部10から特徴パ
ターンが取り出され、上述と同様のクラスタリング処理
が施される。
In the case of sequential learning, the required partial hierarchical tree is transferred from the hierarchical cluster storage unit 12 to the register 121. Based on the information in the register 121, the characteristic pattern is extracted from the characteristic storage unit 10 and the same clustering process as described above is performed.

以上の制御は制御回路123で処理される。なお上記実
施例は、いわゆるシンプル法のアルゴリズムに基づいて
構成されたものであるが、他の方式に基づいたものでも
差しつえない。
The above control is processed by the control circuit 123. The above-mentioned embodiment is constructed based on a so-called simple method algorithm, but it may be based on another method.

第10図は標準パターン作成装置13の構成を示す系統
図である。レジスタ132は階層構造記憶部12より階
層木中の1クラスタの属性情報を取り出す。またレジス
タ131には、レジスタ132に1つのクラスタの情報
が取り込まれると、特徴記憶部10に格納されてる特徴
パターンとその属性情報を順々に取り込み、比較器13
3でレジスタ131と132の属性情報を比較する。レ
ジスタ131に保持されている属性情報がレジスタ13
2のクラスタと一致するとラツチ134を開き、レジス
タ131の特徴パターンを加算器136に送出する。加
算器136は入力された特徴パターンとレジスタ135
に保持されている結果を加算し、その結果をレジスタ1
35に格納する。カウンター137は、レジスタ132
に保持されているクラスタに所属する個数をカウント
し、レジスタ138で所定の文字数のカウントが終了す
ると、除算器139に個数を送出する。除算器139は
レジスタ135の加算結果とカウンター137の個数を
用い、クラスタの平均値を求め、レジスタ141を介し
て、標準パターン記憶部14に送出する。かくして階層
木のノードに対応する一標準パターンが求まる。この操
作をノード全部に対して行なうと標準パターン作成処理
は終了する。
FIG. 10 is a system diagram showing the configuration of the standard pattern creating device 13. The register 132 retrieves the attribute information of one cluster in the hierarchical tree from the hierarchical structure storage unit 12. Further, when the information of one cluster is fetched in the register 132, the register 131 sequentially fetches the feature patterns and their attribute information stored in the feature storage unit 10, and the comparator 13
At 3, the attribute information of the registers 131 and 132 is compared. The attribute information held in the register 131 is the register 13
When it matches the cluster of 2, the latch 134 is opened, and the characteristic pattern of the register 131 is sent to the adder 136. The adder 136 receives the input characteristic pattern and the register 135.
The results held in are added and the result is added to register 1
35. The counter 137 has a register 132
The number belonging to the cluster held in is counted, and when the counting of the predetermined number of characters is completed in the register 138, the number is sent to the divider 139. The divider 139 calculates the average value of the cluster using the addition result of the register 135 and the number of counters 137, and sends it to the standard pattern storage unit 14 via the register 141. Thus, one standard pattern corresponding to the node of the hierarchical tree is obtained. When this operation is performed for all the nodes, the standard pattern creating process ends.

以上、本発明の一実施例を説明したが、本発明はこの実
施例に限定されるものではないことは勿論である。ま
た、上述の説明では距離が最小になるカテゴリを認識す
る方式について述べたが、類似度が最大になるカテゴリ
を認識する方式でもよい。
Although one embodiment of the present invention has been described above, it goes without saying that the present invention is not limited to this embodiment. Further, in the above description, the method of recognizing the category having the smallest distance has been described, but the method of recognizing the category having the maximum similarity may be used.

本実施例によれば、誤読文字あるいは誤認識した音声を
局所的演算によつて学習することができるので、従来演
算量の制約で実用上不可能であつた逐次学習が可能とな
る。さらに、階層的パターンマツチング法に適している
ので、認識装置の速度を大幅に向上し得る効果がある。
According to the present embodiment, the misread character or the erroneously recognized voice can be learned by the local calculation, so that the sequential learning, which is practically impossible due to the limitation of the calculation amount, can be performed. Further, since it is suitable for the hierarchical pattern matching method, there is an effect that the speed of the recognition device can be greatly improved.

〔発明の効果〕〔The invention's effect〕

本発明によれば、誤読文字あるいは誤認識した音声を局
所的演算によつて学習することができるので、従来演算
量の制約で実用上不可能であつた逐次学習が可能とな
り、認識装置の分類性能の向上に大きく寄与できる。さ
らに、派生効果として、階層的パターン整合法を容易に
採用することができ、認識装置の速度向上に大きく寄与
できる。したがつて、本発明のような、学習・分類法を
用いれば、パターン認識とくに漢字および大語り音声の
認識に有用な装置が容易に実現できる。
According to the present invention, misread characters or erroneously recognized voices can be learned by a local calculation, so that it is possible to perform sequential learning which was not practically possible due to the restriction of the amount of calculation in the related art, and the recognition device classification It can greatly contribute to the improvement of performance. Further, as a derivative effect, the hierarchical pattern matching method can be easily adopted, which can greatly contribute to the speedup of the recognition device. Therefore, by using the learning / classifying method as in the present invention, a device useful for pattern recognition, particularly for recognizing Chinese characters and large narration speech, can be easily realized.

【図面の簡単な説明】[Brief description of drawings]

第1図及び第2図はクラスタリングの原理を示す図、第
3図は本発明による階層的クラスタリングの原理を説明
するための図、第4図は本発明による階層木表現の一例
を示す模式図、第5図は逐次学習前におけるパターンの
配置図とその階層木の模式図、第6図は逐次学習におい
て誤識別された場合の修正法を説明するための図、第7
図は逐次学習において正解となつた場合の修正法の説明
図、第8〜10図は本発明の一実施例の構成を示す系統
図である。 100,200,300…クラスタ、1…帳票、2…光
電変換装置、3…走査制御回路、4…しきい値回路、5
…文字切り出し回路、6…前処理部、7…特徴抽出部、
8…一文字記憶部、9…カウンター、10…特徴記憶
部、11…階層クラスタ作成装置、12…階層構造記憶
部、13…標準パターン作成装置、14…標準パターン
記憶部、15…整合部、16…判定部、17…制御部、
111,112,115,121,122…レジスタ、
113…距離計算回路、114…比較器、116…しき
い値フアイル、117…演算回路、118…クラスタ・
フアイル、119…カウンター、123…制御回路、1
31,132,135,141…レジスタ、133…比
較器、134…ラツチ、136…加算器、137,13
8…カウンター、139…除算器、142…制御回路。
1 and 2 are diagrams showing the principle of clustering, FIG. 3 is a diagram for explaining the principle of hierarchical clustering according to the present invention, and FIG. 4 is a schematic diagram showing an example of hierarchical tree representation according to the present invention. , FIG. 5 is a pattern layout diagram and a hierarchical tree diagram thereof before sequential learning, FIG. 6 is a diagram for explaining a correction method when misidentification is made in sequential learning, and FIG.
FIG. 8 is an explanatory diagram of a correction method when a correct answer is obtained in sequential learning, and FIGS. 8 to 10 are system diagrams showing the configuration of an embodiment of the present invention. 100, 200, 300 ... Cluster, 1 ... Form, 2 ... Photoelectric conversion device, 3 ... Scan control circuit, 4 ... Threshold circuit, 5
... character cutout circuit, 6 ... preprocessing unit, 7 ... feature extraction unit,
8 ... Single character storage unit, 9 ... Counter, 10 ... Feature storage unit, 11 ... Hierarchical cluster creation device, 12 ... Hierarchical structure storage unit, 13 ... Standard pattern creation device, 14 ... Standard pattern storage unit, 15 ... Matching unit, 16 ... judgment unit, 17 ... control unit,
111, 112, 115, 121, 122 ... Registers,
113 ... Distance calculation circuit, 114 ... Comparator, 116 ... Threshold file, 117 ... Arithmetic circuit, 118 ... Cluster
File, 119 ... Counter, 123 ... Control circuit, 1
31, 132, 135, 141 ... Registers, 133 ... Comparators, 134 ... Latches, 136 ... Adders, 137, 13
8 ... Counter, 139 ... Divider, 142 ... Control circuit.

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】入力パターンとパターン識別用辞書に蓄積
された標準パターンとの間の距離または類似度を求め、
求められた距離または類似度に従って上記入力パターン
の識別を行うパターン識別装置において、 サンプルパターンより特徴抽出を行なって特徴パターン
を抽出する手段と、 上記特徴パターンを蓄積する手段と、 蓄積した特徴パターンに対して、夫々の大きさのクラス
タで階層的クラスタリングを施し、その際に、少なくと
も、最下位の階層は1クラスタに属する特徴パターンが
単一のカテゴリで構成されるように、所定の大きさのク
ラスタでクラスタリングし、各階層のクラスタ構成を階
層構造で表現し、上記階層構造に従って各階層のクラス
タ構成に応じた標準パターンを作成する手段と、 上記各階層のクラスタ構成に応じた標準パターンを上記
パターン識別用辞書として蓄積する手段と、 上記各階層のクラスタ構成に応じて作成された標準パタ
ーンのうち、上位の階層のクラスタ構成に応じて作成さ
れた標準パターンから、上記入力パターンと標準パター
ンとの間の距離または類似度を順次求め、求められた距
離または類似度を評価して標準パターンの候補を絞り、
上記入力パターンの識別を行う手段と、 未知の入力パターンに対して、上記階層的クラスタリン
グが施された上記最下位の階層より上位の階層に対して
階層毎に上記未知の入力パターンの特徴パターンを加え
て順次再クラスタリングを施していき、上記再クラスタ
リングした結果、上記未知の入力パターンの特徴パター
ンの属するクラスタ以外のクラスタに変化が生じない階
層まで再クラスタリングを行ない、上記階層構造を変更
して上記各階層のクラスタ構成に応じた上記標準パター
ンを修正し、上記パターン識別用辞書としての蓄積手段
に蓄積する手段と、 を具備することを特徴とするパターン識別装置。
1. A distance or similarity between an input pattern and a standard pattern stored in a pattern identification dictionary is calculated,
In a pattern identification device for identifying the input pattern according to the obtained distance or similarity, a means for extracting a feature pattern by extracting a feature from a sample pattern, a means for accumulating the feature pattern, and a means for accumulating the feature pattern On the other hand, hierarchical clustering is performed on clusters of respective sizes, and at this time, at least the lowest hierarchy has a predetermined size so that the feature patterns belonging to one cluster are composed of a single category. The clustering is performed by clusters, the cluster configuration of each layer is represented by a layered structure, and means for creating a standard pattern according to the cluster configuration of each layer according to the layered structure and the standard pattern according to the cluster configuration of each layer are described above. A means for accumulating as a pattern identification dictionary and created according to the cluster configuration of each layer above. Among the standard patterns, the distance or similarity between the input pattern and the standard pattern is sequentially obtained from the standard patterns created according to the cluster structure of the upper layer, and the obtained distance or similarity is evaluated. To narrow down the standard pattern candidates,
A means for identifying the input pattern, and a feature pattern of the unknown input pattern for each layer with respect to a layer higher than the lowest layer subjected to the hierarchical clustering with respect to the unknown input pattern. In addition, re-clustering is sequentially performed, and as a result of the re-clustering, re-clustering is performed up to a hierarchy in which clusters other than the cluster to which the characteristic pattern of the unknown input pattern does not change, and the hierarchical structure is changed to A pattern discriminating apparatus comprising: a unit that corrects the standard pattern according to a cluster configuration of each layer and stores the standard pattern in a storage unit as the pattern identifying dictionary.
JP58234251A 1983-12-14 1983-12-14 Pattern identification device Expired - Lifetime JPH0638276B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58234251A JPH0638276B2 (en) 1983-12-14 1983-12-14 Pattern identification device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58234251A JPH0638276B2 (en) 1983-12-14 1983-12-14 Pattern identification device

Publications (2)

Publication Number Publication Date
JPS60126784A JPS60126784A (en) 1985-07-06
JPH0638276B2 true JPH0638276B2 (en) 1994-05-18

Family

ID=16968038

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58234251A Expired - Lifetime JPH0638276B2 (en) 1983-12-14 1983-12-14 Pattern identification device

Country Status (1)

Country Link
JP (1) JPH0638276B2 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63263590A (en) * 1987-04-21 1988-10-31 Fujitsu Ltd Character recognizing system
JPH07111731B2 (en) * 1987-05-22 1995-11-29 富士通株式会社 Character recognition method
JPH07111732B2 (en) * 1987-07-31 1995-11-29 松下電器産業株式会社 Dictionary creation device for character and figure recognition
DE69333811T2 (en) * 1992-06-19 2006-05-11 United Parcel Service Of America, Inc. Method and device for generating and adjusting a neuron
US5438629A (en) * 1992-06-19 1995-08-01 United Parcel Service Of America, Inc. Method and apparatus for input classification using non-spherical neurons
JP2004272350A (en) * 2003-03-05 2004-09-30 Nec Corp Clustering system, clustering method and clustering program

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58105387A (en) * 1981-12-17 1983-06-23 Nec Corp Character recognizing method

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58105387A (en) * 1981-12-17 1983-06-23 Nec Corp Character recognizing method

Also Published As

Publication number Publication date
JPS60126784A (en) 1985-07-06

Similar Documents

Publication Publication Date Title
US9910829B2 (en) Automatic document separation
KR100248917B1 (en) Pattern recognizing apparatus and method
US4989258A (en) Character recognition apparatus
US4903312A (en) Character recognition with variable subdivisions of a character region
US4491960A (en) Handprinted symbol recognition system
US5005205A (en) Handwriting recognition employing pairwise discriminant measures
WO2015146113A1 (en) Identification dictionary learning system, identification dictionary learning method, and recording medium
Behnke et al. Competitive neural trees for pattern classification
CN109635796B (en) Questionnaire recognition method, device and equipment
JPH11203415A (en) Device and method for preparing similar pattern category discrimination dictionary
CN115203408A (en) Intelligent labeling method for multi-modal test data
JP4802176B2 (en) Pattern recognition apparatus, pattern recognition program, and pattern recognition method
JP3917349B2 (en) Retrieval device and method for retrieving information using character recognition result
JPH0638276B2 (en) Pattern identification device
JP3313272B2 (en) Address reading method and identification function weight vector generation method
JP3095069B2 (en) Character recognition device, learning method, and recording medium storing character recognition program
JP2007179413A (en) Pattern recognition device, pattern recognition method, and method for generating characteristic extraction parameter
JPH07160822A (en) Pattern recognizing method
RU2582064C1 (en) Methods and systems for effective automatic recognition of symbols using forest solutions
Pornpanomchai et al. Printed Thai character recognition by genetic algorithm
JP4852086B2 (en) Pattern recognition device
Mehta et al. Optical music notes recognition for printed piano music score sheet
JP3925011B2 (en) Pattern recognition apparatus and recognition method
JP3374793B2 (en) High-speed recognition search system, method for speeding up recognition search used therefor, and recording medium storing control program therefor
Xamxidin et al. Off Line Handwritten Signature Verification Based on Feature Fusion