JPH1153474A - Character string recognizing method - Google Patents

Character string recognizing method

Info

Publication number
JPH1153474A
JPH1153474A JP9213136A JP21313697A JPH1153474A JP H1153474 A JPH1153474 A JP H1153474A JP 9213136 A JP9213136 A JP 9213136A JP 21313697 A JP21313697 A JP 21313697A JP H1153474 A JPH1153474 A JP H1153474A
Authority
JP
Japan
Prior art keywords
character
matrix
characters
candidate
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP9213136A
Other languages
Japanese (ja)
Inventor
Takayoshi Yoshida
隆義 吉田
Koichi Higuchi
浩一 樋口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP9213136A priority Critical patent/JPH1153474A/en
Publication of JPH1153474A publication Critical patent/JPH1153474A/en
Withdrawn legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

PROBLEM TO BE SOLVED: To shorten a character recognition time, to make character recognition and word matching well-balanced, and to improve efficiency by dividing the whole character set into two partial character sets and storing them in a matrix dictionary. SOLUTION: In a 1st recognizing process, a character matching and discrimination part 25 performs matching against all characters which belong to the 1st partial character set in the matrix dictionary 26. A work matching and discrimination part 28 tries to determine all characters by a work matching process by using a 1st candidate character group which possibly includes errors as it is. In a 2nd recognizing process, a binary image obtained by cutting the patterns of characters which can not be determined again is inputted from an input terminal 21 and reexecution is performed up to the extraction of a feature matrix; and characters are matched and discriminated over the 1st partial character set and 2nd partial character set of the matrix dictionary 26, and a specific number of candidate characters put in order as a result are found and written so that corresponding parts of the candidate character group stored in a candidate character memory 27 are updated.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】この発明は、文書等の文字パ
タンを読み取る文字認識方法に関する。
The present invention relates to a character recognition method for reading a character pattern of a document or the like.

【0002】[0002]

【従来の技術】従来、この種の文字認識方法には上記文
献(A):特開昭57−23185「文字認識方式」に
開示されるものがあり、図4はその方法を用いた文字認
識装置の構成図である。入力端子1から文字パタンメモ
リ2に読み取るべき文字の文字パタンが二値画像として
入力される。文字枠分割部3は、入力文字パタンの外接
枠を検出し、その内部領域を水平及び垂直方向に各々一
定個数に分割する。図5(a)に入力文字パタンと文字
枠分割の例を示す。この例では7×7=49の升目のマ
トリクスに分割している。
2. Description of the Related Art A conventional character recognition method of this type is disclosed in the above-mentioned document (A): Japanese Patent Application Laid-Open No. Sho 57-23185, "Character Recognition Method". It is a block diagram of an apparatus. A character pattern of a character to be read is input from an input terminal 1 to a character pattern memory 2 as a binary image. The character frame dividing unit 3 detects a circumscribed frame of the input character pattern, and divides the internal region into a fixed number in each of the horizontal and vertical directions. FIG. 5A shows an example of an input character pattern and character frame division. In this example, the cells are divided into a matrix of 7 × 7 = 49 cells.

【0003】また、水平サブパタン抽出部4は入力文字
パタンから水平方向のストローク成分を抽出して水平サ
ブパタンを作成する。図5(b)に水平サブパタン(H
SP)を示す。同様に、垂直、左斜め、右斜めの各方向
についても、入力文字パタンからその方向のストローク
成分を抽出した図5(c)(d)(e)のようなサブパ
タンを作成する。
The horizontal sub-pattern extracting section 4 extracts horizontal stroke components from an input character pattern to create a horizontal sub-pattern. FIG. 5B shows a horizontal sub-pattern (H
SP). Similarly, for each of the vertical, diagonally left, and diagonally right directions, sub-patterns such as those shown in FIGS. 5C, 5D, and 5E are created by extracting the stroke components in the direction from the input character pattern.

【0004】特徴マトリクス抽出部8では、文字枠分割
部3で得られた分割点を使ってこれら4個のサブパタン
HSP、VSP、LSP、RSPを升目のマトリクスに
分割し、各升目の中のストロークの長さを数値化し、図
6に例示するような(a)水平マトリクスH、(b)垂
直マトリクスV、(c)左斜めマトリクスL、(d)右
斜めマトリクスRを求める。
The feature matrix extraction unit 8 divides these four sub-patterns HSP, VSP, LSP, and RSP into a matrix of squares using the division points obtained by the character frame division unit 3, and calculates strokes in each square. , The lengths of (a) horizontal matrix H, (b) vertical matrix V, (c) left diagonal matrix L, and (d) right diagonal matrix R as shown in FIG.

【0005】これらを併合した4×(7×7)要素のマ
トリクスは、それが何の文字か(カテゴリ)を識別し得
る特徴を表すので特徴マトリクスと呼ぶ。この特徴マト
リクスは、文字パタンを構成するストロークの方向、位
置、長さ等のカテゴリ特有の性質を表しているが、文字
の大きさ、線幅、字形の変動などは特徴マトリクスの値
に影響しないように変換されている。そのために、線幅
計算、マトリクスの非線形分割、ぼけ処理、正規化処理
などが含まれるが、これらの処理方法の説明は省略す
る。
A matrix of 4 × (7 × 7) elements obtained by merging these elements is called a feature matrix because it represents a feature that can identify what character (category) it is. This feature matrix expresses the characteristics peculiar to the category such as the direction, position, and length of the stroke constituting the character pattern, but the character size, line width, variation in the character shape, etc. do not affect the value of the feature matrix. Has been converted to For this purpose, line width calculation, non-linear division of a matrix, blur processing, normalization processing, and the like are included, but descriptions of these processing methods are omitted.

【0006】文字照合識別部9では、入力文字パタンか
ら得られた特徴マトリクスと、読み取り対象とする全文
字集合のカテゴリ(文字)単位にあらかじめ標準文字パ
タンから以上述べたのと同じ手順によって作成しマトリ
クス辞書10に格納した特徴マトリクス(以下これを標
準マトリクスと呼ぶ)との照合を行い、特徴マトリクス
と最も類似する標準マトリクスを持ったカテゴリを選び
出す。
The character collation / identification unit 9 creates a feature matrix obtained from an input character pattern and a standard character pattern for each category (character) of the entire character set to be read in the same procedure as described above. The feature matrix is collated with a feature matrix stored in the matrix dictionary 10 (hereinafter referred to as a standard matrix), and a category having a standard matrix most similar to the feature matrix is selected.

【0007】それには、特徴マトリクスと辞書メモリ内
の標準マトリクスとの間の距離を対応する要素の差の2
乗和(またはその平方根)によって評価し、この距離が
0に近いものから順位をつけて一定個数のカテゴリを候
補文字として選定し、それらの文字コードを出力端子1
1から出力する。
[0007] The distance between the feature matrix and the standard matrix in the dictionary memory is determined by the difference between the corresponding elements by two.
The distance is evaluated based on the sum of squares (or its square root), and a certain number of categories are selected as candidate characters by ranking the objects whose distances are close to 0.
Output from 1.

【0008】次に、図7は以上述べた文字認識方法と上
記文献(B):特開平1−205288「文字認識後処
理方法」に開示された文字認識後処理方法を組み合わせ
て用いた文字列認識装置の構成図である。この文字列認
識装置では、読み取り対象の入力文字列の文字パタンが
入力端子21から入力され、文字パタンメモリ22には1文
字分のみ記憶される。サブパタン抽出部23は図4の3か
ら7までのブロックを1つにまとめたものであり、図5
に示すようなサブパタンを抽出する。以後、特徴マトリ
クス抽出部24、文字照合識別部25、マトリクス辞書26と
で1文字の認識を前述した方法で行い、その結果とし
て、例えば第3位までの候補文字の文字名(文字コード
等)と類似度(距離等)と文字種(漢字、かな、記号等
の区別)のデータが得られ、候補文字メモリ27に記憶さ
れる。
Next, FIG. 7 shows a character string using a combination of the above-described character recognition method and the character recognition post-processing method disclosed in the above-mentioned document (B): Japanese Patent Laid-Open No. 1-205288 "Character post-processing method". It is a block diagram of a recognition device. In this character string recognition device, a character pattern of an input character string to be read is input from an input terminal 21, and only one character is stored in a character pattern memory 22. The sub-pattern extraction unit 23 combines the blocks 3 to 7 in FIG.
Extract the sub-patterns as shown in Thereafter, the recognition of one character is performed by the feature matrix extraction unit 24, the character collation identification unit 25, and the matrix dictionary 26 in the manner described above. As a result, for example, the character names (character codes and the like) of the candidate characters up to third place And data of similarity (distance, etc.) and character type (discrimination of kanji, kana, symbols, etc.) are obtained and stored in the candidate character memory 27.

【0009】図8はこの文字列認識装置を用いた従来の
文字列認識のフローチャートである。図8において、以
上の文字単位の認識処理(ステップS101)は、判定分
岐処理(ステップS102)で入力文字列中に区切り文字
(句読点等)が現れるまで繰り返される。ここでは、区
切り文字は容易に認識され一意に決定されるものとす
る。
FIG. 8 is a flowchart of a conventional character string recognition using this character string recognition device. In FIG. 8, the above-described recognition processing in units of characters (step S101) is repeated until a delimiter (such as a punctuation mark) appears in the input character string in the determination branch processing (step S102). Here, it is assumed that the delimiter is easily recognized and uniquely determined.

【0010】次に、単語照合識別部28は候補文字メモリ
27の候補文字群から、入力文字列を幾つかの照合領域に
分割する(図8ステップS103)。照合領域に分割する
のは、次の単語辞書との照合で、多数の無意味な単語候
補文字列が作成されるのを防ぐためである。図9は、1
つの入力文字列を例として、その候補文字の文字種デー
タから照合領域を求める従来の方法を説明している。
Next, the word collating and identifying section 28 stores a candidate character memory.
The input character string is divided into several matching regions from the 27 candidate character groups (step S103 in FIG. 8). The division into the collation regions is performed in order to prevent a large number of meaningless word candidate character strings from being created in the collation with the next word dictionary. FIG.
A conventional method of obtaining a collation area from character type data of a candidate character will be described using an example of one input character string.

【0011】それには、図10(a)に示すように、7
種類の文字種を8ビットの字種フラグの各ビット位置に
割り当て、同図(b)に示すように、各候補文字の文字
種データを字種フラグで表す。この例では、入力文字
「し」の1位候補文字「レ」がカタカナで20H,2位
の「し」がひらがなで10H、3位の左括弧印が記号で
02Hである。未知の入力文字「し」の字種フラグはそ
れらの論理和をとった32Hとする。こうして全ての未
知入力文字について図9のように字種フラグ(106)を
求める。
[0011] As shown in FIG.
The type of character type is assigned to each bit position of the 8-bit character type flag, and the character type data of each candidate character is represented by a character type flag as shown in FIG. In this example, the first-place candidate character “レ” of the input character “レ” is katakana 20H, the second place “shi” is hiragana 10H, and the third parenthesis mark is the symbol 02H. The character type flag of the unknown input character "shi" is set to 32H which is the logical sum of them. Thus, character type flags (106) are obtained for all unknown input characters as shown in FIG.

【0012】次に、文字位置P=1から順方向に字種フ
ラグを論理積によって累積していく。これを字種つなが
りフラグ(107)と呼び、どの字種が最初の文字位置か
ら連続しているかを示す。そして、この字種つながりフ
ラグが00Hになる位置まで進む。但し、00Hになっ
ても漢字(40H)からひらがな(10H)へ変化する
(可能性がある)場合は10Hに設定し直すという例外
を設けている。これは漢字とそれに続く平仮名を分離し
ないためである。続いて、字種つながりフラグが00H
になった文字位置(P=4)から逆方向に字種フラグを
例外無しで累積して行き(基準文字検索108)、このフ
ラグが00Hになる位置(P=3)を第1照合領域の終
了点とし、次の文字位置(P=4)を第2照合領域の開
始点とする。以下同様の処理手順により、3個の照合領
域が決定できる。
Next, from the character position P = 1, the character type flags are accumulated by logical AND in the forward direction. This is called a character type connection flag (107) and indicates which character type is continuous from the first character position. Then, the process proceeds to a position where the character type connection flag becomes 00H. However, there is an exception that if it changes (possibly) from Kanji (40H) to Hiragana (10H) even at 00H, it is reset to 10H. This is because the kanji and the following hiragana are not separated. Next, the character type connection flag is set to 00H.
From the character position (P = 4), the character type flag is accumulated in the reverse direction without exception (reference character search 108), and the position (P = 3) where this flag becomes 00H is set in the first collation area. The end point is set, and the next character position (P = 4) is set as the start point of the second collation area. Hereinafter, three matching regions can be determined by the same processing procedure.

【0013】以後は図8の処理(ステップS104)及び
処理(ステップS105)に示すように、求められた各照
合領域内で候補文字を組み合わせて単語候補文字列を選
定し、予め定めた単語辞書29と照合し、この照合結果に
より入力文字列の各文字を決定する。文字決定方法は、
図9の第1照合領域「文字を」を例にして図11に示
す。候補文字の組み合わせで構成される単語候補文字列
に対し、単語辞書から同図に示すような6個の単語が抽
出された場合を考える。これら6個の抽出単語の単語長
及び平均候補順位は同図の表に示すようなものとなる。
例えば「文字」の単語長は2であり、「文」と「字」は
候補順位が2と1であるから「文字」の平均候補順位は
1.5になる。単語長が最も長く、平均候補順位の小さい
単語から決定していけば、最初に「文字」が、次にその
残りの「を」が選ばれ全文字が決定する。
Thereafter, as shown in the processing (step S104) and the processing (step S105) of FIG. 8, candidate character strings are selected by combining candidate characters in each of the obtained matching regions, and a predetermined word dictionary is selected. The character string is compared with 29, and each character of the input character string is determined based on the result of the comparison. The character determination method is
FIG. 11 shows the first collation area “character” in FIG. 9 as an example. Let us consider a case where six words as shown in the figure are extracted from a word dictionary for a word candidate character string composed of combinations of candidate characters. The word lengths and average candidate ranks of these six extracted words are as shown in the table in FIG.
For example, the word length of “character” is 2, and the candidate ranks of “sentence” and “character” are 2 and 1, so the average candidate rank of “character” is
1.5. If the word length is the longest and the word is determined from the word having the lowest average candidate rank, "character" is selected first, and then the remaining "wo" is selected, and all characters are determined.

【0014】[0014]

【発明が解決しようとする課題】しかしながら、上記の
文字認識方法では、入力文字パタンから抽出された特徴
マトリクスをマトリクス辞書に格納された全てのカテゴ
リの標準マトリクスと照合するため、この照合識別のた
めの処理に長い時間を費やしていた。例えば、マトリク
ス辞書に3000文字の異なる漢字が登録されていた場合、
そこには通常の文章では滅多に出現しない文字が多数含
まれているにもかかわらず、出現可能性がゼロとは言え
ないという理由で、従来は辞書全体、すなわち3000個の
マトリクスと照合していた。
However, in the above character recognition method, the feature matrix extracted from the input character pattern is compared with the standard matrices of all the categories stored in the matrix dictionary. Was spending a long time processing. For example, if 3000 different Chinese characters are registered in the matrix dictionary,
In spite of the fact that it contains many characters that rarely appear in ordinary sentences, the probability of occurrence is not zero, so it is conventionally compared with the entire dictionary, that is, 3000 matrices Was.

【0015】また、上記の文字列認識方法では、その後
段で入力文字列の候補文字群を用いて照合領域を決定
し、その照合領域内で単語辞書との照合を行うことによ
り効率的に全文字を決定できるようになったが、前段の
特徴マトリクス照合による文字認識処理の負荷は依然と
して軽減されていないという処理間の不均衡の問題があ
った。
In the above-described character string recognition method, a collation area is determined in a subsequent stage by using a candidate character group of an input character string, and collation with a word dictionary is performed in the collation area, thereby efficiently performing the entire character string. Although the characters can be determined, there is a problem of imbalance between the processes that the load of the character recognition process based on the feature matrix matching in the previous stage has not been reduced yet.

【0016】本発明は、マトリクス照合による文字認識
時間を短縮し、文字認識と単語照合がバランスよく働
く、効率の良い文字列認識方法を提供することを目的と
する。
SUMMARY OF THE INVENTION It is an object of the present invention to provide an efficient character string recognition method in which character recognition time by matrix matching is reduced, and character recognition and word matching work in a well-balanced manner.

【0017】[0017]

【課題を解決するための手段】この目的を達成するため
に、請求項1に記載の発明では、入力文字列の各文字の
文字パタンより少なくとも水平、垂直を含むd方向(d
は2以上の定数)のストローク成分を抽出してd個のサ
ブパタンを求めるサブパタン抽出部と、前記文字パタン
の文字外接枠をM×Nの矩形領域(M,Nは定数)に分
割し、前記d個のサブパタンよりd個のM×Nマトリク
ス要素から成る特徴マトリクスを求めるマトリクス抽出
部と、前記特徴マトリクスをマトリクス辞書に格納され
た標準マトリクスと照合して文字を識別し各文字につき
1個以上の候補文字を選定する文字照合識別部と、前記
入力文字列の各文字の候補文字群から単語候補文字列を
作成し、単語辞書に格納された文字列と照合し、当該照
合結果により前記入力文字列の各文字を決定する単語照
合識別部とを備える文字列認識方法において、前記マト
リクス辞書の文字集合を出現頻度の高い文字からなる第
1の部分文字集合と出現頻度の低い文字からなる第2の
部分文字集合に分割して前記マトリクス辞書に予め格納
し、前記入力文字列の第1回目の認識処理においては、
前記文字照合識別部は各文字の特徴マトリクスを前記第
1の部分文字集合の全文字の標準マトリクスと照合して
第1回目の候補文字群を選定し、前記単語照合識別部が
当該第1回目の候補文字群を用いて単語候補文字列を作
成し、前記入力文字列の全文字を決定できた場合には当
該入力文字列の認識処理を終了し、前記入力文字列の中
に決定できない文字が存在する場合には、前記入力文字
列の第2回目の認識処理において、前記文字照合識別部
は前記決定できない文字の特徴マトリクスを前記第1お
よび第2の部分文字集合の全文字の標準マトリクスと照
合して第2回目の候補文字群を選定し、前記単語照合識
別部が当該第2回目の候補文字群を用いて単語候補文字
列を作成し、前記入力文字列の全文字を決定することを
特徴とする。
In order to achieve this object, according to the first aspect of the present invention, the d direction (d) including at least the horizontal and vertical directions from the character pattern of each character of the input character string.
A sub-pattern extraction unit that extracts d sub-patterns by extracting stroke components of 2 or more constants, and divides a character circumscribed frame of the character pattern into an M × N rectangular area (M and N are constants). a matrix extraction unit for obtaining a feature matrix composed of d M × N matrix elements from the d subpatterns; identifying the character by comparing the feature matrix with a standard matrix stored in a matrix dictionary; A character collating and identifying unit for selecting candidate characters, and a word candidate character string created from a candidate character group of each character of the input character string, and collated with a character string stored in a word dictionary. A character string recognition method comprising: a word collating and identifying unit that determines each character of the character string; wherein the character set of the matrix dictionary is a first partial character set composed of characters having a high frequency of appearance. In the first recognition processing of the input character string, the image data is divided into a second partial character set composed of characters having a low appearance frequency and stored in the matrix dictionary in advance.
The character collation / identification unit compares the feature matrix of each character with a standard matrix of all the characters in the first partial character set to select a first candidate character group. A word candidate character string is created using the candidate character group of the above, and if all the characters of the input character string can be determined, the recognition processing of the input character string is terminated, and the characters that cannot be determined in the input character string Exists, in the second recognition process of the input character string, the character collation / identification unit converts the feature matrix of the undecidable character into a standard matrix of all the characters in the first and second partial character sets. To select a second candidate character group, and the word collation / identification unit creates a word candidate character string using the second candidate character group, and determines all characters of the input character string. It is characterized by the following.

【0018】また、上記目的を達成するために、請求項
2に記載の発明では、前記入力文字列の第1回目の認識
処理において、前記文字照合識別部は各文字の特徴マト
リクスを前記第1の部分文字集合の全文字の標準マトリ
クスと類似度の閾値検査を伴う照合を行い、前記入力文
字列の中に当該閾値検査により候補文字を選定できない
文字が存在する場合には、当該文字の特徴マトリクスを
前記第1および第2の部分文字集合の全文字の標準マト
リクスと類似度の閾値検査を伴わずに照合し、前記第1
回目の候補文字群を選定することを特徴とする。
According to a second aspect of the present invention, in the first aspect of the present invention, in the first recognition processing of the input character string, the character collating and identifying section stores the characteristic matrix of each character in the first character string. Performs matching with a standard matrix of all the characters of the partial character set and a threshold test for similarity. If there is a character in the input character string for which a candidate character cannot be selected by the threshold test, the characteristics of the character Comparing the matrix with a standard matrix of all the characters of the first and second partial character sets without performing a similarity threshold check;
It is characterized in that a candidate character group for the second time is selected.

【0019】更に、上記目的を達成するために、請求項
3に記載の発明では、前記文字照合識別部はK個の同一
構成の照合識別回路(Kは定数)と文字照合制御部より
構成され、前記マトリクス辞書の文字集合を前記第1の
部分文字集合と第2の部分文字集合に分割して前記マト
リクス辞書に予め格納し、前記入力文字列の第1回目の
認識処理において、前記サブパタン抽出部及び前記マト
リクス抽出部は前記入力文字列のK文字単位に特徴マト
リクスを求めて前記K個の照合識別回路に分配し、前記
K個の照合識別回路は各々異なる特徴マトリクスを前記
第1の部分文字集合の全文字の標準マトリクスと並列に
照合して第1回目の候補文字群を選定することを特徴と
する。
Further, in order to achieve the above object, according to the third aspect of the present invention, the character collating and identifying section comprises K identical collating and identifying circuits (K is a constant) and a character collating control section. Dividing the character set of the matrix dictionary into the first partial character set and the second partial character set and storing them in the matrix dictionary in advance; and performing the sub-pattern extraction in the first recognition processing of the input character string. Unit and the matrix extraction unit obtain a feature matrix for each K character of the input character string and distribute the obtained feature matrices to the K matching identification circuits, wherein the K matching identification circuits respectively store different feature matrices in the first portion. A first candidate character group is selected by collating in parallel with a standard matrix of all characters in the character set.

【0020】[0020]

【発明の実施の形態】BEST MODE FOR CARRYING OUT THE INVENTION

[ 第1の実施例の説明 ] [ 構成の説明 ]本発明の第1の実施例の文字列認識
装置の構成は図7と同じである。また、マトリクス辞書
26の内容、すなわちカテゴリ毎の標準マトリクスの内容
も従来技術と変わらないが、本実施例では、文字集合全
体を2個の部分文字集合に分けてマトリクス辞書26に格
納している点に特徴がある。その内、第1の部分文字集
合には出現頻度の高い文字の標準マトリクスが、第2の
部分文字集合にはそれ以外の文字の標準マトリクスが予
め分けて記憶されている。ここでは、一般的な日本語の
文章を対象として文字単位での出現頻度あるいは出現確
率を考えている。
[Explanation of First Embodiment] [Explanation of Configuration] The configuration of the character string recognition device of the first embodiment of the present invention is the same as that of FIG. Also a matrix dictionary
Although the contents of the standard matrix for each category are the same as those of the conventional technology, the present embodiment is characterized in that the entire character set is divided into two partial character sets and stored in the matrix dictionary 26. is there. The first partial character set stores a standard matrix of characters having a high appearance frequency, and the second partial character set stores a standard matrix of other characters separately. Here, an appearance frequency or an appearance probability in character units is considered for a general Japanese sentence.

【0021】文字によって出現頻度に大きな差がある典
型的な例は漢字である。図12に漢字集合を出現頻度に
より2分割した例を示す。これはJIS第1水準漢字29
65字の中で、教育漢字1006字を(a)第1の部分文字集
合とし、それ以外の漢字1959字を(b)第2の部分文字
集合として分割したもので、前者の漢字個数は全体の約
3分の1であるが、一般文書におけるその出現頻度は、
文字単位で見ても集合で見ても、前者の方が後者よりは
るかに高い。
A typical example in which the appearance frequency differs greatly depending on the character is a kanji. FIG. 12 shows an example in which a kanji set is divided into two parts by appearance frequency. This is JIS Level 1 Kanji 29
Of the 65 characters, 1006 educational kanji characters were divided as (a) the first partial character set, and the other 1959 kanji characters were divided as (b) the second partial character set. , But its appearance frequency in general documents is
The former is much higher than the latter, both in terms of characters and in sets.

【0022】この出現頻度の偏りは非漢字(英字、数
字、かな、記号)にも多少は見られるが、漢字ほど顕著
ではない。特に、英字、数字、片仮名、平仮名は各々の
文字種の中では出現頻度に差が少なく、文字単位の出現
頻度が漢字のそれ以上であるから、上記の漢字に追加す
るなら、ほとんどは第1の部分文字集合に所属させるべ
きものとなる。従って、第2の部分文字集合は出現頻度
の少ない漢字と出現頻度の少ない記号や特殊文字とな
る。
Although the non-kanji characters (alphabetic characters, numbers, kana, and symbols) are slightly seen in the bias of the appearance frequency, they are not as remarkable as the kanji characters. In particular, alphabetic characters, numbers, katakana, and hiragana have a small difference in the appearance frequency among the respective character types, and the appearance frequency of each character is higher than that of the kanji. It should belong to the subcharacter set. Accordingly, the second partial character set is a kanji having a low appearance frequency and a symbol or a special character having a low appearance frequency.

【0023】一般に、第1の部分文字集合の文字個数が
辞書全体の文字個数のm分の1であるとし、標準的な文
章において第2の部分文字集合の文字の出現確率がp分
の1であるとすると、例えば m=3,p=30というよ
うな数値があてはまり、これらの値が大きいほど出現頻
度の偏りが大きいといえる。
In general, it is assumed that the number of characters in the first partial character set is 1 / m of the number of characters in the entire dictionary, and the appearance probability of the characters in the second partial character set in standard text is 1 / p. Then, numerical values such as m = 3 and p = 30 apply, and it can be said that the larger these values, the greater the bias in the appearance frequency.

【0024】[ 動作の説明 ]図7の文字列認識装置
は、本実施例では図1のフローチャートに従って動作す
る。処理ステップS111で、読み取り対象の入力文字列
の文字パタンを1文字づつ切り出してそれを図7の入力
端子21から入力する。入力文字単位に、サブパタン抽
出、特徴マトリクス抽出、文字照合識別が実行され、そ
の度に例えば第3位までの候補文字が候補文字メモリ27
に蓄積され、これを入力文字列の句読点などで区切られ
た位置(あるいは候補文字メモリ27が飽和した位置)ま
で行う(ステップS112)。以上を入力文字列の第1回
目の認識処理と称する。第1回目の認識処理(ステップ
S111)では、文字照合識別部25は、マトリクス辞書26
の内、第1の部分文字集合に属する全文字と照合する。
[Description of Operation] The character string recognition device of FIG. 7 operates according to the flowchart of FIG. 1 in the present embodiment. In processing step S111, the character pattern of the input character string to be read is cut out character by character and input from the input terminal 21 in FIG. Sub-pattern extraction, feature matrix extraction, and character collation identification are executed for each input character, and each time, for example, the candidate characters up to the third place are stored in the candidate character memory 27.
This is performed up to the position delimited by the punctuation of the input character string (or the position where the candidate character memory 27 is saturated) (step S112). The above is referred to as a first recognition process of the input character string. In the first recognition process (step S111), the character collating and identifying unit 25
Of all characters belonging to the first partial character set.

【0025】ここまでの段階では、第1の部分文字集合
の文字個数が全体のm分の1であれば、照合識別時間は
従来方法のm分の1になる。ただし、ここで得られた候
補文字は全て第1の部分文字集合に属する文字であっ
て、入力文字列にp個に1個の割合で第2の部分文字集
合の文字が含まれているとすれば、その文字については
正解の候補文字を含んでいないことになる。
At this stage, if the number of characters in the first partial character set is 1 / m of the whole, the collation identification time is 1 / m of the conventional method. However, all of the candidate characters obtained here are characters belonging to the first partial character set, and if the input character string contains characters of the second partial character set at a rate of one in p characters, Then, the character does not include the correct candidate character.

【0026】次に、単語照合識別部28はこの誤りを含ん
でいる可能性のある第1回目の候補文字群をそのまま用
いて、単語照合処理によって全文字を確定しようとす
る。その処理手順は従来技術で述べた方法と同じである
が、ここではこの処理を効率的に実行する方法を以下に
述べる。まず、入力文字列を複数の照合領域に分割する
には、全ての候補文字の字種フラグが必要となるので、
マトリクス辞書26はカテゴリ(文字)毎に標準マトリク
ス、文字コードのほかに、8ビットの字種フラグの形で
文字種データを記憶しているとする。これにより、文字
コードから文字種を判別し、字種フラグを作成する処理
が省略できる。そして、入力文字毎に複数の候補文字が
決まる度にそれらの全候補文字の字種フラグの論理和が
求まり、文字列方向への字種つながりフラグも求められ
る。
Next, the word collation / identification unit 28 attempts to determine all the characters by word collation processing using the first candidate character group possibly containing the error. Although the processing procedure is the same as the method described in the related art, a method for efficiently executing this processing will be described below. First, in order to divide an input character string into a plurality of matching regions, character type flags of all candidate characters are required.
It is assumed that the matrix dictionary 26 stores character type data in the form of an 8-bit character type flag in addition to a standard matrix and a character code for each category (character). Thus, the process of determining the character type from the character code and creating the character type flag can be omitted. Each time a plurality of candidate characters are determined for each input character, the logical sum of the character type flags of all the candidate characters is obtained, and a character type connection flag in the character string direction is also obtained.

【0027】この字種つながりフラグを使って照合領域
の切り出しを行う。図9の例では、文字位置P=4の
「照」の認識処理が終了した時点で、字種つながりフラ
グが00Hとなるので、逆方向への基準文字検索をすれ
ば第1照合領域「文字を」が確定する。同様に、文字位
置P=8の「力」の認識時点で字種つながりフラグが0
0Hとなり、逆方向検索で第2照合領域「照合し」が確
定し、文字位置P=11の「。」が区切り文字と認識され
た時点で第3照合領域「出力する」が確定する。以上の
ように、照合領域決定処理は、第1回目の文字認識処理
111と並行して実行できる。
The collation area is cut out using the character type connection flag. In the example of FIG. 9, the character type connection flag is set to 00H at the time when the recognition processing of “light” at the character position P = 4 is completed. Is determined. Similarly, the character type connection flag is set to 0 at the time of recognition of the "strength" at the character position P = 8.
It becomes 0H, the second collation area “collate” is determined by the backward search, and the third collation area “output” is determined when “.” At the character position P = 11 is recognized as a delimiter. As described above, the collation area determination processing is the first character recognition processing.
Can be executed in parallel with 111.

【0028】処理ステップS112で区切り文字が認識さ
れれば、処理ステップS113では照合領域分割結果を確
認すればよく、以後各照合領域について(ステップS11
4)、単語候補文字列の作成、単語辞書との照合、文字
の決定の処理を行う(ステップS115)。ここで、入力
文字列に第2の部分文字集合の文字が含まれていない場
合には、候補文字も正解文字も第1の部分文字集合の範
囲内であるから、どの照合領域のどの文字についても従
来方法と同様に全文字が決定できる。これは処理ステッ
プS116が常にYesの場合で、各照合領域に対する処理を
完了することになる。
If the delimiter character is recognized in the processing step S112, it is sufficient to confirm the collation area division result in the processing step S113, and thereafter, for each collation area (step S11).
4) A process of creating a word candidate character string, collating with a word dictionary, and determining a character is performed (step S115). Here, if the input character string does not include a character of the second partial character set, both candidate characters and correct characters are within the range of the first partial character set. All characters can be determined in the same manner as in the conventional method. This is a case where the processing step S116 is always Yes, and the processing for each collation area is completed.

【0029】次に、入力文字列に第2の部分文字集合の
文字が含まれている場合には、その候補文字は全て第1
の部分文字集合から選ばれているので誤りを含んでい
る。この誤りは、単語照合処理の結果、入力文字列の候
補文字群から構成される単語候補文字列が単語辞書29の
中に存在しなかった場合には、その文字は決定できない
ので、その誤りが検出されたものと判断する。これは処
理ステップS116がNoの場合で、その文字は第2の部分
文字集合に属する文字か、または第2の部分文字集合に
属する文字と同じ照合領域にあるため決定できない第1
の部分文字集合に属する文字と判断し、それらの文字に
ついて認識処理をやり直して新たな候補文字を選定す
る。
Next, if the input character string includes characters of the second partial character set, all of the candidate characters
Contains an error because it is selected from the sub-character set of. This error can be determined if the word matching process does not find a word candidate character string composed of candidate character groups of the input character string in the word dictionary 29, since the character cannot be determined. Judge that it is detected. This is a case where the processing step S116 is No, and the character cannot be determined because it belongs to the second partial character set or is in the same collation area as the character belonging to the second partial character set.
Are determined to belong to the partial character set, and a new candidate character is selected by performing recognition processing again on those characters.

【0030】これを第2回目の認識処理(ステップS11
7)と称する。この第2回目の認識処理を行う文字の標
準的な文章における割合をn分の1とすると、nは前述
したpより小さく、例えばn=10というような数値が
あてはまる。この場合、10文字に1文字の割合で第2
回目の認識処理を行うことになる。
This is referred to as a second recognition process (step S11).
7). Assuming that the ratio of the character to be subjected to the second recognition process in the standard sentence is 1 / n, n is smaller than the above-described p, and a numerical value such as n = 10 is applicable. In this case, the second of the characters
The second recognition process will be performed.

【0031】第2回目の認識処理ステップS117におい
ては、図7で入力端子21から改めてその決定できない文
字のパタンを切り出した二値画像を入力し、特徴マトリ
クスの抽出まで再実行し、今度はマトリクス辞書26の第
1の部分文字集合及び第2の部分文字集合の全体にわた
って文字の照合識別を行い、その結果の順位付けられた
所定個数の候補文字を求め、候補文字メモリ27に格納さ
れた候補文字群の該当個所を更新する形で書き込む。以
上は照合領域内の全ての未決定文字について繰り返され
る(ステップS118)。
In the second recognition processing step S117, a binary image obtained by cutting out the pattern of the character which cannot be determined again from the input terminal 21 in FIG. 7 is input, and the process is repeated until the feature matrix is extracted. Character collation identification is performed over the entire first partial character set and second partial character set of the dictionary 26, and a predetermined number of ranked candidate characters are obtained as a result. Write in the form of updating the corresponding part of the character group. The above is repeated for all undecided characters in the collation area (step S118).

【0032】その後、処理ステップS115に戻り、その
新たな候補文字の中に正解文字が含まれていれば、これ
を用いた単語候補文字列が単語辞書29の中に見出され、
未知文字が確定する。この場合、第2回目の候補文字群
を用いて照合領域分割(ステップS113)をやり直す必
要はなく、未決定文字を含む照合領域の中で、第2回目
の文字認識と単語照合をし直せば良い。それは、第1回
目の認識処理(ステップS111)で、第2部分文字集合
に属する漢字を非漢字と認識することがあっても、他の
候補文字に漢字が存在すれば、照合領域の判定を誤るこ
とは避けられるからである。従って、第1回目の候補文
字群を用いて照合領域は正しく求められたと考えてよ
い。
Thereafter, returning to the processing step S115, if the correct candidate character is included in the new candidate character, a word candidate character string using this is found in the word dictionary 29,
Unknown character is determined. In this case, there is no need to redo the collation area division (step S113) using the second candidate character group, and the second character recognition and word collation can be performed again in the collation area including the undecided character. good. In the first recognition processing (step S111), even if a kanji belonging to the second partial character set is recognized as a non-kanji, if a kanji exists in another candidate character, the determination of the collation area is performed. This is because mistakes can be avoided. Therefore, it can be considered that the collation area has been correctly obtained by using the first candidate character group.

【0033】また、第2回目の認識処理ステップS117
の後、第2回目の単語照合処理ステップS115を行った
結果、なお全文字が決定できない場合は、第2回目の第
1候補文字を解として出力するものとする。
The second recognition processing step S117
After that, if all the characters cannot be determined as a result of the second word collation processing step S115, the second first candidate character is output as a solution.

【0034】以上述べたことから、第1回目の認識処理
は従来技術のm分の1であり、第2回目の認識処理は従
来技術のn分の1となる。
As described above, the first recognition processing is 1 / m of the conventional technique, and the second recognition processing is 1 / n of the conventional technique.

【0035】[ 第2の実施例の説明 ] [ 構成の説明 ]本発明の第2の実施例の文字列認識
装置の構成も図7と同じである。また、マトリクス辞書
26の内容、すなわちカテゴリ毎の標準マトリクスの内容
も、また格納方法が2個の部分文字集合に分けて格納さ
れている点についても、第1の実施例と変わらない。第
1の実施例と異なるのは、マトリクス辞書26の第1の部
分文字集合の各カテゴリには類似度(距離)に関する閾
値が設定されていることである。この閾値は、入力文字
の特徴マトリクスとマトリクス辞書26の標準マトリクス
との間の特徴空間内での距離がこの閾値を越えた場合に
は、両マトリクスは明らかに異なるカテゴリ(文字)で
あると判定し得る値が設定されている。その場合には、
その標準マトリクスを持つマトリクス辞書26中の文字は
候補文字にはなり得ない。
[Explanation of Second Embodiment] [Explanation of Configuration] The configuration of a character string recognition apparatus according to a second embodiment of the present invention is the same as that of FIG. Also a matrix dictionary
The contents of 26, that is, the contents of the standard matrix for each category, and the point that the storage method is stored by being divided into two partial character sets are the same as those in the first embodiment. The difference from the first embodiment is that a threshold value regarding similarity (distance) is set for each category of the first partial character set of the matrix dictionary 26. If the distance in the feature space between the feature matrix of the input character and the standard matrix of the matrix dictionary 26 exceeds this threshold, it is determined that the two matrices are clearly different categories (characters). Are set. In that case,
Characters in the matrix dictionary 26 having the standard matrix cannot be candidate characters.

【0036】逆に、上記マトリクス間の距離が閾値を越
えない場合には、両マトリクスは同一カテゴリとは限ら
ないが、その標準マトリクスを持つマトリクス辞書26中
の文字は候補文字にはなり得る。このように、第1の部
分文字集合の全文字については、閾値検査ができるよう
になっている。しかし、閾値検査をしないで認識処理を
することもできる。
Conversely, if the distance between the above matrices does not exceed the threshold, both matrices are not necessarily of the same category, but the characters in the matrix dictionary 26 having the standard matrices can be candidate characters. As described above, the threshold check can be performed for all the characters in the first partial character set. However, the recognition process can be performed without performing the threshold test.

【0037】[ 動作の説明 ]図7の文字列認識装置
は、本実施例でも第1の実施例と全体的には同様の動作
をするが、第1回目の認識処理の部分が図2のフローチ
ャートに従って動作する。すなわち、第1回目の認識処
理ステップS121においては、入力文字列の1文字毎に
特徴マトリクスを求めて、それを第1の部分文字集合に
属する全ての文字の標準マトリクスと照合するが、マト
リクス間の距離が閾値を越えた場合には、その文字は候
補文字としないという点が第1の実施例と異なる。従っ
て、ある入力文字に対する候補文字が指定個数の3個以
下となったり、極端な場合には1個も得られないことも
ある。後者の場合には、処理ステップS122でNoとな
り、処理ステップS123において、その文字の認識処理
を第2の部分文字集合まで選定対象としてやり直し、新
たな候補文字を得るようにする。
[Explanation of Operation] The character string recognizing device shown in FIG. 7 operates in the same manner as the first embodiment as a whole in the present embodiment, but the first recognition processing portion is the same as that in FIG. It operates according to the flowchart. That is, in the first recognition processing step S121, a feature matrix is obtained for each character of the input character string and is compared with the standard matrix of all the characters belonging to the first partial character set. Is different from the first embodiment in that when the distance exceeds a threshold, the character is not considered as a candidate character. Therefore, the number of candidate characters for a certain input character may be three or less of the designated number, or in an extreme case, no single character may be obtained. In the latter case, the result is No in the processing step S122, and in the processing step S123, the character recognition processing is redone as a selection target up to the second partial character set, so that a new candidate character is obtained.

【0038】第1の部分文字集合の中に候補文字を持た
ない入力文字は第2の部分文字集合に含まれる文字と見
られるから、文字照合識別部25はその特徴マトリクスを
使って今度はマトリクス辞書26の第1の部分文字集合お
よび第2の部分文字集合を合わせた全体にわたって文字
の照合を実行する。第1の部分文字集合を含めて照合す
る理由は、第1と第2の部分文字集合を合わせた全体集
合からの候補文字を改めて順位づけて選定するためであ
る。この認識のやり直し処理では、候補文字の類似度を
閾値と比較して候補文字の個数を減らすこと(閾値検
査)はしない。その理由は、今度は候補文字の中に正解
が含まれているから従来方法と同じ認識処理をすればよ
いことと、第1の部分文字集合の中に正解があったがこ
れを処理121の閾値検査で誤って除外してしまった場合
に、今度はそれを候補文字として拾い上げる必要がある
からである。この場合、新たな候補文字の字種フラグを
用いて照合領域決定処理を進行させるものとする。
Since an input character having no candidate character in the first partial character set is regarded as a character included in the second partial character set, the character collation / identification unit 25 uses the feature matrix to Character matching is performed on the entire first partial character set and second partial character set of the dictionary 26. The reason why the collation including the first partial character set is performed is to select and select the candidate characters from the entire set obtained by combining the first and second partial character sets again. In this re-recognition process, the similarity of the candidate characters is not compared with a threshold to reduce the number of candidate characters (threshold check). This is because the correct answer is included in the candidate character, so that the same recognition processing as in the conventional method may be performed, and the correct answer was found in the first partial character set. This is because if a character is erroneously excluded by the threshold check, it must be picked up as a candidate character. In this case, it is assumed that the collation area determination processing proceeds using the character type flag of the new candidate character.

【0039】逆に、ある入力文字に対してマトリクス間
の距離が閾値を越えない候補文字になり得る文字がマト
リクス辞書中に少なくとも1個存在する場合(処理ステ
ップS122がYesの場合)には、その距離の小さいものか
ら一定個数(例えば最大3個)を候補文字として選定し
ているので、認識のやり直し処理ステップS123は実行
不要である。第2の部分文字集合の中に正解があった
が、それに類似した第1の部分文字集合の文字があった
ために誤った候補文字を選んだ場合には、単語照合の段
階でその誤りが検出されるので、第2回目の認識処理で
正解文字を拾い上げればよい。
Conversely, if there is at least one character in the matrix dictionary that can be a candidate character whose distance between the matrices does not exceed the threshold value for a certain input character (when processing step S122 is Yes), Since a fixed number (for example, a maximum of three) is selected as candidate characters from those having the shortest distance, it is unnecessary to execute the re-recognition processing step S123. If there is a correct answer in the second partial character set, but there is a similar character in the first partial character set and an incorrect candidate character is selected, the error is detected at the word matching stage. Therefore, the correct character may be picked up in the second recognition processing.

【0040】従って、以上の第1回目の認識処理の後
は、図1のフローチャートの処理ステップS113以降に
進み、照合領域毎に単語候補文字列の作成、単語辞書と
の照合、入力文字列の決定が行われるが、それでも決定
できない場合には、第1の実施例で述べたように、第2
回目の認識処理ステップS117を行った後に入力文字列
の最終決定が行われる。
Therefore, after the first recognition process described above, the process proceeds to the processing step S113 in the flowchart of FIG. 1 to create a word candidate character string for each collation area, collate with a word dictionary, and input character string. If a decision is made but still cannot be made, the second decision is made as described in the first embodiment.
After performing the second recognition processing step S117, the final determination of the input character string is performed.

【0041】[ 第3の実施例の説明 ] [ 構成の説明 ]図3は本発明の第3の実施例の文字
列認識装置の構成図であって、入力端子21、文字パタン
メモリ22、サブパタン抽出部23、特徴マトリクス抽出部
24、文字照合識別部25、マトリクス辞書26、候補文字メ
モリ27、単語照合識別部28、単語辞書29、出力端子30よ
り成る。文字照合識別部25は、K個の照合識別回路31、
及び文字照合制御部32より成る。Kは任意の整数とす
る。
[Explanation of Third Embodiment] [Explanation of Configuration] FIG. 3 is a diagram showing the configuration of a character string recognition apparatus according to a third embodiment of the present invention, which includes an input terminal 21, a character pattern memory 22, a sub-pattern. Extraction unit 23, feature matrix extraction unit
24, a character collation / identification unit 25, a matrix dictionary 26, a candidate character memory 27, a word collation / identification unit 28, a word dictionary 29, and an output terminal 30. The character collation identification section 25 includes K collation identification circuits 31,
And a character collation control unit 32. K is an arbitrary integer.

【0042】図7と異なるのは照合識別回路31がK個設
けられ、これらが並列に動作することである。文字照合
制御部32はその並列動作の制御を行うために、バス33を
通じてK個の照合識別回路31と接続され、アドレス線34
を通じて辞書26をアクセスする。
The difference from FIG. 7 is that K collation identification circuits 31 are provided, and these operate in parallel. The character collation control unit 32 is connected to the K collation identification circuits 31 via a bus 33 to control the parallel operation, and the address line 34
The dictionary 26 is accessed through.

【0043】マトリクス辞書26の内容とその格納方法は
第1の実施例と同じであり、マトリクス辞書26には読み
取り対象の全文字集合のカテゴリ毎の標準マトリクス
が、第1の実施例で述べたように、第1の部分文字集合
36及び第2の部分文字集合37に分割されて格納されてい
る。
The contents of the matrix dictionary 26 and the method of storing the same are the same as those in the first embodiment. The matrix dictionary 26 contains standard matrices for all categories of all character sets to be read as described in the first embodiment. As in the first sub-character set
36 and a second partial character set 37.

【0044】[ 動作の説明 ]図3の文字列認識装置
は、基本的には図1のフローチャートに従って動作する
が、第1回目の認識処理ステップS111及び第2回目の
認識処理ステップS117のマトリクス照合の部分におい
て、最大K文字づつ並列に認識処理する。
[Explanation of Operation] The character string recognition apparatus shown in FIG. 3 basically operates according to the flowchart shown in FIG. 1. However, the matrix recognition in the first recognition processing step S111 and the second recognition processing step S117 is performed. , The recognition processing is performed in parallel for a maximum of K characters.

【0045】入力端子21からは、読み取り対象文字列の
文字パタンが順次入力される。文字パタンメモリ22に1
文字分がロードされると、サブパタン抽出部23でサブパ
タンを求め、マトリクス抽出部24で特徴マトリクスを求
める。この特徴マトリクスはバス33を通じてK個の照合
識別回路31のいずれか1つに送られる。例えば1文字目
の特徴抽出結果は1番目の照合識別回路#1に送られ
る。
From the input terminal 21, the character pattern of the character string to be read is sequentially input. 1 in character pattern memory 22
When the characters are loaded, the sub-pattern extraction unit 23 obtains a sub-pattern, and the matrix extraction unit 24 obtains a feature matrix. This feature matrix is sent to any one of the K verification and identification circuits 31 via the bus 33. For example, the feature extraction result of the first character is sent to the first collation identification circuit # 1.

【0046】次に、2文字目の文字パタンが入力端子21
から入力され、文字パタンメモリ22にロードされると、
その特徴抽出処理が実行され、その結果の特徴マトリク
スがバス33を通じて2番目の照合識別回路#2に送られ
る。こうしてK個目の文字パタンの特徴抽出処理が完了
すると、K個の照合識別回路31は各々異なる入力文字の
特徴マトリクスを持ち、文字照合制御部32の制御に従っ
て照合識別処理を並列に実行する。
Next, the character pattern of the second character is input terminal 21
And loaded into the character pattern memory 22,
The feature extraction process is executed, and the resulting feature matrix is sent to the second verification / identification circuit # 2 via the bus 33. When the feature extraction processing of the K-th character pattern is completed in this way, the K matching identification circuits 31 have different input character feature matrices and execute the matching identification processing in parallel under the control of the character matching control unit 32.

【0047】ここで、第1回目の認識処理ステップS11
1では、個々の照合識別回路31は、マトリクス辞書26の
第1の部分文字集合36とのみ照合を行う。そこに含まれ
る全てのカテゴリの標準マトリクスについて、入力され
た特徴マトリクスとの距離を計算し、それらをソートし
て0に近いものから順位づけ、一定個数のカテゴリを選
定する。なお、並列処理においてアドレス線34は、第1
の部分文字集合36をアクセスするように制御され、マト
リクス辞書26から辞書データがデータ線35を通じてK個
の照合識別回路31に同時に読み込まれる。各照合識別回
路31では、入力文字に対してマトリクス辞書の第1の部
分文字集合の中から候補文字をそれぞれ一定個数(例え
ば3個)選定する。K個の照合識別処理の結果(例えば
3K個の候補文字)は、バス33より候補文字メモリ27に
転送される。
Here, the first recognition processing step S11
In 1, each collation identification circuit 31 performs collation only with the first partial character set 36 of the matrix dictionary 26. With respect to the standard matrices of all the categories included therein, the distances from the input feature matrix are calculated, and they are sorted and ranked from those closest to 0, and a certain number of categories are selected. In the parallel processing, the address line 34 is connected to the first
Is controlled so as to access the partial character set 36, and dictionary data is simultaneously read from the matrix dictionary 26 into the K matching identification circuits 31 through the data lines 35. Each collation identification circuit 31 selects a predetermined number (for example, three) of candidate characters from the first partial character set of the matrix dictionary for the input characters. The results of the K collation identification processes (for example, 3K candidate characters) are transferred from the bus 33 to the candidate character memory 27.

【0048】以上のK文字単位の認識処理を、入力文字
列の中に区切り文字が現れるまで行う(ステップS11
2)。第1回目の認識処理の後は、単語照合識別部28に
より照合領域単位に単語候補文字列の選定、単語辞書と
の照合、入力文字列の決定が行われるが、そこで決定で
きない場合には、第2回目の認識処理を行った後に最終
決定が行われる。この第2回目の認識処理ステップS11
7においてもK個の照合識別回路を用いて最大K文字並
列にマトリクス照合を行う。
The above-described K-character recognition processing is performed until a delimiter appears in the input character string (step S11).
2). After the first recognition process, the word matching / identifying unit 28 selects a word candidate character string, matches with a word dictionary, and determines an input character string for each matching area. The final decision is made after performing the second recognition process. This second recognition processing step S11
Also in 7, matrix matching is performed in parallel with a maximum of K characters using K matching identification circuits.

【0049】本実施例ではK個の文字を並列に処理する
ので、1文字あたりの平均処理時間はK分の1となり、
例えばK=4とすれば第1実施例の4分の1に短縮され
る。ただしこれはマトリクス辞書26を使う文字照合識
別のみの処理時間短縮であって、入力文字パタンの特徴
抽出処理時間や単語照合に係る処理時間は短縮されるわ
けではない。
In this embodiment, since K characters are processed in parallel, the average processing time per character is 1 / K.
For example, if K = 4, it is reduced to one fourth of that of the first embodiment. However, this is a reduction in processing time for only character collation identification using the matrix dictionary 26, and does not necessarily reduce processing time for feature extraction processing of input character patterns or processing time for word collation.

【0050】本発明は、文字の種類が多く文字間の出現
頻度に大きな差がある漢字仮名交じりの日本語文書の文
字列認識に用いて好適である。また、マトリクス辞書及
び単語辞書に高速大容量のダイナミックRAM等を使用
し、その他の部分を専用論理集積回路で構成すれば、小
規模で高性能の文字列認識装置を実現できる。
The present invention is suitable for use in character string recognition of Japanese documents containing kanji and kana with many types of characters and large differences in the appearance frequency between the characters. If a high-speed large-capacity dynamic RAM or the like is used for the matrix dictionary and the word dictionary, and the other parts are configured by a dedicated logic integrated circuit, a small-scale and high-performance character string recognition device can be realized.

【0051】[0051]

【発明の効果】第1の発明によれば、入力文字列の各文
字の文字パタンより少なくとも水平、垂直を含むd方向
の(dは2以上の定数)のストローク成分を抽出してd
個のサブパタンを求めるサブパタン抽出部と、前記文字
パタンの文字外接枠をM×Nの矩形領域(M,Nは定
数)に分割し、d個のサブパタンよりd個のM×Nマト
リクス要素から成る特徴マトリクスを求めるマトリクス
抽出部と、前記特徴マトリクスをマトリクス辞書に格納
された標準マトリクスと照合して文字を識別し各文字に
つき1個以上の候補文字を選定する文字照合識別部と、
入力文字列の各文字の候補文字群から単語候補文字列を
作成し、単語辞書に格納された文字列と照合し、当該照
合結果により前記入力文字列の各文字を決定する単語照
合識別部とを備える文字列認識方法において、前記マト
リクス辞書の文字集合を出現頻度の高い文字からなる第
1の部分文字集合と出現頻度の低い文字からなる第2の
部分文字集合に分割して前記マトリクス辞書に予め格納
し、入力文字列の第1回目の認識処理においては、文字
照合識別部は各文字の特徴マトリクスを第1の部分文字
集合の全文字の標準マトリクスと照合して第1回目の候
補文字群を選定し、単語照合識別部が当該第1回目の候
補文字群を用いて単語候補文字列を作成し、入力文字列
の全文字を決定できた場合には当該入力文字列の認識処
理を終了し、前記入力文字列の中に決定できない文字が
存在する場合には、入力文字列の第2回目の認識処理に
おいて、文字照合識別部は前記決定できない文字の特徴
マトリクスを第1および第2の部分文字集合の全文字の
標準マトリクスと照合して第2回目の候補文字群を選定
し、単語照合識別部が当該第2回目の候補文字群を用い
て単語候補文字列を作成し、前記入力文字列の全文字を
決定することを特徴とする方法であり、第1回目の認識
処理では、文章中では出現頻度が高く辞書中では文字個
数の少ない第1の部分文字集合とのみ照合を行い、その
認識結果から単語照合時点で誤りが検出された場合にの
み、第2回目の認識処理で、文字個数の多い第2の部分
文字集合を含めた辞書全体の照合を行うので、文字照合
識別時間が従来の(1/m)+(1/n)倍に短縮され
る。例えば、m=3、n=10ならば、0.43倍に短縮さ
れる。もちろん、文字照合識別以外の処理時間は短縮さ
れるわけではないが、単語照合領域を第1回目の文字照
合処理中に決定し、それを利用して単語照合処理を行い
効率的に文字列を決定しているので、上記時間短縮効果
を有効なものとしている。
According to the first aspect of the present invention, a stroke component in the d direction (d is a constant of 2 or more) including at least the horizontal and vertical directions is extracted from the character pattern of each character of the input character string, and d is extracted.
A sub-pattern extracting unit for obtaining the number of sub-patterns, and dividing the character circumscribed frame of the character pattern into M × N rectangular areas (M and N are constants), and comprising d M × N matrix elements from d sub-patterns A matrix extraction unit that obtains a feature matrix; a character matching identification unit that identifies the character by comparing the feature matrix with a standard matrix stored in a matrix dictionary and selects one or more candidate characters for each character;
A word matching identification unit that creates a word candidate character string from the candidate character group of each character of the input character string, compares the character string with a character string stored in a word dictionary, and determines each character of the input character string based on the matching result. In the character string recognition method, the character set of the matrix dictionary is divided into a first partial character set consisting of characters having a high frequency of appearance and a second partial character set consisting of characters having a low frequency of appearance. In the first recognition processing of the input character string stored in advance, the character collation / identification unit compares the feature matrix of each character with the standard matrix of all the characters in the first partial character set, and performs the first candidate character A group is selected, and the word collation / identification unit creates a word candidate character string by using the first candidate character group. If all the characters of the input character string can be determined, the input character string recognition processing is performed. Finished and said If there is a character that cannot be determined in the input character string, in the second recognition processing of the input character string, the character collation / identification unit converts the feature matrix of the character that cannot be determined into first and second partial character sets. , A second candidate character group is selected by comparing with the standard matrix of all the characters, and the word collation / identification unit creates a word candidate character string by using the second candidate character group. This method is characterized by determining all the characters. In the first recognition processing, only the first partial character set having a high appearance frequency in a sentence and a small number of characters in a dictionary is checked, and its recognition is performed. Only when an error is detected at the time of word matching from the result, the entire dictionary including the second partial character set with a large number of characters is compared in the second recognition process. (1 / m) + (1 / n ). For example, if m = 3 and n = 10, it is reduced to 0.43 times. Of course, the processing time other than the character collation identification is not shortened, but the word collation area is determined during the first character collation processing, and the word collation processing is performed by using the word collation area to efficiently generate the character string. Since the decision has been made, the above-mentioned effect of shortening the time is considered to be effective.

【0052】また、第2の発明によれば、入力文字列の
第1回目の認識処理において、文字照合識別部は各文字
の特徴マトリクスを第1の部分文字集合の全文字の標準
マトリクスと類似度の閾値検査を伴う照合を行い、入力
文字列の中に当該閾値検査により候補文字を選定できな
い文字が存在する場合には、当該文字の特徴マトリクス
を第1および第2の部分文字集合の全文字の標準マトリ
クスと類似度の閾値検査を伴わずに照合し、第1回目の
候補文字群を選定することを特徴とする方法であり、第
1回目の認識処理の段階で入力文字単位に候補文字選定
の誤りを検出し、認識のやり直し処理により正しい候補
文字を選定するので、第1の実施例におけるように、不
完全な第1回目の候補文字群を用いて単語候補文字列選
定処理、単語照合処理、そして第2回目の認識処理を行
うことを回避できる。従って第1の実施例より処理時間
が短縮される。また、第1回目の認識処理及び認識のや
り直し処理の中で誤りを検出できなくても、第2回目の
認識処理で検出されるので、第1の実施例と同じ結果を
短い処理時間で得られる。
According to the second invention, in the first recognition processing of the input character string, the character collation / identification unit sets the characteristic matrix of each character to be similar to the standard matrix of all the characters in the first partial character set. If a character with which a candidate character cannot be selected by the threshold check exists in the input character string, the feature matrix of the character is changed to a total of the first and second partial character sets. This method is characterized in that the character string is compared with a standard matrix of characters without performing a similarity threshold test, and a first candidate character group is selected. Since an error in character selection is detected and a correct candidate character is selected by re-recognition processing, a word candidate character string selection processing using an incomplete first candidate character group as in the first embodiment, Word matching Management, and it can be avoided by performing the second round of recognition. Therefore, the processing time is shorter than in the first embodiment. Further, even if an error cannot be detected in the first recognition process and the re-recognition process, the error is detected in the second recognition process, so that the same result as in the first embodiment can be obtained in a short processing time. Can be

【0053】更に第3の発明によれば、文字照合識別部
はK個の同一構成の照合識別回路と文字照合制御部より
構成され、マトリクス辞書の文字集合を前記第1の部分
文字集合と第2の部分文字集合に分割してマトリクス辞
書に予め格納し、入力文字列の第1回目の認識処理にお
いて、サブパタン抽出部及びマトリクス抽出部は入力文
字列のK文字単位に特徴マトリクスを求めてK個の照合
識別回路に分配し、K個の照合識別回路は各々異なる特
徴マトリクスを第1の部分文字集合の全文字の標準マト
リクスと並列に照合して第1回目の候補文字群を選定す
ることを特徴とする方法であるので、第1回目の文字認
識では第1部分文字集合についてのみ照合を行えばよ
く、第2回目の認識処理は入力文字列のごく一部につい
て照合を行えばよいので、文字認識で最も時間のかかる
照合識別処理時間を短縮でき、さらにK個の照合識別回
路を構えているので1文字当たり照合識別処理時間をK
分の1に短縮できる。前述したm、nを用いれば、従来
方法の(1/m+1/n)*1/Kとなる。このK個の
照合識別回路は一つのマトリクス辞書から共通のデータ
を同時に利用するので、K個の辞書を必要とせず、回路
構成も簡単である。
According to the third aspect of the present invention, the character collating / identifying unit is composed of K identical collating / identifying circuits and a character collating control unit, and the character set of the matrix dictionary is combined with the first partial character set. 2 and stored in a matrix dictionary in advance, and in the first recognition processing of the input character string, the sub-pattern extraction unit and the matrix extraction unit obtain a K-characteristic matrix for each K character of the input character string. Distributed to the collation identification circuits, and the K collation identification circuits collate different feature matrices in parallel with the standard matrix of all characters in the first partial character set to select a first candidate character group. In the first character recognition, only the first partial character set needs to be compared, and in the second recognition processing, only a part of the input character string needs to be compared. In the most time-consuming can be shortened collation identification processing time, further the K matching identifying a character per collation identification processing time since the are poised circuit K by the character recognition
It can be shortened by a factor of one. If m and n described above are used, (1 / m + 1 / n) * 1 / K of the conventional method is obtained. Since the K matching identification circuits simultaneously use common data from one matrix dictionary, K matching dictionaries are not required and the circuit configuration is simple.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1の実施例の文字列認識フローチャ
ートである。
FIG. 1 is a flowchart of character string recognition according to a first embodiment of the present invention.

【図2】本発明の第2の実施例の文字列認識フローチャ
ートである。
FIG. 2 is a flowchart of character string recognition according to a second embodiment of the present invention.

【図3】本発明の第3の実施例の文字列認識装置の構成
を示すブロック図である。
FIG. 3 is a block diagram illustrating a configuration of a character string recognition device according to a third embodiment of the present invention.

【図4】従来の文字認識装置の構成を示すブロック図で
ある。
FIG. 4 is a block diagram showing a configuration of a conventional character recognition device.

【図5】入力文字パタンとサブパタンの一例を示す図で
ある。
FIG. 5 is a diagram showing an example of an input character pattern and a sub pattern.

【図6】特徴マトリクスの一例を示す図である。FIG. 6 is a diagram illustrating an example of a feature matrix.

【図7】文字列認識装置の構成を示すブロック図であ
る。
FIG. 7 is a block diagram illustrating a configuration of a character string recognition device.

【図8】従来の文字列認識のフローチャートである。FIG. 8 is a flowchart of conventional character string recognition.

【図9】照合領域の求め方の説明図である。FIG. 9 is an explanatory diagram of a method of obtaining a matching area.

【図10】字種フラグの説明図である。FIG. 10 is an explanatory diagram of a character type flag.

【図11】単語照合の説明図である。FIG. 11 is an explanatory diagram of word matching.

【図12】マトリクス辞書の分割例を示す図である。FIG. 12 is a diagram showing an example of division of a matrix dictionary.

【符号の説明】[Explanation of symbols]

21 入力端子 22 文字パタンメモリ 23 サブパタン抽出部 24 特徴マトリクス抽出部 25 文字照合識別部 26 マトリクス辞書 27 候補文字メモリ 28 単語照合識別部 29 単語辞書 30 出力端子 Reference Signs List 21 input terminal 22 character pattern memory 23 sub-pattern extraction unit 24 feature matrix extraction unit 25 character collation identification unit 26 matrix dictionary 27 candidate character memory 28 word collation identification unit 29 word dictionary 30 output terminal

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】 入力文字列の各文字の文字パタンより少
なくとも水平、垂直を含むd方向(dは2以上の定数)
のストローク成分を抽出してd個のサブパタンを求める
サブパタン抽出部と、 前記文字パタンの文字外接枠をM×Nの矩形領域(M,
Nは定数)に分割し、前記d個のサブパタンよりd個の
M×Nマトリクス要素から成る特徴マトリクスを求める
マトリクス抽出部と、 前記特徴マトリクスをマトリクス辞書に格納された標準
マトリクスと照合して文字を識別し各文字につき1個以
上の候補文字を選定する文字照合識別部と、前記入力文
字列の各文字の候補文字群から単語候補文字列を作成
し、単語辞書に格納された文字列と照合し、当該照合結
果により前記入力文字列の各文字を決定する単語照合識
別部とを備える文字列認識方法において、 前記マトリクス辞書の文字集合を出現頻度の高い文字か
らなる第1の部分文字集合と出現頻度の低い文字からな
る第2の部分文字集合に分割して前記マトリクス辞書に
予め格納し、 前記入力文字列の第1回目の認識処理においては、前記
文字照合識別部は各文字の特徴マトリクスを前記第1の
部分文字集合の全文字の標準マトリクスと照合して第1
回目の候補文字群を選定し、 前記単語照合識別部が当該第1回目の候補文字群を用い
て単語候補文字列を作成し、前記入力文字列の全文字を
決定できた場合には当該入力文字列の認識処理を終了
し、 前記入力文字列の中に決定できない文字が存在する場合
には、前記入力文字列の第2回目の認識処理において、
前記文字照合識別部は前記決定できない文字の特徴マト
リクスを前記第1および第2の部分文字集合の全文字の
標準マトリクスと照合して第2回目の候補文字群を選定
し、前記単語照合識別部が当該第2回目の候補文字群を
用いて単語候補文字列を作成し、前記入力文字列の全文
字を決定することを特徴とする文字列認識方法。
1. A d direction including at least horizontal and vertical from a character pattern of each character of an input character string (d is a constant of 2 or more)
And a sub-pattern extraction unit for extracting d sub-patterns by extracting the stroke components of the character pattern, and defining a character circumscribed frame of the character pattern as an M × N rectangular area (M,
N is a constant), a matrix extraction unit that obtains a feature matrix composed of d M × N matrix elements from the d subpatterns, and compares the feature matrix with a standard matrix stored in a matrix dictionary to write characters. And a character collating and identifying unit for identifying one or more candidate characters for each character, a word candidate character string created from a candidate character group of each character of the input character string, and a character string stored in a word dictionary. And a word collating and identifying unit that collates and determines each character of the input character string based on the collation result. In the first recognition process of the input character string, the character string is divided into a second partial character set composed of characters having a low appearance frequency and stored in the matrix dictionary in advance. Serial character collating identification unit first against the entire character of the standard matrix of the first portion character set the feature matrix of each character
A second candidate character group is selected, and the word collation / identification unit creates a word candidate character string using the first candidate character group, and if all characters of the input character string can be determined, the input is performed. When the character string recognition processing is completed, and there is a character that cannot be determined in the input character string, in the second recognition processing of the input character string,
The character collation / identification unit compares the feature matrix of the undecidable character with a standard matrix of all characters in the first and second partial character sets to select a second candidate character group, A word candidate character string is created using the second candidate character group, and all characters of the input character string are determined.
【請求項2】 前記入力文字列の第1回目の認識処理に
おいて、前記文字照合識別部は各文字の特徴マトリクス
を前記第1の部分文字集合の全文字の標準マトリクスと
類似度の閾値検査を伴う照合を行い、前記入力文字列の
中に当該閾値検査により候補文字を選定できない文字が
存在する場合には、当該文字の特徴マトリクスを前記第
1および第2の部分文字集合の全文字の標準マトリクス
と類似度の閾値検査を伴わずに照合し、前記第1回目の
候補文字群を選定することを特徴とする請求項1に記載
の文字列認識方法。
2. In the first recognition processing of the input character string, the character collation / identification unit checks a characteristic matrix of each character with a standard matrix of all characters of the first partial character set and a threshold test for similarity. When there is a character whose candidate character cannot be selected by the threshold check in the input character string, the feature matrix of the character is set to the standard of all the characters in the first and second partial character sets. The character string recognition method according to claim 1, wherein the first candidate character group is selected by performing matching with a matrix without performing a threshold value check of similarity.
【請求項3】 前記文字照合識別部はK個の同一構成の
照合識別回路(Kは定数)と文字照合制御部より構成さ
れ、 前記マトリクス辞書の文字集合を前記第1の部分文字集
合と第2の部分文字集合に分割して前記マトリクス辞書
に予め格納し、 前記入力文字列の第1回目の認識処理において、前記サ
ブパタン抽出部及び前記マトリクス抽出部は前記入力文
字列のK文字単位に特徴マトリクスを求めて前記K個の
照合識別回路に分配し、前記K個の照合識別回路は各々
異なる特徴マトリクスを前記第1の部分文字集合の全文
字の標準マトリクスと並列に照合して第1回目の候補文
字群を選定することを特徴とする請求項1に記載の文字
列認識方法。
3. The character collation / identification unit is composed of K identical collation / identification circuits (K is a constant) and a character collation control unit, and the character set of the matrix dictionary is combined with the first partial character set and the first partial character set. 2 and is stored in the matrix dictionary in advance, and in the first recognition processing of the input character string, the sub-pattern extraction unit and the matrix extraction unit are characterized by a unit of K characters of the input character string. A matrix is obtained and distributed to the K number of matching / identifying circuits, and the K number of matching / identifying circuits collate different feature matrices in parallel with the standard matrix of all characters of the first partial character set in the first time. The character string recognition method according to claim 1, wherein a candidate character group is selected.
JP9213136A 1997-08-07 1997-08-07 Character string recognizing method Withdrawn JPH1153474A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9213136A JPH1153474A (en) 1997-08-07 1997-08-07 Character string recognizing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9213136A JPH1153474A (en) 1997-08-07 1997-08-07 Character string recognizing method

Publications (1)

Publication Number Publication Date
JPH1153474A true JPH1153474A (en) 1999-02-26

Family

ID=16634180

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9213136A Withdrawn JPH1153474A (en) 1997-08-07 1997-08-07 Character string recognizing method

Country Status (1)

Country Link
JP (1) JPH1153474A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010009440A (en) * 2008-06-30 2010-01-14 Fujitsu Frontech Ltd Character recognition program, character recognition apparatus, and character recognition method
CN102663454A (en) * 2012-04-18 2012-09-12 安徽科大讯飞信息科技股份有限公司 Method and device for evaluating character writing standard degree

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010009440A (en) * 2008-06-30 2010-01-14 Fujitsu Frontech Ltd Character recognition program, character recognition apparatus, and character recognition method
CN102663454A (en) * 2012-04-18 2012-09-12 安徽科大讯飞信息科技股份有限公司 Method and device for evaluating character writing standard degree

Similar Documents

Publication Publication Date Title
JP3077765B2 (en) System and method for reducing search range of lexical dictionary
US4685142A (en) Method and device for handwritten letter recognition
US6507678B2 (en) Apparatus and method for retrieving character string based on classification of character
Shi et al. Font recognition and contextual processing for more accurate text recognition
US8326040B2 (en) Combiner for improving handwriting recognition
US6978044B2 (en) Pattern string matching apparatus and pattern string matching method
US5621818A (en) Document recognition apparatus
Ataer et al. Retrieval of ottoman documents
Lehal et al. A shape based post processor for Gurmukhi OCR
JPH0682403B2 (en) Optical character reader
JPH11328317A (en) Method and device for correcting japanese character recognition error and recording medium with error correcting program recorded
JPH1153474A (en) Character string recognizing method
WO2000036530A1 (en) Searching method, searching device, and recorded medium
JP2000231559A (en) Information processor
El Yacoubi et al. Conjoined location and recognition of street names within a postal address delivery line
US6859556B2 (en) Word recognizing apparatus for dynamically generating feature amount of word and method thereof
Koga et al. Segmentation of Japanese handwritten characters using peripheral feature analysis
JP2003331214A (en) Character recognition error correction method, device and program
JP3115459B2 (en) Method of constructing and retrieving character recognition dictionary
JP3151866B2 (en) English character recognition method
Trenkle et al. Disambiguation and spelling correction for a neural network based character recognition system
KR940007933B1 (en) User independent type on-line korean character recognition method
JP2845463B2 (en) Pattern recognition device
JPH08180142A (en) Address reader
JPH03154985A (en) Maximum likelihood word recognizing system

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20041102