JPH10198761A - Character recognizing method and device therefor - Google Patents

Character recognizing method and device therefor

Info

Publication number
JPH10198761A
JPH10198761A JP9002402A JP240297A JPH10198761A JP H10198761 A JPH10198761 A JP H10198761A JP 9002402 A JP9002402 A JP 9002402A JP 240297 A JP240297 A JP 240297A JP H10198761 A JPH10198761 A JP H10198761A
Authority
JP
Japan
Prior art keywords
character
candidate
segment
character code
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP9002402A
Other languages
Japanese (ja)
Inventor
Hiroshi Sasaki
佐々木  寛
Hirohisa Goto
裕久 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP9002402A priority Critical patent/JPH10198761A/en
Publication of JPH10198761A publication Critical patent/JPH10198761A/en
Withdrawn legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

PROBLEM TO BE SOLVED: To recognize characters with high segmentation accuracy by checking the mutual connecting relation between the codes of candidate character patterns having the adjacent relation in character string patterns. SOLUTION: This device includes an image input part 10, a candidate character pattern extraction part 12, a character recognition part 14, a candidate path production part 16 and a best result selection part 18. The part 16 reads a 1st character code out of a character code memory 22 for an extracted 1st candidate character pattern. In the same way, a 2nd character code is read out for a 2nd candidate character pattern that is adjacent to the 1st one. If the connecting relation between the 1st and 2nd character codes satisfies the connection rule that is previously set, the 1st character code is recorded in a path memory. Thus, it's possible to judge whether or not the characters form a candidate path by checking the connecting relation between the character codes of the candidate character patterns which are adjacent to each other in a character string pattern.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】この発明は、手書き文字の文
字認識を行う方法および装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method and an apparatus for recognizing handwritten characters.

【0002】[0002]

【従来の技術】手書き文字は、標準文字と比較して、文
字間隔や文字形状の変化が大きいため、「一定間隔で文
字を切り出す」といった従来手法では十分な文字切出し
精度が得られず、従って、誤認識が生じてしまう。この
問題に対する解決策として、例えば、文献1「電子通信
学会研究会技報PRL84-13 pp67-76」、文献2「電子通信
学会論文誌 '86/9 Vol.J69-D No.9 pp1292-1301 」およ
び文献3「特開平4−160582」に開示の技術が提
案されている。
2. Description of the Related Art Handwritten characters have a large change in character spacing and character shape as compared with standard characters. Therefore, conventional methods such as "characters are cut out at regular intervals" cannot provide sufficient character cutout accuracy. However, erroneous recognition occurs. As a solution to this problem, for example, Reference 1 “Technical Report of the Institute of Electronics and Communication Engineers PRL84-13 pp67-76” and Reference 2 “Transactions of the Institute of Electronics and Communication Engineers '86 / 9 Vol.J69-D No.9 pp1292-1301 And Japanese Unexamined Patent Application Publication No. 4-160582.

【0003】文献1に開示の文字認識方法によれば、文
字列パタンから切出し候補の文字を抽出し、その認識結
果を利用して、最も文字らしい組合せとなるように最良
の切出し位置を選択する。しかし、この方法は、前処理
として候補文字パタンの正規化を行うため、パタンの図
形的特徴が失われてしまい、実際には複数の文字である
のに、1つの文字として、標準パタンと高い類似度で認
識されてしまう場合がある。このように、単に認識結果
を用いるだけでは、有効な文字切出し結果が得られな
い。
According to the character recognition method disclosed in Document 1, characters of extraction candidates are extracted from a character string pattern, and the best extraction position is selected so as to be the most character-like combination by using the recognition result. . However, in this method, since the candidate character pattern is normalized as preprocessing, the graphic characteristics of the pattern are lost. Even though there are actually a plurality of characters, one character has a high standard pattern. In some cases, recognition is performed based on the similarity. Thus, an effective character cut-out result cannot be obtained simply by using the recognition result.

【0004】これに対して、文献2に開示の文字認識方
法は、単語的および文法的(すなわち言語的)な連接性
を満足するような認識結果を、最良の切出し位置として
選択する方法である。つまり、候補文字パタンの文字認
識結果だけではなく、隣接する候補文字パタンの認識結
果との関連性が、言語的に強いものほど良い切出し方で
あるとしている。
On the other hand, the character recognition method disclosed in Document 2 is a method of selecting a recognition result satisfying linguistic and grammatical (that is, linguistic) connectivity as the best cutout position. . In other words, it is assumed that not only the character recognition result of the candidate character pattern but also the relevance with the recognition result of the adjacent candidate character pattern is better in a linguistic manner.

【0005】また、文献3に開示の文字認識方法は、図
形的特徴の連接性を導入した方法である。図形的な連接
性を導入すると、文字を切り出すための境界線が、なる
べく文字自体を横切らないような切出し方が、良い切出
し方として採用される。つまり、文字を切断し過ぎる切
出し位置は、最良の切出し位置として選択されなくな
る。
[0005] The character recognition method disclosed in Reference 3 is a method that introduces the continuity of graphic features. When a graphic connection is introduced, a method of cutting out such that a boundary line for cutting out a character does not cross the character itself as much as possible is adopted as a good cutting method. That is, a cutout position that cuts characters too much is not selected as the best cutout position.

【0006】[0006]

【発明が解決しようとする課題】しかしながら、上述し
た文献2に開示の文字認識方法は、認識対象の文字列パ
タンが1単語程度に短く、かつ、単語として複数通りの
可能性がある場合には、切出し分離エラーが避けられな
いといった問題がある。例えば、「動作」のように非常
に短い文字列パタンを認識する場合、「動作」と「重力
作」の両方が単語照合の結果ヒットしてしまい、どちら
が正解か判断できない。また、言語的連接性は、連接情
報の辞書が大きくなるほど、複合語を構成する基本単語
同士の連接情報は弱い制約情報となり、住所等に現れる
アパート名や号数に対して切出しが困難である。つま
り、アパート名等は、複合語や造語である場合が多く、
どのような単語も用いられる可能性があり、これら単語
の組合せに対しては、言語的連接情報の効果が皆無に等
しくなる。
However, the character recognition method disclosed in the above-mentioned document 2 is difficult when the character string pattern to be recognized is as short as about one word and there are a plurality of possible words. However, there is a problem that a cut-out separation error is inevitable. For example, when recognizing a very short character string pattern such as "action", both "action" and "gravity work" are hit as a result of word matching, and it is not possible to determine which is the correct answer. In addition, as for the linguistic concatenation, as the dictionary of concatenation information increases, the concatenation information between basic words constituting a compound word becomes weak constraint information, and it is difficult to cut out the apartment name and the number of issues appearing in the address etc. . In other words, apartment names are often compound words or coined words,
Any word may be used, and for these word combinations, the effect of the linguistic concatenation information is negligible.

【0007】また、上述した文献3に開示の文字認識方
法は、「小川」のような複数の部分に分離してしまう文
字からなる単語の場合、予想される切出し候補位置が、
縦棒と縦棒の間を通る位置、すなわち、ストロークを分
断しない位置にくるため、図形的な結合度を導入して
も、文字の切出しが困難である。
Further, in the character recognition method disclosed in the above-mentioned reference 3, in the case of a word composed of characters separated into a plurality of parts, such as "Ogawa", the expected extraction candidate position is
In order to come to a position passing between the vertical bars, that is, a position where the stroke is not divided, it is difficult to cut out the character even if a degree of graphic coupling is introduced.

【0008】以上をまとめると、 (1)複数の部分に分離する単語(「小川」など)、あ
るいは、短い文字列パタンを認識する場合には、言語情
報(文献2)と図形的結合性(文献3)を用いただけで
は、上述した理由により分離エラーが起きるので、切出
し精度が低下してしまい、誤認識が生じる。
To summarize the above: (1) When recognizing a word (such as “Ogawa”) separated into a plurality of parts or a short character string pattern, linguistic information (Reference 2) and graphic connectivity ( If only the reference 3) is used, a separation error occurs for the above-described reason, so that the cutout accuracy is reduced and erroneous recognition occurs.

【0009】(2)アパート名、番地、号数等の単語
は、言語的に制限がなく、このため、言語的組合せが非
常に多く、言語的連接性が非常に弱い単語列といえる。
このような場合、文献2で用いられている知識処理は機
能せず、切出し精度は低下する。
(2) Words such as an apartment name, an address, and a number are not linguistically limited, and therefore, can be said to be a word string having very many linguistic combinations and very weak linguistic connection.
In such a case, the knowledge processing used in Literature 2 does not function, and the extraction accuracy is reduced.

【0010】(3)住所文字列パタンにおいて、
「町」、「村」等の住所認識のキーとなる文字は、偏と
旁に分離しやすく、また、分離しても文字として成立し
てしまう文字であるから、図形的接続性(文献3)を考
慮するだけでは、分離・非分離の判別が困難である。こ
のため、切出し精度が低下する。
(3) In the address character string pattern,
Characters that are keys for address recognition such as “town” and “village” are characters that are easily separated side by side, and that are formed as characters even if separated, so that graphic connectivity (Reference 3) It is difficult to judge separation / non-separation only by considering ()). For this reason, the cutting accuracy is reduced.

【0011】従って、従来より、従来方法に比べ高い切
出し精度で認識可能な文字認識方法の出現と、この文字
認識方法に従って文字認識処理を行う文字認識装置の出
現とが望まれていた。
Therefore, there has been a demand for a character recognizing method capable of recognizing with higher extraction accuracy than the conventional method and a character recognizing apparatus for performing a character recognizing process according to the character recognizing method.

【0012】[0012]

【課題を解決するための手段】この発明の文字認識方法
によれば、(a)認識対象の文字列パタンから連続した
複数個の候補文字パタンを抽出すると共に、その位置情
報を座標メモリに記録するステップと、(b)前記抽出
した候補文字パタンを認識して適当数の文字コードを求
め、これら文字コードを文字コード用メモリに記録する
ステップと、(c)前記記録した位置情報に基づいて前
記記録した文字コードを配列させ、候補パスを作成する
ステップと、(d)前記作成した候補パスの中から、前
記認識の結果に基づき、最良パスを選択するステップと
を含む文字認識方法において、前記(c)ステップは、
(c1)前記抽出した候補文字パタンを第1候補文字パ
タンとして指定するステップと、(c2)前記第1候補
文字パタンに対して求めた前記文字コードを第1文字コ
ードとして前記文字コード用メモリから読み出すステッ
プと、(c3)前記記録した位置情報に基づいて、前記
第1候補文字パタンに隣接する候補文字パタンを第2候
補文字パタンとして指定するステップと、(c4)前記
第2候補文字パタンに対して求めた前記文字コードを第
2文字コードとして前記文字コード用メモリから読み出
すステップと、(c5)前記第1文字コードと前記第2
文字コードの連接関係が予め設定した連接規則を満たす
場合に、前記第1文字コードをパスメモリに記録するス
テップとを含み、前記(c1)ステップから(c5)ス
テップを繰り返し行うことにより前記パスメモリに記録
される文字コードの配列を前記候補パスとすることを特
徴とする。
According to the character recognition method of the present invention, (a) a plurality of consecutive candidate character patterns are extracted from a character string pattern to be recognized, and the position information is recorded in a coordinate memory. (B) recognizing the extracted candidate character pattern to determine an appropriate number of character codes, and recording these character codes in a character code memory; and (c) based on the recorded position information. A character recognition method comprising: arranging the recorded character codes to create a candidate path; and (d) selecting a best path from the created candidate paths based on the recognition result. The step (c) comprises:
(C1) designating the extracted candidate character pattern as a first candidate character pattern; and (c2) using the character code determined for the first candidate character pattern as a first character code from the character code memory. (C3) specifying a candidate character pattern adjacent to the first candidate character pattern as a second candidate character pattern based on the recorded position information; and (c4) specifying a second candidate character pattern as the second candidate character pattern. Reading from the character code memory the character code obtained as a second character code, and (c5) reading the first character code and the second character code.
Recording the first character code in a path memory when the connection relation of the character codes satisfies a predetermined connection rule. The step (c1) to the step (c5) are repeated to execute the path memory. The sequence of character codes recorded in the candidate path is set as the candidate path.

【0013】このように、文字列パタンにおいて隣接す
る関係を有した候補文字パタンの文字コードを、文字コ
ード用メモリからそれぞれ読み出して、互いの連接関係
を調べることにより、候補パスを構成する文字であるか
どうかを判断することができる。従って、連接規則を設
定すれば、文字列パタンの認識を従来より正確に行える
ようになる。ここで、上述した連接関係としては、例え
ば、文字種の関係や文字形状の関係等がある。そして、
連接規則として、「文字種が同一であること」という規
則を設定したときには、読み出した文字コードの文字種
が同一である場合に、連接規則が満たされることにな
る。
As described above, the character codes of the candidate character patterns having the adjacent relation in the character string pattern are read out from the character code memory, and the connection relation between them is examined. You can determine if there is. Therefore, if the connection rule is set, the character string pattern can be recognized more accurately than before. Here, the connection relation described above includes, for example, a relation between character types and a relation between character shapes. And
When the rule that “character types are the same” is set as the connection rule, the connection rule is satisfied when the read character codes have the same character type.

【0014】また、この発明の文字認識方法の実施に当
り、好ましくは、前記第1文字コードおよび前記第2文
字コードの各々の文字種が同一である連接関係のとき
に、前記連接規則が満たされるのが良い。
In the character recognition method according to the present invention, preferably, the connection rule is satisfied when the first character code and the second character code have the same connection type. Is good.

【0015】このように連接規則を設定すれば、同一文
字種の文字コードで構成されるような文字列パタンが認
識結果として出力される。この連接規則は、姓名等のよ
うに、同一の文字種で表される場合が多い文字列パタン
を認識する場合に有効である。
If the connection rule is set in this way, a character string pattern composed of character codes of the same character type is output as a recognition result. This concatenation rule is effective when recognizing a character string pattern that is often represented by the same character type, such as first and last names.

【0016】また、この発明の文字認識方法において、
好ましくは、前記第1文字コードが同形文字の分類に属
する文字コードであるのが良い。
In the character recognition method according to the present invention,
Preferably, the first character code is a character code belonging to the classification of homomorphic characters.

【0017】このように、この例は、第1文字コードと
第2文字コードとが同一文字種の文字コードであって、
さらに、第1文字コードが同形文字の分類に属する文字
コードである場合である。ここで、同形文字とは同一形
状の文字のことを指し、例えば、ハイフン「−」、長音
「ー」、漢数字「一」等の横棒文字のことであり、ま
た、数字「0」、英字「O」等の丸文字のことである。
さらに、数字「1」、英字「l」等の縦棒文字もこれに
当てはまる。例えば、通常は、横棒文字が読み出された
場合には、上述したハイフン「−」、長音「ー」、漢数
字「一」の内のどの文字コードも、同じ確率で文字列を
構成するものとして出力されてしまうため、誤認識とな
ってしまうケースが多い。これに対し、この発明の方法
によれば、隣接する文字コードと同一の文字種のものが
選ばれるようになっているから、誤認識が少なくなる。
Thus, in this example, the first character code and the second character code are character codes of the same character type,
Further, there is a case where the first character code is a character code belonging to the classification of homomorphic characters. Here, the homomorphic character refers to a character having the same shape, for example, a horizontal bar character such as a hyphen "-", a long sound "-", a Chinese numeral "1", and the like, and a numeral "0", It is a round character such as the letter "O".
In addition, vertical bar characters such as the numeral “1” and the alphabetical character “l” also apply to this. For example, normally, when a horizontal bar character is read, any of the character codes of the above-mentioned hyphen “−”, long sound “−”, and Chinese numeral “1” forms a character string with the same probability. In many cases, the data is output as a result, resulting in erroneous recognition. On the other hand, according to the method of the present invention, a character having the same character type as the adjacent character code is selected, so that erroneous recognition is reduced.

【0018】また、この発明の文字認識方法の実施に当
り、好ましくは、前記第1文字コードと前記第2文字コ
ードとが特定の組合せのときに、前記第2文字コードを
前記パスメモリから消去し、前記特定の組合せに対応す
る文字コードを前記第1文字コードの代りに前記パスメ
モリへ記録するのが良い。
In the character recognition method according to the present invention, preferably, when the first character code and the second character code have a specific combination, the second character code is deleted from the path memory. Preferably, a character code corresponding to the specific combination is recorded in the path memory instead of the first character code.

【0019】このように、この例では、文字列パタンに
おいて連続する位置関係にある2つの文字コードの両者
が、特定の文字コードである場合に、これら文字コード
の代りに、予め設定しておいた文字コードを、候補パス
を構成する文字としてパスメモリに記録する。従って、
認識対象の文字列パタンに多く含まれる文字であり、そ
の文字が、2つの部分に分離しやすく、かつ分離された
部分自体が文字として成り立つような場合には、上述し
た様に、この文字を特定の組合せに対応する文字コード
として予め設定しておくことにより、分離エラーを回避
でき、誤認識が起きにくくなる。
As described above, in this example, when two character codes having a continuous positional relationship in the character string pattern are specific character codes, they are set in advance instead of these character codes. The recorded character code is recorded in the path memory as a character constituting the candidate path. Therefore,
If the character is a character that is often included in the character string pattern to be recognized and that character is easily separated into two parts, and the separated part itself is a character, as described above, this character is By setting in advance a character code corresponding to a specific combination, a separation error can be avoided, and erroneous recognition hardly occurs.

【0020】例えば、前記特定の組合せは、前記第2文
字コードを「田」とし、前記第1文字コードを「丁」と
したときの組合せであり、この組合せに対応する文字コ
ードを「町」とした場合である。このように、「町」と
いう文字は、「田」と「丁」の文字に分離しやすく、従
って、この文字を含む文字列パタンは誤認識されやす
い。しかしながら、住所等の文字列パタンには、多く登
場する文字である。よって、上述したように、「田」と
「丁」という文字が順次に読み出された場合に、「田」
と「丁」をパスメモリに記録する代りに「町」を記録す
るので、正確な文字列パタンの認識ができるようにな
る。
For example, the specific combination is a combination in which the second character code is “ta” and the first character code is “cho”, and the character code corresponding to this combination is “machi”. Is the case. As described above, the character “machi” is easily separated into the characters “ta” and “cho”, and therefore, a character string pattern including this character is easily erroneously recognized. However, it is a character that frequently appears in a character string pattern such as an address. Therefore, as described above, when the characters “ta” and “cho” are sequentially read out,
Since "town" is recorded instead of "and" in the path memory, accurate character string patterns can be recognized.

【0021】また、上述した例に限られることなく、例
えば、前記特定の組合せは、前記第2文字コードを
「木」とし、前記第1文字コードを「寸」としたときの
組合せであり、この組合せに対応する文字コードを
「村」とした場合でもよい。この「村」という文字も、
住所を示す文字列パタンに多く登場する文字である。従
って、このような文字を予め登録しておけば、住所を正
確に認識させることが可能である。
Further, without being limited to the above-described example, for example, the specific combination is a combination when the second character code is “tree” and the first character code is “dimension”. The character code corresponding to this combination may be “village”. The word "village"
This is a character that often appears in a character string pattern indicating an address. Therefore, if such characters are registered in advance, the address can be accurately recognized.

【0022】次に、この発明の文字認識方法の実施に当
り、好ましくは、前記候補文字パタンの抽出は、(a
1)前記文字列パタンの黒ブロック領域をセグメントと
して抽出し、このセグメントの位置座標を前記座標メモ
リに記録するステップと、(a2)前記抽出したセグメ
ント同士を各々の位置座標に基づいて統合して新規セグ
メントを生成し、この新規セグメントの位置座標を前記
座標メモリに追記するステップとを以て行い、前記(a
1)ステップおよび(a2)ステップの実行により前記
座標メモリに記録された前記セグメントおよび新規セグ
メントの位置座標を、前記候補文字パタンの位置座標と
するのが良い。
Next, in carrying out the character recognition method of the present invention, preferably, the extraction of the candidate character pattern is performed by (a
1) extracting a black block area of the character string pattern as a segment and recording the position coordinates of this segment in the coordinate memory; and (a2) integrating the extracted segments based on their respective position coordinates. Generating a new segment and appending the position coordinates of the new segment to the coordinate memory.
It is preferable that the position coordinates of the segment and the new segment recorded in the coordinate memory by executing the steps 1) and (a2) are set as the position coordinates of the candidate character pattern.

【0023】ここで、上述の黒ブロック領域とは、認識
対象として読み取った文字列パタンを構成する文字パタ
ンに外接した矩形領域のことである。但し、この場合の
「文字パタン」は、意味を持つ1文字パタンである保証
はなく、偏の部分だけであるかもしれないし、また、旁
の部分だけであるかもしれない。上述したように、セグ
メントを抽出して、抽出した各セグメントを統合するこ
とにより新規セグメントを生成し、候補文字パタンを抽
出することができる。
Here, the above-mentioned black block area is a rectangular area circumscribing a character pattern constituting a character string pattern read as a recognition target. However, the "character pattern" in this case is not guaranteed to be a meaningful one-character pattern, and may be only a partial part or only a side part. As described above, a new segment can be generated by extracting segments and integrating the extracted segments, and a candidate character pattern can be extracted.

【0024】また、この発明の文字認識方法において、
好ましくは、前記新規セグメントの生成は、前記記録し
たセグメント#Sn(nは整数)の位置座標を、前記座
標メモリから読み出すステップと、前記セグメント#S
nとは別のセグメント#Sk(kは整数)の位置座標
を、前記座標メモリから読み出すステップと、セグメン
ト#Snおよびセグメント#Sk間の距離値Dnkを前記
読み出した各々の位置座標から求めるステップと、前記
文字列パタンの行高さLの定数e(eは正の実数)倍と
前記求めた距離値Dnkとを比較するステップと、この比
較の結果がDnk≦e・Lのときに、セグメント#Sn
と、セグメント#Skと、これらセグメント間のセグメ
ントとを統合して前記新規セグメントを生成するステッ
プとを以て行うのが良い。
In the character recognition method of the present invention,
Preferably, the generation of the new segment includes the steps of: reading out position coordinates of the recorded segment #Sn (n is an integer) from the coordinate memory;
determining position coordinates of another segment #Sk the n (k is an integer), a step of reading from the coordinate memory, the distance value D nk between segments #Sn and segment #Sk from position coordinates of each read the And a step of comparing a constant e (e is a positive real number) times the line height L of the character string pattern with the obtained distance value D nk. When the result of the comparison is D nk ≦ e · L And segment #Sn
And the step of integrating the segment #Sk with segments between these segments to generate the new segment.

【0025】このように、隣接するセグメント間の距離
値に基づいて、この距離値と行高さとを比較することに
より、セグメントの組を統合するか否かを判定すること
ができる。ここで、距離値は、画像上あるいは情報媒体
上におけるセグメント間の距離に比例した量であり、例
えば、各セグメントの始端位置同士を結び文字列方向に
平行な直線の長さとすればよい。また、行高さには、文
字列方向に垂直な方向の黒ブロック領域の長さの最大値
を用いる。こうすると、セグメント間の距離が、セグメ
ントの高さに比べて小さい場合に、これらセグメントを
統合するというふうに設定される。
As described above, by comparing the distance value with the row height based on the distance value between the adjacent segments, it is possible to determine whether or not to integrate the set of segments. Here, the distance value is an amount proportional to the distance between the segments on the image or the information medium, and may be, for example, a length of a straight line connecting the start end positions of the segments and being parallel to the character string direction. As the line height, the maximum value of the length of the black block area in the direction perpendicular to the character string direction is used. In this way, when the distance between the segments is smaller than the height of the segments, the segments are set to be integrated.

【0026】次に、この発明の文字認識装置によれば、
認識対象の文字列パタンを含む原画像を読み取り、この
原画像を格納する画像メモリを具えた画像入力部と、前
記文字列パタンから連続した複数個の候補文字パタンを
抽出すると共に、その位置情報を座標メモリに記録する
候補文字パタン抽出部と、前記抽出された候補文字パタ
ンを認識して適当数の文字コードを求め、これら文字コ
ードを文字コード用メモリに記録する文字認識部と、前
記記録された位置情報に基づいて前記記録された文字コ
ードを配列させ、候補パスを作成する候補パス作成部
と、前記作成された候補パスの中から、前記認識の結果
に基づき、最良パスを選択する最良結果選択部とを具え
る文字認識装置において、前記候補パス作成部は、前記
抽出された候補文字パタンを第1候補文字パタンとして
指定する第1指定部と、前記第1候補文字パタンに対し
て求められた前記文字コードを第1文字コードとして前
記文字コード用メモリから読み出す第1文字読出部と、
前記記録された位置情報に基づいて、前記第1候補文字
パタンに隣接する候補文字パタンを第2候補文字パタン
として指定する第2指定部と、前記第2候補文字パタン
に対して求められた前記文字コードを第2文字コードと
して前記文字コード用メモリから読み出す第2文字読出
部と、前記第1文字コードと前記第2文字コードの連接
関係が予め設定した連接規則を満たす場合に、前記第1
文字コードをパスメモリに記録する連接規則検査部とを
具えることを特徴とする。
Next, according to the character recognition device of the present invention,
It reads an original image including a character string pattern to be recognized, an image input unit having an image memory for storing the original image, and extracts a plurality of continuous candidate character patterns from the character string pattern, A candidate character pattern extraction unit that records the character code in a coordinate memory, a character recognition unit that recognizes the extracted candidate character pattern to determine an appropriate number of character codes, and records these character codes in a character code memory. Arranging the recorded character codes on the basis of the obtained position information to create a candidate path, and selecting a best path from the created candidate paths based on the recognition result. In the character recognition device including a best result selection unit, the candidate path creation unit is configured to specify the extracted candidate character pattern as a first candidate character pattern. A first character reading unit for reading the character code determined for the first candidate character pattern from the character code memory as the first character code,
A second specifying unit that specifies a candidate character pattern adjacent to the first candidate character pattern as a second candidate character pattern based on the recorded position information; and A second character reading unit that reads a character code from the character code memory as a second character code, and the first character code is connected to the first character code and the second character code when the connection relationship satisfies a predetermined connection rule.
A connection rule checking unit that records a character code in a path memory.

【0027】このように、この構成の文字認識装置は、
文字列パタンにおいて隣接する関係を有した候補文字パ
タンの文字コードを、文字コード用メモリからそれぞれ
読み出して、互いの連接関係を調べることにより、候補
パスを構成する文字であるかどうかを判断することがで
きる。従って、連接規則を設定すれば、文字列の認識を
従来に比べ正確に行えるようになる。
As described above, the character recognition device having this configuration has the following features.
Reading character codes of candidate character patterns having an adjacent relationship in a character string pattern from a character code memory, and examining a connection relationship therebetween to determine whether or not the character is a character constituting a candidate path. Can be. Therefore, if a connection rule is set, character strings can be recognized more accurately than in the past.

【0028】この発明の文字認識装置において、好まし
くは、前記第1文字コードおよび前記第2文字コードの
各々の文字種が同一である連接関係のときに、前記連接
規則が満たされるのが良い。
In the character recognition device according to the present invention, it is preferable that the connection rule is satisfied when the first character code and the second character code have the same connection type.

【0029】このように連接規則を設定すれば、同一文
字種の文字コードで構成されるような文字列が認識結果
として出力される。前述したように、この連接規則は、
姓名等のように、同一の文字種で表される場合が多い文
字列を認識する場合に有効である。
By setting the connection rule in this way, a character string composed of character codes of the same character type is output as a recognition result. As mentioned earlier, this association rule
This is effective when recognizing a character string often represented by the same character type, such as a first and last name.

【0030】また、この発明の文字認識装置において、
好ましくは、前記第1文字コードが同形文字の分類に属
する文字コードであるのが良い。
Further, in the character recognition device of the present invention,
Preferably, the first character code is a character code belonging to the classification of homomorphic characters.

【0031】このように、この構成例は、第1文字コー
ドと第2文字コードとが同一文字種の文字コードであっ
て、さらに、第1文字コードが同形文字の分類に属する
文字コードである場合である。同形文字には、前述した
ように、横棒文字や丸文字、あるいは、縦棒文字等があ
る。そして、例えば、通常は、横棒文字が読み出された
場合には、ハイフン「−」、長音「ー」、漢数字「一」
の内のどの文字コードも、同じ確率で文字列を構成する
ものとして出力されてしまうため、誤認識となってしま
うケースが多い。これに対し、この発明の装置によれ
ば、隣接する文字コードと同一の文字種のものが選ばれ
るようになっているから、誤認識が少なくなる。
As described above, in this configuration example, the first character code and the second character code are character codes of the same character type, and the first character code is a character code belonging to the classification of homomorphic characters. It is. As described above, the homomorphic characters include horizontal bar characters, round characters, vertical bar characters, and the like. Then, for example, normally, when a horizontal bar character is read, a hyphen "-", a long sound "-", and a Chinese numeral "one"
Are output as constituting a character string with the same probability, and therefore, there are many cases where erroneous recognition occurs. On the other hand, according to the apparatus of the present invention, a character having the same character type as the adjacent character code is selected, so that erroneous recognition is reduced.

【0032】また、この発明の文字認識装置において、
好ましくは、前記連接規則検査部は、前記第1文字コー
ドと前記第2文字コードとが特定の組合せのときに、前
記第2文字コードを前記パスメモリから消去し、前記特
定の組合せに対応する文字コードを前記第1文字コード
の代りに前記パスメモリへ記録する手段とするのが良
い。
In the character recognition device of the present invention,
Preferably, the connection rule checking unit deletes the second character code from the path memory when the first character code and the second character code have a specific combination, and corresponds to the specific combination. It is preferable that the character code is recorded in the path memory instead of the first character code.

【0033】このように、この例の連接規則検査部は、
文字列パタンにおいて連続する位置関係にある2つの文
字コードの両者が、特定の文字コードである場合に、こ
れら文字コードの代りに、予め設定しておいた文字コー
ドを、候補パスを構成する文字としてパスメモリに記録
する手段である。従って、認識対象の文字列パタンに多
く含まれる文字であり、その文字が、2つの部分に分離
しやすく、かつ分離された部分自体が文字として成り立
つような場合には、上述した様に、この文字を特定の組
合せに対応する文字コードとして予め設定しておくこと
により、分離エラーを回避でき、誤認識を起きにくくす
ることができる。
As described above, the connection rule checking unit of this example
When two character codes having a continuous positional relationship in the character string pattern are specific character codes, a character code set in advance is replaced with a character code that constitutes a candidate path instead of these character codes. Means for recording in the path memory. Therefore, if the character is a character that is often included in the character string pattern to be recognized, and the character is easily separated into two parts, and the separated part itself is a character, as described above, By preliminarily setting characters as character codes corresponding to specific combinations, separation errors can be avoided and erroneous recognition can be prevented.

【0034】例えば、前記特定の組合せは、前記第2文
字コードを「田」とし、前記第1文字コードを「丁」と
したときの組合せであり、この組合せに対応する文字コ
ードを「町」とした場合である。このように設定してお
けば、前述したように、住所を示す文字列パタンを正確
に認識することができるようになる。
For example, the specific combination is a combination when the second character code is “ta” and the first character code is “cho”, and the character code corresponding to this combination is “machi”. Is the case. With this setting, as described above, a character string pattern indicating an address can be accurately recognized.

【0035】また、上述した例に限られることなく、例
えば、前記特定の組合せは、前記第2文字コードを
「木」とし、前記第1文字コードを「寸」としたときの
組合せであり、この組合せに対応する文字コードを
「村」とした場合でもよい。このように設定しておけ
ば、前述と同様に、住所を示す文字列パタンを正確に認
識することができるようになる。
Further, without being limited to the above-described example, for example, the specific combination is a combination when the second character code is “tree” and the first character code is “dimension”. The character code corresponding to this combination may be “village”. With this setting, a character string pattern indicating an address can be accurately recognized as described above.

【0036】次に、この発明の文字認識装置において、
好ましくは、前記候補文字パタン抽出部は、前記文字列
パタンの黒ブロック領域をセグメントとして抽出し、こ
のセグメントの位置座標を前記座標メモリに記録するセ
グメント抽出部と、前記抽出されたセグメント同士を各
々の位置座標に基づいて統合して新規セグメントを生成
し、この新規セグメントの位置座標を前記座標メモリに
追記するセグメント統合部とを具え、前記座標メモリに
記録された位置座標を前記候補文字パタンの位置座標と
して抽出するのが良い。
Next, in the character recognition device of the present invention,
Preferably, the candidate character pattern extraction unit extracts a black block region of the character string pattern as a segment, and records a position coordinate of the segment in the coordinate memory, and separates the extracted segment from each other. And a segment integrating unit that adds the position coordinates of the new segment to the coordinate memory, based on the position coordinates of the candidate character pattern. It is better to extract as position coordinates.

【0037】このように、セグメントを抽出して、抽出
した各セグメントを統合することにより新規セグメント
を生成し、候補文字パタンを抽出することができる。
As described above, a new segment is generated by extracting a segment and integrating the extracted segments, and a candidate character pattern can be extracted.

【0038】また、上述の文字認識装置において、好ま
しくは、前記セグメント統合部は、前記記録されたセグ
メント#Sn(nは整数)の位置座標を、前記座標メモ
リから読み出す第1座標読出部と、前記セグメント#S
nとは別のセグメント#Sk(kは整数)の位置座標
を、前記座標メモリから読み出す第2座標読出部と、セ
グメント#Snおよびセグメント#Sk間の距離値Dnk
を前記読み出された各々の位置座標から求める距離値検
出部と、前記文字列パタンの行高さLの定数e(eは正
の実数)倍と前記求められた距離値Dnkとを比較する比
較部と、この比較の結果がDnk≦e・Lのときに、セグ
メント#Snと、セグメント#Skと、これらセグメン
ト間のセグメントとを統合して前記新規セグメントを生
成する生成部と、前記生成された新規セグメントの位置
情報を前記座標メモリに追加して記録する書込部とを具
えるのが良い。
In the above-described character recognition device, preferably, the segment integrating section includes a first coordinate reading section that reads out the position coordinates of the recorded segment #Sn (n is an integer) from the coordinate memory; The segment #S
a second coordinate reading unit for reading the position coordinates of a segment #Sk (k is an integer) different from n from the coordinate memory; and a distance value D nk between the segment #Sn and the segment #Sk.
Is compared with the distance value detection unit that obtains from the read position coordinates, a constant e (e is a positive real number) times the line height L of the character string pattern, and the calculated distance value Dnk. And a generating unit that integrates the segment #Sn, the segment #Sk, and the segment between these segments to generate the new segment when the result of the comparison is D nk ≦ e · L, Preferably, a writing unit for adding and recording the generated position information of the new segment to the coordinate memory is provided.

【0039】このように、隣接するセグメント間の距離
値に基づいて、この距離値と行高さとを比較することに
より、セグメントの組を統合するか否かを判定すること
ができる。こうすると、セグメント間の距離が、セグメ
ントの高さに比べて小さい場合に、これらセグメントを
統合するというふうに設定される。
As described above, by comparing the distance value with the row height based on the distance value between the adjacent segments, it is possible to determine whether or not to integrate the set of segments. In this way, when the distance between the segments is smaller than the height of the segments, the segments are set to be integrated.

【0040】[0040]

【発明の実施の形態】以下、図を参照して、この発明の
実施の形態につき説明する。尚、図は、この発明の構
成、配置関係および動作が理解できる程度に概略的に示
してあり、また、以下に記載する数値条件等は単なる好
適例を示しているに過ぎない。従って、この発明は、こ
の実施の形態に何ら限定されることがない。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention will be described below with reference to the drawings. The figures are schematically shown to the extent that the configuration, arrangement, and operation of the present invention can be understood, and the numerical conditions and the like described below are merely preferred examples. Therefore, the present invention is not limited to this embodiment.

【0041】[第1の実施の形態]図1は、第1の実施
の形態の文字認識装置の構成を示すブロック図である。
図1に示すように、この実施の形態の文字認識装置は、
画像入力部10と、候補文字パタン抽出部12と、文字
認識部14と、候補パス作成部16と、最良結果選択部
18とを具えている。また、この文字認識装置は、位置
情報を記録しておくための座標メモリ20と、文字コー
ドを格納するための文字コード用メモリ22とを記憶手
段として具えている。また、この文字認識装置は、上述
した画像入力部10、候補文字パタン抽出部12、文字
認識部14、候補パス作成部16、最良結果選択部1
8、座標メモリ20および文字コード用メモリ22の動
作タイミングやデータ入出力の管理を制御部24により
行っている。文字認識装置は、以上の構成を主として具
えており、これらの構成をもって、情報媒体から文字列
パタンを読み取り、その文字列パタンを文字コード化す
ることにより認識を行う。
[First Embodiment] FIG. 1 is a block diagram showing the configuration of a character recognition device according to the first embodiment.
As shown in FIG. 1, the character recognition device of this embodiment
An image input unit 10, a candidate character pattern extraction unit 12, a character recognition unit 14, a candidate path creation unit 16, and a best result selection unit 18 are provided. Further, the character recognition device includes a coordinate memory 20 for recording position information and a character code memory 22 for storing character codes as storage means. The character recognition device includes the image input unit 10, the candidate character pattern extraction unit 12, the character recognition unit 14, the candidate path creation unit 16, and the best result selection unit 1 described above.
8. The control unit 24 manages the operation timing and data input / output of the coordinate memory 20 and the character code memory 22. The character recognition device mainly has the above-described configurations. With these configurations, a character string pattern is read from an information medium, and recognition is performed by converting the character string pattern into a character code.

【0042】尚、この文字認識装置の出力結果である文
字コード(あるいは切出し位置)は、上述の最良結果選
択部18から出力され、この出力は、例えばいわゆるコ
ンピュータ装置に入力され、そこで文字認識情報として
活用される。また、上述した候補文字パタン抽出部1
2、文字認識部14、候補パス作成部16、最良結果選
択部18、座標メモリ20、文字コード用メモリ22、
制御部24は、中央演算処理装置(CPU)、入出力器
および記憶手段を具えたコンピュータ装置として、各要
素のハードウエアを構成してもよいし、上述した各手段
を、一つのコンピュータ装置としてまとめた構成として
もよい。
The character code (or cut-out position) which is the output result of this character recognition device is output from the above-described best result selection unit 18, and this output is input to, for example, a so-called computer device where the character recognition information is output. It is utilized as. Further, the above-described candidate character pattern extraction unit 1
2. Character recognition unit 14, candidate path creation unit 16, best result selection unit 18, coordinate memory 20, character code memory 22,
The control unit 24 may configure the hardware of each element as a computer device including a central processing unit (CPU), an input / output device, and a storage unit, or each unit described above as one computer device. It is good also as a collective structure.

【0043】図2は、この実施の形態の文字認識装置の
動作フローを示すフローチャートである。図2に示すよ
うに、この文字認識装置による文字認識処理は、文字種
連接規則入力(図2のS1)、画像入力(図2のS
2)、セグメント抽出(図2のS3)、セグメント統合
(図2のS4)、文字認識(図2のS5)、候補パス作
成(図2のS6)、評価値計算(図2のS7)、ソート
(図2のS8)および出力(図2の8)のステップごと
に順次に行われる。以下、図2のフローに従い、文字認
識処理の手順について、各手段の構成およびその動作と
共に説明する。
FIG. 2 is a flowchart showing the operation flow of the character recognition device of this embodiment. As shown in FIG. 2, the character recognition process performed by the character recognition device includes character type connection rule input (S1 in FIG. 2) and image input (S1 in FIG. 2).
2), segment extraction (S3 in FIG. 2), segment integration (S4 in FIG. 2), character recognition (S5 in FIG. 2), candidate path creation (S6 in FIG. 2), evaluation value calculation (S7 in FIG. 2), The sorting (S8 in FIG. 2) and the output (8 in FIG. 2) are sequentially performed. Hereinafter, the procedure of the character recognition process will be described along with the configuration of each unit and the operation thereof according to the flow of FIG.

【0044】<連接規則の入力>この実施の形態の文字
認識装置は、連接規則を用いた処理を行うところに特色
を有している。この処理は、後述する候補パス作成部1
6で行われる処理であるが、最初に、連接規則を候補パ
ス作成部16に入力しておく(図2のS1)。連接規則
は、候補パス作成部16に具えられた連接規則検査部2
6(図12)に、キーボード等の入力手段により設定さ
れる。そして、連接規則検査部26は、入力された連接
規則を、読み出し自在に記憶しておく。
<Input of Concatenation Rule> The character recognition device of this embodiment has a special feature in that processing using the concatenation rule is performed. This processing is performed by a candidate path creation unit 1 described later.
6, the connection rule is first input to the candidate path creation unit 16 (S1 in FIG. 2). The connection rule is determined by the connection rule inspection unit 2 provided in the candidate path creation unit 16.
6 (FIG. 12) is set by input means such as a keyboard. Then, the connection rule inspection unit 26 stores the input connection rule in a freely readable manner.

【0045】連接規則は、互いに隣接する文字の連接関
係を特定なものにするために定められる規則である。こ
の実施の形態では、認識した文字列において、隣接する
文字コードが同一の文字種となるような規則を設定す
る。この実施の形態では、文字種として、数字・記号、
カタカナ、平仮名および漢字の4種の文字種を想定して
いる。そして、例えば、文字列を構成する文字コードの
並びの中で、最初の文字コードが漢字である場合には、
その文字コードに隣接する文字コードも、同じ文字種で
ある漢字が次に選出される。つまり、その文字列を構成
する文字コードは、結果として、すべて同じ文字種にな
るように認識されることになる。
The concatenation rule is a rule determined to make the concatenation relationship between adjacent characters specific. In this embodiment, rules are set such that adjacent character codes have the same character type in a recognized character string. In this embodiment, as character types, numerals and symbols,
Four types of characters are assumed: katakana, hiragana, and kanji. And, for example, in the sequence of character codes constituting a character string, if the first character code is a kanji,
For the character code adjacent to the character code, the kanji of the same character type is selected next. That is, the character codes constituting the character string are recognized so that they all have the same character type.

【0046】図3は、この実施の形態の連接規則検査部
26に設定された連接規則の様子を概念的に示す図であ
る。文字種連接規則28は、3つのルールからなってい
る。ルール1(漢字→漢字)は、「隣接する2つの文字
のうち、最初の文字が漢字であれば、次の文字も漢字で
なければならない」という規則である。また、ルール2
(平かな→平かな)は、「隣接する2つの文字のうち、
最初の文字が平かなであれば、次の文字も平かなでなけ
ればならない」という規則である。同様に、ルール3
(カタカナ→カタカナ)は、「隣接する2つの文字のう
ち、最初の文字がカタカナであれば、次の文字もカタカ
ナでなければならない」という規則である。これら3つ
のルールを適用すると、例えば氏名の文字列を認識する
のに効力を発揮する。このことは、通常、氏名を表す文
字列は、同一の文字種で構成されていることがほとんど
であることに基づいている。また、記号および数字を用
いる氏名は皆無に近いため、これについてのルールは設
定していない。
FIG. 3 is a diagram conceptually showing a state of the connection rule set in connection rule inspection section 26 of this embodiment. The character type connection rule 28 is composed of three rules. Rule 1 (Kanji → Kanji) is a rule that “if the first character of two adjacent characters is a kanji, the next character must also be a kanji”. Rule 2
(Flat → Flat) means “Of the two adjacent characters,
If the first character is flat, the next character must be flat. " Similarly, rule 3
(Katakana → Katakana) is a rule that “if the first character of two adjacent characters is katakana, the next character must also be katakana”. Applying these three rules is effective, for example, in recognizing a character string of a name. This is based on the fact that character strings representing names usually consist of the same character type in most cases. Also, since there are almost no names using symbols and numbers, no rules are set for this.

【0047】尚、上述した連接規則は、文字認識対象と
なる文書領域の部分領域ごとに設定することもできる。
例えば、表などが記載されている帳票を認識対象とする
場合では、文字認識を行う対象領域が項目ごとに分かれ
ている。そして、項目の「氏名」の欄を認識する場合に
は、上述した連接規則を適用するように構成しておき、
また、別の項目を認識する場合には、対応した連接規則
が適用されるように構成しておけばよい。このため、連
接規則検査部26には、部分領域ごとに連接規則を設定
することができ、連接規則を文書領域中の位置座標に対
応付けて記憶させることができる。
It should be noted that the above-described connection rule can be set for each partial area of the document area to be subjected to character recognition.
For example, when a form on which a table or the like is described is to be recognized, a target area for character recognition is divided for each item. Then, when recognizing the column of “name” of the item, it is configured to apply the above-described connection rule,
Also, when recognizing another item, it may be configured so that the corresponding connection rule is applied. For this reason, the connection rule inspection unit 26 can set a connection rule for each partial area, and can store the connection rule in association with the position coordinates in the document area.

【0048】以下、図4に示す文字列パタンを認識する
場合の文字認識動作につき説明する。図4には、文字列
パタン(入力画像)30として、手書きの「弘三」とい
う文字パタン(文字画像)が示されている。図に示すよ
うに、この実施の形態では、文字列が横書きである場合
を想定しているが、これに限らず、縦書きであっても構
わない。以下、「弘三」という氏名が記載された欄を認
識対象とする場合につき、上述した各ステップを説明し
てゆく。また、上述した理由から、図4に示す文字列パ
タン30に対し、連接規則として上記の3つのルール
(図3)が連接規則検査部26に設定されているものと
する。
The character recognition operation for recognizing the character string pattern shown in FIG. 4 will be described below. FIG. 4 shows a handwritten character pattern (character image) of “Kozo” as a character string pattern (input image) 30. As shown in the figure, in this embodiment, it is assumed that the character string is written horizontally, but the present invention is not limited to this and may be written vertically. Hereinafter, the steps described above will be described for the case where the column in which the name “Kozo” is described is to be recognized. For the above-described reason, it is assumed that the above three rules (FIG. 3) are set in the connection rule inspection unit 26 as the connection rules for the character string pattern 30 shown in FIG.

【0049】<画像の入力>次に、画像入力のステップ
(図2のS2)につき説明する。このステップは、画像
入力部10が、対象の文書領域を光学的に読み取り、読
み取った画像データを記憶手段に記録する処理を行うス
テップである。この処理は、連接規則の入力終了後に、
オペレータが制御部24を介して、画像入力部10に指
示を与えることにより開始される。
<Input of Image> Next, the step of inputting an image (S2 in FIG. 2) will be described. In this step, the image input unit 10 performs a process of optically reading the target document area and recording the read image data in the storage unit. This process is performed after inputting the connection rules.
The process is started when an operator gives an instruction to the image input unit 10 via the control unit 24.

【0050】上述した画像入力部10は、認識対象の文
字列を含む原画像を読み取り、この原画像を格納するた
めの画像メモリ32を具えている。また、従来公知の構
成と同様に、図示せずも、帳票や原稿等の情報媒体を主
走査方向および副走査方向に移動させる手段である走査
機構(スキャナ)と、この情報媒体から原画像を光学的
に読み取り電気信号に変換する光電変換部と、読み取っ
た原画像から所定の領域を切り出す切出し部とを具えて
いる。以上の構成をもって、画像入力部10は、情報媒
体からの原画像の読出しと、この原画像の画像メモリ3
2への記録と、原画像からの所定領域(文字列パタン)
の切出しとを行う。尚、情報媒体からの原画像の読出し
は、2値画像として読み取っても良いし、多値画像とし
て読み取ってもよい。また、画像入力部10として、例
えば、いわゆるタブレットを使用しても良い。
The above-described image input unit 10 has an image memory 32 for reading an original image including a character string to be recognized and storing the original image. Further, similarly to the conventionally known configuration, although not shown, a scanning mechanism (scanner) as a means for moving an information medium such as a form or a document in the main scanning direction and the sub-scanning direction, and an original image from the information medium. It comprises a photoelectric conversion unit for optically converting it into an electrical signal to be read, and a cutout unit for cutting out a predetermined area from the read original image. With the above configuration, the image input unit 10 reads the original image from the information medium and stores the original image in the image memory 3.
2 and a predetermined area from the original image (character string pattern)
And cut out. The reading of the original image from the information medium may be performed as a binary image or a multi-valued image. As the image input unit 10, for example, a so-called tablet may be used.

【0051】<候補文字パタンの抽出>次に、候補文字
パタンを抽出するステップ(図2のS3およびS4)に
つき説明する。このステップの処理は、候補文字パタン
抽出部12により行われる。候補文字抽出部12は、認
識対象の文字列パタンから連続した複数個の候補文字パ
タンを抽出すると共に、その位置情報を座標メモリ20
に記録する手段である。そして、この実施の形態では、
候補文字パタン抽出部12は、セグメント抽出部34
と、セグメント統合部36とを具えている。先ず、セグ
メント抽出部34がセグメントの抽出を行い(図2のS
3)、続いて、セグメント統合部36がセグメントの統
合(新規セグメントの生成)を行う(図2のS4)。
<Extraction of Candidate Character Pattern> Next, the steps of extracting candidate character patterns (S3 and S4 in FIG. 2) will be described. The process of this step is performed by the candidate character pattern extraction unit 12. The candidate character extracting unit 12 extracts a plurality of consecutive candidate character patterns from the character string pattern to be recognized, and stores the position information thereof in the coordinate memory 20.
This is a means for recording. And in this embodiment,
The candidate character pattern extraction unit 12 includes a segment extraction unit 34
And a segment integration unit 36. First, the segment extraction unit 34 extracts a segment (S in FIG. 2).
3) Subsequently, the segment integrating unit 36 integrates the segments (generates a new segment) (S4 in FIG. 2).

【0052】画像入力部10が画像の入力を終えたこと
を制御部24に伝えると、次に、制御部24は、セグメ
ント抽出部34の動作を開始させる。あるいは、オペレ
ータが、制御部24に対し、候補文字パタン抽出部12
の動作を開始するように、直接、指示を与える構成とし
てもよい。
When the image input unit 10 notifies the control unit 24 that the image input has been completed, the control unit 24 starts the operation of the segment extraction unit 34. Alternatively, the operator instructs the control unit 24 to output the candidate character pattern extraction unit 12
A configuration may be employed in which an instruction is directly given so as to start the operation of (1).

【0053】上述のセグメント抽出部34は、画像入力
部10で得られた文字列パタンの黒ブロック領域をセグ
メントとして抽出し、このセグメントの位置座標を座標
メモリ20に記録する手段である。以下、図4に示す文
字列パタン30のセグメント抽出を行う場合につき説明
する。尚、図4において、文字列方向とは、図中のx座
標方向(主走査方向)である。また、図4において、上
述した黒ブロック領域とは、各文字パタンに外接する矩
形領域(セグメントと称している。)のことである。
The above-described segment extracting section 34 is means for extracting a black block area of the character string pattern obtained by the image input section 10 as a segment, and recording the position coordinates of this segment in the coordinate memory 20. Hereinafter, the case where the segment extraction of the character string pattern 30 shown in FIG. 4 is performed will be described. In FIG. 4, the character string direction is the x coordinate direction (main scanning direction) in the figure. In FIG. 4, the above-mentioned black block area is a rectangular area (referred to as a segment) circumscribing each character pattern.

【0054】文字列パタン30は、文字パタン「弓」
(「弘」の偏)に外接するセグメント#S0、文字パタ
ン「ム」(「弘」の旁)に外接するセグメント#S1、
および、文字パタン「三」に外接するセグメント#S2
からなる文字列パタンである。これらセグメントは、文
字列方向に順次に#S0、#S1、#S2という具合に
配列する。
The character string pattern 30 is a character pattern "bow".
Segment # S0 circumscribing ("Hiro"), segment # S1 circumscribing the character pattern "mu" (next to "Hiro"),
And the segment # S2 circumscribing the character pattern "3"
Is a character string pattern consisting of These segments are sequentially arranged in the character string direction, such as # S0, # S1, and # S2.

【0055】セグメントを抽出するには、先ず、文字列
方向(x方向)に走査を行うことにより、文字列パタン
30をX軸に投影した射影分布すなわち黒点のヒストグ
ラムを求める。そして、このヒストグラムの極小点をx
軸上の切出し位置とする。次に、文字列パタン30のx
軸に垂直なy軸方向に走査を行うことにより、同様にし
てヒストグラムを求める。そして、このヒストグラムの
極小点をy軸上の切出し位置とする。このようにして、
x軸上とy軸上の切出し位置で囲まれた矩形領域が求め
られる。この実施の形態では、この矩形領域を求めるこ
とを、セグメントの抽出と称しており、上述した公知の
方法で行える。
In order to extract a segment, first, scanning is performed in the character string direction (x direction) to obtain a projection distribution, that is, a histogram of black spots, in which the character string pattern 30 is projected on the X axis. Then, the minimum point of this histogram is x
This is the cutting position on the axis. Next, x of the character string pattern 30
By scanning in the y-axis direction perpendicular to the axis, a histogram is similarly obtained. Then, the minimum point of the histogram is set as a cutout position on the y-axis. In this way,
A rectangular area surrounded by cutout positions on the x-axis and the y-axis is obtained. In the present embodiment, obtaining this rectangular area is referred to as segment extraction, and can be performed by the above-described known method.

【0056】このように、セグメントの抽出は、求めら
れた切出し位置同士の交点である4点(セグメントの各
頂点に相当する。)の座標(画素位置)を検出すること
により行われる。検出されたセグメントの座標は、座標
メモリ20にセグメント座標テーブルとして格納され
る。
As described above, the extraction of the segment is performed by detecting the coordinates (pixel positions) of four points (corresponding to each vertex of the segment) which are the intersections between the obtained cutout positions. The coordinates of the detected segment are stored in the coordinate memory 20 as a segment coordinate table.

【0057】図5に座標メモリ20の記憶状態(内部状
態)すなわちセグメント座標テーブルを示す。図中左側
には、文字パタン「ム」すなわちセグメント#S1を示
し、図中右側には、セグメント#S0、#S1および#
S2のそれぞれの座標(図5の図中のx座標成分Xs
よびXe と、y座標成分Ys およびYe とで表され
る。)が記載されたセグメント座標テーブルを示す。例
えば、セグメント#S0の座標成分(破線aで囲って示
す。)は、Xs が1、Xe が36、Ys が1およびYe
が84といった具合である。このように、セグメント抽
出部34は、座標メモリ20のセグメント番号(例え
ば、セグメント#S0を表す記号#S0の添字0のこ
と。)に対応した所定の格納場所に、そのセグメントの
4頂点を座標成分値として読出し自在に記録する。そし
て、セグメントの抽出が終了すると、セグメント抽出部
34は、セグメント統合部36に対して動作を開始する
ように、制御部24を介して指示を出す。
FIG. 5 shows a storage state (internal state) of the coordinate memory 20, that is, a segment coordinate table. On the left side of the figure, the character pattern "mu", that is, the segment # S1, is shown, and on the right side of the figure, the segments # S0, # S1, and #
Respective coordinates of S2 (the x-coordinate component X s and X e in FIG. 5, represented by the y coordinate component Y s and Y e.) Shows a segment coordinate table describes. For example, (shown surrounded by a broken line a.) Coordinate components of the segment # S0 is, X s is 1, X e is 36, Y s is 1 and Y e
Is 84 and so on. As described above, the segment extracting unit 34 coordinates the four vertexes of the segment in a predetermined storage location corresponding to the segment number (for example, the suffix 0 of the symbol # S0 representing the segment # S0) in the coordinate memory 20. It is recorded as a component value in a readable manner. Then, when the segment extraction is completed, the segment extraction unit 34 issues an instruction to the segment integration unit 36 via the control unit 24 to start the operation.

【0058】上述のセグメント統合部36は、セグメン
ト抽出部34により抽出されたセグメント同士を、各々
の位置座標に基づいて統合して新規セグメントを生成
し、この新規セグメントの位置座標を座標メモリ20に
追記する手段である。図6のブロック図に、セグメント
統合部36の詳細な構成を示す。この実施の形態のセグ
メント統合部36は、第1座標読出部38、第2座標読
出部40、距離値検出部42、比較部44、生成部46
および書込部48を具えている。
The above-mentioned segment integrating section 36 integrates the segments extracted by the segment extracting section 34 based on the respective position coordinates to generate a new segment, and stores the position coordinates of the new segment in the coordinate memory 20. This is a means for appending. FIG. 6 is a block diagram showing a detailed configuration of the segment integration unit 36. The segment integrating unit 36 of this embodiment includes a first coordinate reading unit 38, a second coordinate reading unit 40, a distance value detecting unit 42, a comparing unit 44, and a generating unit 46.
And a writing unit 48.

【0059】以下、図4に示す文字列パタン30を処理
対象とする場合のセグメント統合部36の動作につき説
明する。後述するように、図4の文字列パタン30の例
では、セグメント#S0とセグメント#S1とが統合さ
れて、新規セグメント#S3が生成される。上述したよ
うに、新規セグメントの生成は、セグメント抽出部34
により抽出されたセグメント同士を、各々の位置情報に
基づいて統合することにより行われる。この統合処理を
説明するに当たり、図7に示すフローチャートを参照す
る。
The operation of the segment integrating unit 36 when the character string pattern 30 shown in FIG. 4 is to be processed will be described below. As described later, in the example of the character string pattern 30 of FIG. 4, the segment # S0 and the segment # S1 are integrated to generate a new segment # S3. As described above, generation of a new segment is performed by the segment extraction unit 34.
Is performed by integrating the segments extracted by the above based on the respective pieces of position information. In describing this integration processing, a flowchart shown in FIG. 7 will be referred to.

【0060】先ず、第1座標読出部38は、セグメント
抽出部34により記録されたセグメント#Snの位置座
標を、座標メモリ20から読み出す(図7のS10)。
次に、第2座標読出部40は、第1座標読出部38によ
り呼び出されるセグメント#Snとは別のセグメント#
Skの位置座標を、座標メモリ20から読み出す(図7
のS11)。図7において、六角形の流れ図記号S10
で示されたステップは、同じく六角形の流れ図記号S1
6で示されたステップとの間のステップを、S10内に
記載された条件:ループ1が満たされるまで繰返し行う
ことを意味している。同様に、六角形の流れ図記号S1
1で示されたステップは、流れ図記号S15との間のス
テップを、S11内に記載された条件:ループ2が満た
されるまで繰返し行うことを意味している。このフロー
にあっては、ループ1は、座標メモリ20に記録されて
いる全セグメントの位置情報が、第1座標読出部38に
より読み出されるまで続行される。また、ループ2は、
座標メモリ20に記録されている全セグメントの位置情
報が、第2座標読出部40により読み出されるまで続行
される。
First, the first coordinate reading unit 38 reads the position coordinates of the segment #Sn recorded by the segment extracting unit 34 from the coordinate memory 20 (S10 in FIG. 7).
Next, the second coordinate reading unit 40 sets a segment # different from the segment #Sn called by the first coordinate reading unit 38.
The position coordinates of Sk are read from the coordinate memory 20 (FIG. 7).
S11). In FIG. 7, a hexagonal flow chart symbol S10
The step marked with is the hexagonal flow diagram symbol S1
This means that steps between the step indicated by No. 6 and the step indicated by S6 are repeatedly performed until the condition described in S10: Loop 1 is satisfied. Similarly, the hexagonal flow chart symbol S1
The step indicated by 1 means that the steps between the flowchart symbol S15 and the flow chart symbol S15 are repeatedly performed until the condition described in S11: the loop 2 is satisfied. In this flow, the loop 1 is continued until the position information of all the segments recorded in the coordinate memory 20 is read by the first coordinate reading unit 38. Loop 2 is
The process is continued until the position information of all the segments recorded in the coordinate memory 20 is read by the second coordinate reading unit 40.

【0061】これら第1および第2座標読出部38およ
び40に読み出されたセグメントの位置情報は、次に説
明する距離値検出部42に入力され、そこで利用され
る。そして、ループ1は、ループ2を入子型ループとし
て含んでいるため、セグメントの全組合せが、距離値検
出部42に入力されることになる。座標メモリ20の位
置情報を、このように入力させるために、制御部24
は、統合処理の実行に供する2つのカウンタを具えてい
て、これらのカウント数nおよびkによりセグメント番
号を指定し、第1および第2座標読出部38および40
に対し指示を出す。但し、制御部24は、常にn<kと
なるようなカウント数を、第1および第2座標読出部3
8および40に出力するように構成されているものとす
る。
The segment position information read by the first and second coordinate reading units 38 and 40 is input to a distance value detecting unit 42 described below and used there. Since the loop 1 includes the loop 2 as a nested loop, all combinations of segments are input to the distance value detection unit 42. In order to input the position information of the coordinate memory 20 in this manner, the control unit 24
Has two counters for executing the integration processing, designates a segment number by these count numbers n and k, and specifies the first and second coordinate reading units 38 and 40.
Give instructions to However, the control unit 24 always counts the number of counts such that n <k, by the first and second coordinate reading units 3.
8 and 40.

【0062】次に、上述したループ1およびループ2に
対し実行されるステップを、以下の(I)、(II)およ
び(III) で説明する。
Next, the steps executed for the above-mentioned loop 1 and loop 2 will be described with reference to the following (I), (II) and (III).

【0063】(I)距離値検出部42は、セグメント#
Snおよび#Sk間の距離値Dnkを、第1および第2座
標読出部38および40により読み出された各々の位置
情報から求める(図7のS12)。ここで、セグメント
#Snおよび#Sk間の距離値Dnkは、図8に示すよう
に、イメージ上において各セグメント#Snおよび#S
kの始端位置(前述したXs の位置)同士を結ぶ文字列
方向の直線距離として定義される。例えば、図5に示す
セグメント座標テーブルによれば、D01=36となる。
このように、距離値検出部42は、各セグメントの始端
位置のx座標成分同士の差を検出することにより、距離
値を検出する構成としてある。例えば、距離値検出部4
2として、通常の差演算回路を用いることができる。
(I) The distance value detecting section 42 outputs the segment #
A distance value D nk between Sn and #Sk is obtained from each position information read by the first and second coordinate reading units 38 and 40 (S12 in FIG. 7). Here, the distance value D nk between the segments #Sn and #Sk is, as shown in FIG.
starting end position of k is defined as the linear distance character string direction connecting to each other (the position of the above-mentioned X s). For example, according to the segment coordinate table shown in FIG. 5, D 01 = 36.
As described above, the distance value detection unit 42 is configured to detect the distance value by detecting the difference between the x-coordinate components at the start end position of each segment. For example, the distance value detection unit 4
As 2, a normal difference calculation circuit can be used.

【0064】(II)そして、距離値検出部42により検
出された距離Dnkは比較部44に伝送される。この比較
部44は、文字列パタンの行高さLの定数e倍(eは正
の実数)と、距離値検出部42により求められた距離値
nkとの比較を行う(図7のS13)。ここで、行高さ
Lは、文字列パタン30を構成する各セグメントの文字
列方向に垂直な方向(y方向)の長さのことである。但
し、この実施の形態では、上述の長さの最大値を、文字
列パタンの行高さLと定義している。従って、座標メモ
リ20に格納された各セグメントの位置座標から予め最
大値を検出しておき、これを比較部44に記憶させてお
けばよい。例えば、図5に示すセグメント座標テーブル
にあっては、L=87である。
(II) Then, the distance Dnk detected by the distance value detecting section 42 is transmitted to the comparing section 44. The comparison unit 44 compares the line height L of the character string pattern with a constant e times (e is a positive real number) and the distance value D nk obtained by the distance value detection unit 42 (S13 in FIG. 7). ). Here, the line height L refers to the length of each segment constituting the character string pattern 30 in the direction (y direction) perpendicular to the character string direction. However, in this embodiment, the maximum value of the above-described length is defined as the line height L of the character string pattern. Therefore, the maximum value may be detected in advance from the position coordinates of each segment stored in the coordinate memory 20 and stored in the comparing unit 44. For example, in the segment coordinate table shown in FIG. 5, L = 87.

【0065】また、この実施の形態では、定数eとして
1.2を設定してある。この「1.2」という値は、繰
返しテストを行い、経験的に定められた値である。この
定数eの値は、比較部44が具える読出し自在のメモリ
手段に、予めキーボード等の入力手段により設定してお
く。そして、比較部44は、距離値検出部42からの距
離値Dnkの入力タイミングで、上述のメモリ手段から設
定した定数eの値を読み出すように構成されている。
In this embodiment, 1.2 is set as the constant e. The value “1.2” is a value determined empirically by performing repeated tests. The value of the constant e is set in advance in a readable memory means provided in the comparing section 44 by an input means such as a keyboard. The comparison unit 44 is configured to read the value of the constant e set from the above-described memory unit at the input timing of the distance value Dnk from the distance value detection unit 42.

【0066】このように構成してあるので、比較部44
は、入力される距離値Dnkと、値1.2Lとの大小関係
を判断することができる。そして、比較部44は、求め
た大小関係に応じた信号を、生成部46に出力する。
With such a configuration, the comparison unit 44
Can determine the magnitude relationship between the input distance value D nk and the value 1.2L. Then, the comparison unit 44 outputs a signal corresponding to the obtained magnitude relationship to the generation unit 46.

【0067】(III) 続いて、生成部46は、比較部44
の出力信号がDnk≦e・Lに応じた信号であるとき、セ
グメント#Snと、セグメント#Skと、これらセグメ
ント#Snおよび#Sk間のセグメントとを統合して新
規セグメントを生成する(図7のS14)。この例で
は、D01=36、L=87であるから、比較部44の比
較結果はD01≦e・Lであり、生成部46は、第1およ
び第2座標読出部38および40からセグメント#S0
およびセグメント#S1の位置情報をそれぞれ入力し
て、これらセグメントの位置情報の統合を行う。図4に
示すように、セグメント#S0および#S1が統合され
ることにより、新規セグメント#S3が生成される(セ
グメント#S3は、文字パタン「弘」に外接する矩形領
域である。)。尚、2つのセグメントが統合される場合
だけでなく、連続する3つ以上のセグメントが統合され
る場合もある。すなわち、第1座標読出部38に読み出
されるセグメント#Snと、第2座標読出部40に読み
出されるセグメント#Skとの間の距離値がe・Lより
小さいときには、セグメント#Snと、セグメント#S
kと、セグメント#Snおよび#Sk間に存在するセグ
メントの全てとを、1つの新規セグメントとして統合す
る。
(III) Subsequently, the generation unit 46 sets the comparison unit 44
Is a signal corresponding to D nk ≦ e · L, a new segment is generated by integrating the segment #Sn, the segment #Sk, and the segment between the segments #Sn and #Sk (FIG. 7 S14). In this example, since D 01 = 36 and L = 87, the comparison result of the comparison unit 44 is D 01 ≦ e · L, and the generation unit 46 sends the segment from the first and second coordinate reading units 38 and 40 to the segment. # S0
And the position information of the segment # S1 is input, and the position information of these segments is integrated. As shown in FIG. 4, a new segment # S3 is generated by integrating the segments # S0 and # S1 (the segment # S3 is a rectangular area circumscribing the character pattern "Hiro"). In addition, not only the case where two segments are integrated, but also the case where three or more consecutive segments are integrated. That is, when the distance value between the segment #Sn read by the first coordinate reading unit 38 and the segment #Sk read by the second coordinate reading unit 40 is smaller than eL, the segment #Sn and the segment #S
k and all the segments existing between the segments #Sn and #Sk are integrated as one new segment.

【0068】また、このようにして生成された新規セグ
メントは、セグメント#Snとセグメント#Skとの両
者を含んだ文字列パタン上の領域を、新たに設定するこ
とに等しい。図9の統合後のセグメント座標テーブルに
示すように、生成された新規セグメントの座標成分値に
は、セグメント#Snとセグメント#Skとの対応する
座標成分値のうちの、いずれか一方が選択されて設定さ
れている。そして、その選択は、生成される新規セグメ
ントが、なるべく広い文字列パタン中の領域を占めるよ
うになされる。セグメント#S0とセグメント#S1と
を例に取ると、Xs 成分については、セグメント#S0
が1、セグメント#S1が37であり、新規セグメント
#S3の座標成分Xs として1が設定される。また、X
e 成分については、セグメント#S0が36、セグメン
ト#S1が106であり、新規セグメント#S3の座標
成分Xe として106が設定される。
The new segment generated in this manner is equivalent to newly setting an area on a character string pattern including both the segment #Sn and the segment #Sk. As shown in the segment coordinate table after integration in FIG. 9, one of the coordinate component values corresponding to the segment #Sn and the segment #Sk is selected as the coordinate component value of the generated new segment. Is set. Then, the selection is made such that the new segment to be generated occupies as large an area in the character string pattern as possible. Taking the segment # S0 and the segment # S1 as an example, for X s component, segment # S0
But 1, segment # S1 is 37, 1 is set as the coordinate component X s new segment # S3. Also, X
The e component, the segment # S0 is 36, the segment # S1 is 106, 106 is set as the coordinate component X e new segment # S3.

【0069】以上の処理(I)、(II)および(III)
が、先程説明したループ1およびループ2の条件が満た
されるまで繰返し行われるので、全てのセグメントの組
に対して統合処理が行われる。そして、書込部48は、
生成部46により生成された新規セグメントの位置情報
を座標メモリ20に追加して記録する(図7のS1
7)。図9に示すように、新規セグメント#S3が追記
されている。
The above treatments (I), (II) and (III)
Is repeatedly performed until the conditions of the loops 1 and 2 described above are satisfied, so that the integration process is performed on all sets of segments. Then, the writing unit 48
The position information of the new segment generated by the generation unit 46 is additionally recorded in the coordinate memory 20 (S1 in FIG. 7).
7). As shown in FIG. 9, a new segment # S3 is additionally written.

【0070】以上説明した通り、候補文字パタン抽出部
12によりセグメント#S0、#S1および#S2と新
規セグメント#S3とが取得される。以下、これらセグ
メント#S0、#S1および#S2と、新規セグメント
#S3とを併せて、各々を、候補文字パタンと称する。
As described above, the segment # S0, # S1, and # S2 and the new segment # S3 are obtained by the candidate character pattern extraction unit 12. Hereinafter, these segments # S0, # S1 and # S2 and the new segment # S3 are collectively referred to as candidate character patterns.

【0071】<候補文字パタンの認識>次に、抽出され
た候補文字パタンの文字認識を行うステップにつき説明
する(図2のS5)。このステップで行われる処理は、
文字認識部14によりなされる。この実施の形態の文字
認識部14は、抽出された候補文字パタンを認識して適
当数の文字コードを求め、この文字コードを文字コード
用メモリ22に記録する手段である。ここでは、候補文
字パタンに対応した文字コードであって、相違度の低い
順に上位の一定個数の文字コードを求め、候補文字パタ
ンごとに文字コード用メモリ22に記録する。この文字
認識の結果、画像データである候補文字パタンが文字コ
ードに符号化される。
<Recognition of Candidate Character Pattern> Next, a step of performing character recognition of the extracted candidate character pattern will be described (S5 in FIG. 2). The processing performed in this step is
This is performed by the character recognition unit 14. The character recognizing unit 14 of this embodiment is means for recognizing the extracted candidate character pattern, obtaining an appropriate number of character codes, and recording the character codes in the character code memory 22. Here, a character code corresponding to the candidate character pattern, which is a certain number of upper character codes in ascending order of the degree of difference, is obtained and recorded in the character code memory 22 for each candidate character pattern. As a result of this character recognition, the candidate character pattern that is the image data is encoded into a character code.

【0072】最初に制御部24は、セグメント統合部3
6からの動作終了の信号に応答して、座標メモリ20に
格納されている候補文字パタンの位置情報を読み出す。
制御部24は、読み出した位置情報に基づいて、画像メ
モリ32に格納されている原画像(文字列)から、候補
文字パタンに対応した領域(文字パタンと称する。)を
切り出す。この文字パタンの切出しは、上述した画像入
力部10が具える切出し部で行ってもよいし、あるい
は、制御部24がこのための切出し手段を具えていても
よい。切り出された文字パタンは、文字認識部14に伝
送される。そして、文字認識部14は、取り込まれた文
字パタンに対して通常の文字認識処理を施す。従って、
文字認識部14は、切り出された文字パタンから特徴を
抽出するための抽出手段と、標準文字の特徴を予め記憶
させた辞書とを具えており、また、抽出手段で抽出され
た文字パタンの特徴と標準文字の特徴とを比較するため
のマッチング手段を具えている。このマッチング手段に
より、特徴間の相違度が算出される。そして、相違度の
低い順に上位10個の文字コードが1つの候補文字パタ
ンに対して求められる。
First, the control unit 24 controls the segment integrating unit 3
In response to the operation end signal from step 6, the position information of the candidate character pattern stored in the coordinate memory 20 is read.
The control unit 24 cuts out an area (referred to as a character pattern) corresponding to the candidate character pattern from the original image (character string) stored in the image memory 32 based on the read position information. The extraction of the character pattern may be performed by the extraction unit included in the image input unit 10 described above, or the control unit 24 may include an extraction unit for this purpose. The cut-out character pattern is transmitted to the character recognition unit 14. Then, the character recognition unit 14 performs a normal character recognition process on the captured character pattern. Therefore,
The character recognizing unit 14 includes extraction means for extracting features from the extracted character patterns, and a dictionary in which the characteristics of the standard characters are stored in advance. And matching means for comparing the character with the standard character. The degree of difference between features is calculated by this matching means. Then, the top 10 character codes are obtained for one candidate character pattern in ascending order of the degree of difference.

【0073】ここで、相違度とは、認識対象の候補文字
パタンの特徴と、認識によりこの候補文字パタンから変
換された文字コードの特徴との間の相違の度合いを示す
量である。この実施の形態では、相違度として距離(上
述したセグメント間の距離Dnkとは異なる。)を検出し
ている。これは、いわゆる特徴ベクトル同士の近さを表
す量である。尚、この実施の形態では、特徴間の距離を
得る手法に対しては特に問わない。また、特徴を比較す
る際に用いる尺度についても任意に設定すればよい。
Here, the degree of difference is an amount indicating the degree of difference between the feature of a candidate character pattern to be recognized and the feature of a character code converted from the candidate character pattern by recognition. In this embodiment, a distance (different from the distance Dnk between segments described above) is detected as the degree of difference. This is a quantity representing the closeness between feature vectors. In this embodiment, there is no particular limitation on the method for obtaining the distance between features. Also, the scale used for comparing the features may be arbitrarily set.

【0074】図10に、認識結果の一部を示す。図中左
側に、セグメント#S0を示し、図中右側の表に、セグ
メント#S0に対して得られた上位10個の文字コード
を、その順位および距離と対応付けて示してある。図1
0の対応関係に示すように、文字認識部14は、取得し
た文字コード(破線b)と、その文字コードに対する距
離(破線c)とを、距離の小さい順に、候補文字番号に
対応した文字コード用メモリ22の格納場所(アドレ
ス)に記録する。図11に、このようにして取得される
文字コードと距離とを、候補文字パタンごとに示す。図
11(A)に#S0の認識結果を、図11(B)に#S
1の認識結果を、図11(C)に#S2の認識結果を、
および、図11(D)に#S3の認識結果を、それぞれ
表にして示す。
FIG. 10 shows a part of the recognition result. Segment # S0 is shown on the left side of the figure, and the top 10 character codes obtained for segment # S0 are shown in the table on the right side of the figure in association with their order and distance. FIG.
As shown in the correspondence relation of 0, the character recognizing unit 14 converts the acquired character code (broken line b) and the distance to the character code (broken line c) into the character codes corresponding to the candidate character numbers in ascending order of the distance. In the storage location (address) of the memory for use 22. FIG. 11 shows the character code and the distance thus obtained for each candidate character pattern. FIG. 11A shows the recognition result of # S0, and FIG.
1 and the recognition result of # S2 in FIG.
FIG. 11D shows the recognition result of # S3 in a table.

【0075】<候補パスの作成>次に、候補パス作成部
16の動作につき説明する(図2のS6)。図12のブ
ロック図に候補パス作成部16の構成を示す。候補パス
作成部16は、座標メモリ20に記録された位置情報に
基づいて文字コード用メモリ22に記録された文字コー
ドを配列させ、候補パスを作成する手段である。そのた
め、候補パス作成部16は、第1指定部50と、第1文
字読出部52と、第2指定部54と、第2文字読出部5
6と、連接規則検査部26とを具えている。また、第1
および第2指定部50および54は、抽出された候補文
字パタンをそれぞれ指定する手段であるが、特に第1指
定部50は、この指定を、切出し候補点#Ci(iは整
数)を指定することにより行う。このため、候補パス作
成部16は、切出し候補点#Ciと候補文字パタンとの
対応関係を、作成するためのテーブル作成部58を具え
ている。また、候補パス作成部16は、作成した候補パ
スを記録するためのパスメモリ60を具えている。尚、
候補パスとは、文字コードの配列のことであり、ここで
は、文字列パタンを文字コード化できる可能性がある配
列のことを意味する。
<Creation of Candidate Path> Next, the operation of the candidate path creation section 16 will be described (S6 in FIG. 2). The configuration of the candidate path creation unit 16 is shown in the block diagram of FIG. The candidate path creation unit 16 is means for arranging the character codes recorded in the character code memory 22 based on the position information recorded in the coordinate memory 20 and creating a candidate path. Therefore, the candidate path creating unit 16 includes the first specifying unit 50, the first character reading unit 52, the second specifying unit 54, and the second character reading unit 5
6 and a connection rule checking unit 26. Also, the first
And the second specification sections 50 and 54 are means for specifying the extracted candidate character patterns, respectively. In particular, the first specification section 50 specifies this specification as a cutout candidate point #Ci (i is an integer). It is done by doing. For this reason, the candidate path creation unit 16 includes a table creation unit 58 for creating the correspondence between the cutout candidate point #Ci and the candidate character pattern. In addition, the candidate path creation unit 16 includes a path memory 60 for recording the created candidate paths. still,
The candidate path is an array of character codes. In this case, the candidate path means an array having a possibility of converting a character string pattern into a character code.

【0076】先ず、テーブル作成部58につき説明す
る。テーブル作成部58は、座標メモリ20に記録され
た候補文字パタンの位置情報を読み出して、この位置情
報に基づき各候補文字パタンの始点位置および終点位置
を切出し候補点#Ciとして求め、これら候補文字パタ
ンと切出し候補点との対応関係を記録する手段である。
文字列パタンから文字パタンを切り出すには、x軸上の
2点をそれぞれ始点位置および終点位置として指定する
ことにより行える。テーブル作成部58は、文字列パタ
ン30から文字パタンを切り出すために指定が可能な全
ての位置を、切出し候補点として指定する。図4に、文
字列パタン30の切出し候補点を示す。文字列パタン3
0にあっては、4つの切出し候補点#C0、#C1、#
C2および#C3が指定できる。
First, the table creation unit 58 will be described. The table creation unit 58 reads out the position information of the candidate character pattern recorded in the coordinate memory 20 and obtains the start point position and the end point position of each candidate character pattern as the cutout candidate point #Ci based on the position information. This is a means for recording the correspondence between the pattern and the extraction candidate point.
A character pattern can be cut out from a character string pattern by designating two points on the x-axis as a start point position and an end point position, respectively. The table creation unit 58 designates all positions that can be specified for extracting a character pattern from the character string pattern 30 as extraction candidate points. FIG. 4 shows candidate extraction points of the character string pattern 30. String pattern 3
In the case of 0, four extraction candidate points # C0, # C1, #
C2 and # C3 can be specified.

【0077】逆に、このように切出し候補点が指定でき
れば、これら切出し候補点の2つを選択することによ
り、任意の候補文字パタンが切り出せるようになる。こ
の実施の形態では、切出し候補点が、主走査方向に順序
付けられて番号付けされている。例えば、切出し候補点
#C0と切出し候補点#C1とを選択することにより、
#C0を始点位置とし、#C1を終点位置とする候補文
字#S0が指定できる。また、切出し候補点#C0と切
出し候補点#C2とを選択することにより、#C0を始
点位置とし、#C2を終点位置とする候補文字#S3が
指定できる。
On the other hand, if the extraction candidate points can be designated in this way, by selecting two of these extraction candidate points, an arbitrary candidate character pattern can be extracted. In this embodiment, the cutout candidate points are numbered in order in the main scanning direction. For example, by selecting the extraction candidate point # C0 and the extraction candidate point # C1,
Candidate character # S0 having # C0 as the start point position and # C1 as the end point position can be designated. Also, by selecting a candidate clipping point # C0 and a candidate clipping point # C2, a candidate character # S3 having # C0 as a start point position and # C2 as an end point position can be designated.

【0078】尚、切出し候補点は、文字列パタンの両端
位置と、隣接する候補文字パタン間の境界位置とをもっ
て抽出される。文字列パタン30の例では、テーブル作
成部58が、切出し候補点#C0、#C1および#C2
を、候補文字#S0、#S1および#S2の各始端位置
(Xs 成分)の読出しにより抽出する。また、切出し候
補点#C3を、文字列パタンの最後尾のセグメント#S
2の終端位置(Xe 成分)の読出しにより抽出する。
The extraction candidate points are extracted based on both end positions of the character string pattern and boundary positions between adjacent candidate character patterns. In the example of the character string pattern 30, the table creation unit 58 determines that the extraction candidate points # C0, # C1, and # C2
A candidate character # S0, and extracts the readout of the starting end position of # S1 and # S2 (X s component). The extraction candidate point # C3 is set to the last segment #S of the character string pattern.
It is extracted by reading the end position ( Xe component) of No. 2.

【0079】次に、テーブル作成部58は、設定した切
出し候補点と候補文字パタンとの対応関係を求めて、こ
れをメモリ手段に記録する。図13に、この対応関係が
記録されたメモリ手段の内部状態をセグメントテーブル
として示す。このセグメントテーブルは、グラフ理論の
分野において通常に用いられる隣接行列で表されてい
る。図中において、行欄の項目枠には始点位置としての
切出し候補点#Ci(i=0,1,2,3)が記載され
ており、列欄の項目枠には終点位置としての切出し候補
点#Ci(i=0,1,2,3)が記載されている。そ
して、行と列の交差部分に位置するデータ枠には、始点
位置と終点位置とに対応した候補文字番号#Snが記載
されている。尚、切出し候補点に対応した候補文字パタ
ンが無い場合には、データ枠内に空白文字(NULL)
を設定している。このように、始点位置としての切出し
候補点と、終点位置としての切出し候補点とを指定する
ことにより、この表から、切出し対象の候補文字パタン
および候補文字番号が指定できるようになっている。
Next, the table creating section 58 obtains the correspondence between the set extraction candidate point and the candidate character pattern, and records this in the memory means. FIG. 13 shows, as a segment table, the internal state of the memory means in which the correspondence is recorded. This segment table is represented by an adjacency matrix commonly used in the field of graph theory. In the figure, the cutout candidate point #Ci (i = 0, 1, 2, 3) as the start point position is described in the item box of the row column, and the cutout candidate point as the end point position is described in the item box of the column column. Point #Ci (i = 0, 1, 2, 3) is described. Then, in the data frame located at the intersection of the row and the column, candidate character numbers #Sn corresponding to the start point position and the end point position are described. If there is no candidate character pattern corresponding to the extraction candidate point, a blank character (NULL) is included in the data frame.
Is set. In this way, by specifying the extraction candidate point as the start point position and the extraction candidate point as the end point position, the extraction target candidate character pattern and candidate character number can be specified from this table.

【0080】上述した第1指定部50は、抽出された候
補文字パタンを第1候補文字パタンとして指定する手段
である。前述したように、第1指定部50は、テーブル
作成部58で作成されたセグメントテーブルを参照し
て、切出し候補点の指定により候補文字パタンを指定す
る。そして、第1文字読出部52は、文字認識部14に
より第1候補文字パタンに対して求められた文字コード
を、第1文字コードとして、文字コード用メモリ22か
ら読み出す手段である。
The first specifying section 50 is means for specifying the extracted candidate character pattern as a first candidate character pattern. As described above, the first specifying unit 50 specifies the candidate character pattern by specifying the extraction candidate point with reference to the segment table created by the table creating unit 58. The first character reading unit 52 is a unit that reads the character code obtained for the first candidate character pattern by the character recognizing unit 14 from the character code memory 22 as a first character code.

【0081】また、第2指定部54は、座標メモリ20
に記録された位置情報に基づいて、第1指定部50によ
り指定された第1候補文字パタンに隣接する候補文字パ
タンを第2候補文字パタンとして指定する手段である。
そして、第2文字読出部56は、第2候補文字パタンに
対して求められた文字コードを、第2文字コードとし
て、文字コード用メモリ22から読み出す手段である。
Further, the second specifying section 54 is provided in the coordinate memory 20.
Is a means for designating a candidate character pattern adjacent to the first candidate character pattern designated by the first designation unit 50 as a second candidate character pattern based on the position information recorded in the first candidate character pattern.
The second character reading unit 56 is means for reading the character code obtained for the second candidate character pattern from the character code memory 22 as a second character code.

【0082】さらに、この実施の形態の文字認識装置
は、上述した構成だけでなく、連接規則検査部26を具
えているため、予め定めた条件を満足する候補パスだけ
が記憶されるようになっている。連接規則検査部26
は、第1文字コードと第2文字コードの連接関係が予め
設定した連接規則を満たす場合に、第1文字コードをパ
スメモリ60に記録する手段である。この実施の形態で
は、第1文字コードおよび第2文字コードの各々の文字
種が同一である連接関係のときに、連接規則が満たされ
るように構成されている。連接規則としては、上述した
3つ文字種に関するルールが設定されている。
Further, since the character recognition device of this embodiment includes not only the above-described configuration but also the connection rule checking unit 26, only the candidate paths satisfying the predetermined condition can be stored. ing. Connection rule inspection unit 26
Is a means for recording the first character code in the path memory 60 when the connection relation between the first character code and the second character code satisfies a preset connection rule. In this embodiment, the connection rule is satisfied when the first character code and the second character code have the same connection type and the connection type is the same. As the connection rules, the rules regarding the three character types described above are set.

【0083】これら第1指定部50、第1文字読出部5
2、第2指定部54、第2文字読出部56および連接規
則検査部26が相俟って動作することにより、連接規則
を満足する候補パスが作成できる。その動作は、グラフ
探索のアルゴリズムに基づくものである。以下、この動
作を、図14のフローチャートに示した候補パス作成関
数を参照して説明する。
The first specifying section 50 and the first character reading section 5
2, the second designation unit 54, the second character reading unit 56, and the connection rule checking unit 26 operate together to create a candidate path satisfying the connection rule. The operation is based on a graph search algorithm. Hereinafter, this operation will be described with reference to the candidate path creation function shown in the flowchart of FIG.

【0084】候補パス作成関数 Funct(#Ci,#S
k,Mk)は、切出し候補点#Ciと、候補文字#Sk
と、その候補文字パタンの認識結果である文字コードM
kとを引き数とする関数である。始めにパスメモリ60
をクリアしておき、初期値として#Ci=#C0、#S
k=#S0、Mk=NULLを設定しておく。この関数
の処理が開始されると、先ず、第1の引き数である#C
iで指定される切出し候補点が、文字列パタンにおける
最後尾の位置であるかどうかの判別が、第1指定部50
により行われる(図14のS18)。#Ciが最後尾の
位置すなわち最右端である場合には、#Ciを引き数と
する候補パス作成関数の処理は終了する。指定された切
出し候補点が最右端でない場合には、ループ1およびそ
の入子ループであるループ2の処理が実行される。
Candidate path creation function Funct (#Ci, #S
k, Mk) are the extraction candidate point #Ci and the candidate character #Sk
And the character code M that is the recognition result of the candidate character pattern
This is a function with k as an argument. First, the path memory 60
Is cleared, and # Ci = # C0, #S as initial values
k = # S0 and Mk = NULL are set. When the processing of this function is started, first, the first argument #C
The first specifying unit 50 determines whether or not the extraction candidate point specified by i is the last position in the character string pattern.
(S18 in FIG. 14). If #Ci is the last position, that is, the rightmost end, the processing of the candidate path creation function using #Ci as an argument ends. If the specified extraction candidate point is not the rightmost end, the processing of loop 1 and its nested loop, loop 2, is executed.

【0085】ループ1の処理(図14のS19およびS
26間の処理)は、切出し候補点#Ciの右側に位置す
る切出し候補点#Cj(jはj>iを満たす整数)のす
べてが、第1指定部50により指定されるまで続行され
る(For each #Cj∈(Adj(#Ci#Cj)!=NULL) )。また、ル
ープ2の処理(図14のS21およびS25間の処理)
は、候補文字#Sk+1に対して求められた文字コード
(Mk+1∈(#Sk+1 の候補文字))が、ループの巡回ごと
に順次に1つずつ、全てが第1文字読出部52により読
み出されるまで続行される。ここで、候補文字#Sk+
1は、切出し候補点#Ciおよび#Cjで指定される上
述の第1候補文字パタンを表す。この第1候補文字パタ
ンの選出は、第1指定部50がセグメントテーブルを参
照して行う(図14のS20: #Sk+1←Adj(#Ci#Cj)
)。また、文字コードMk+1は、上述した第1文字
コードである。
Processing of loop 1 (S19 and S19 in FIG. 14)
26 are continued until all of the candidate extraction points #Cj (j is an integer satisfying j> i) located on the right side of the candidate extraction point #Ci are designated by the first designation unit 50 ( For each # Cj∈ (Adj (# Ci # Cj)! = NULL)). Further, processing of loop 2 (processing between S21 and S25 in FIG. 14)
Indicates that the character code (Mk + 1∈ (candidate character of # Sk + 1)) obtained for candidate character # Sk + 1 is sequentially entered one by one in each loop, and all are in the first character reading unit 52. Until it is read. Here, candidate character # Sk +
1 represents the above-described first candidate character pattern specified by the cutout candidate points #Ci and #Cj. The selection of the first candidate character pattern is performed by the first specifying unit 50 with reference to the segment table (S20 in FIG. 14: # Sk + 1 ← Adj (# Ci # Cj)
). The character code Mk + 1 is the first character code described above.

【0086】第1指定部50の第1候補文字パタンの指
定および第1文字読出部52の第1文字コードの読出し
に対し、第2指定部54は、第1候補文字#Sk+1の
左側に隣接する候補文字#Skを第2候補文字パタンと
して指定する。この指定は、座標メモリ20を参照する
ことにより行える。そして、第2指定部54は、第2文
字読出部56に対して、第2候補文字#Skに属する文
字コードMkを、第2文字コードとして文字コード用メ
モリ22から読み出すように指示する。
In response to the designation of the first candidate character pattern by the first designation unit 50 and the reading of the first character code by the first character reading unit 52, the second designation unit 54 is adjacent to the left of the first candidate character # Sk + 1. Is designated as a second candidate character pattern. This designation can be made by referring to the coordinate memory 20. Then, the second specifying unit 54 instructs the second character reading unit 56 to read the character code Mk belonging to the second candidate character #Sk from the character code memory 22 as the second character code.

【0087】上述した第1および第2文字コードの読出
しは、1回のループにつき1組のペアが組まれて、ルー
プごとに異なるペアが作成され、最終的に全ての組合せ
が実現されるように行われる。そして、それぞれのペア
が連接規則検査部26に入力される。連接規則検査部2
6は、入力された第1文字コードMk+1と第2文字コ
ードMkとが連接規則を満足するか否かの判別を行う
(図14のS22)。このようにして、全組合せの連接
関係が検査される。
The above-described reading of the first and second character codes is performed such that one pair is formed for each loop, different pairs are created for each loop, and all combinations are finally realized. Done in Then, each pair is input to the connection rule checking unit 26. Connection rule inspection unit 2
6 determines whether or not the input first character code Mk + 1 and second character code Mk satisfy the connection rule (S22 in FIG. 14). In this way, the connection relation of all combinations is checked.

【0088】連接検査部26の検査結果に応じて、次の
2通りのステップまたはに進む。先ず、連接規則
が満足されなかった場合には、ループ2内から外へ出
る。次に、連接規則が満足された場合には、第1文字
コードMk+1を候補パスとして加え、パスメモリ60
に記録する(図14のS23)。そして、引き数とし
て、#Cj、#Sk+1およびMk+1を代入した候補
パス作成関数の処理を開始する(図14のS24:#Cj,
#Sk+1,Mk+1→Funct(#Cj,#Sk+1,Mk+1) )。このように、
候補パス作成関数を再帰的に呼び出す処理を行わせるこ
とにより、パスメモリ60には、連接規則を満たした候
補パスが記録される。
The flow proceeds to the following two steps or according to the inspection result of the connection inspection unit 26. First, if the connection rule is not satisfied, the process goes out of the loop 2. Next, when the connection rule is satisfied, the first character code Mk + 1 is added as a candidate path, and the path memory 60 is added.
(S23 in FIG. 14). Then, the processing of the candidate path creation function in which #Cj, # Sk + 1, and Mk + 1 are substituted as arguments is started (S24 in FIG. 14: #Cj,
# Sk + 1, Mk + 1 → Funct (# Cj, # Sk + 1, Mk + 1)). in this way,
By performing a process of recursively calling the candidate path creation function, a candidate path satisfying the connection rule is recorded in the path memory 60.

【0089】図15に、上述した処理実行後のパスメモ
リ60の内部状態を示す。図中上側に文字列パタン30
を示し、図中下側には、2端子有向グラフの形で形成さ
れた候補パスの一部を示してある。尚、文字列パタン3
0の切出し候補点と、グラフの端子とを対応させてあ
る。この例の候補文字パタンの配列としては、#S0、
#S1、#S2の配列と、#S3、#S2の配列とが考
えられる。前者の配列を構成するものとして、例えば、
「多、六、三」の候補パス(図15の破線d)がパスメ
モリ60内に記録されている。また、「多、六、二」の
候補パス(図15の破線e)も記録されている。そし
て、後者の配列を構成するものとして、例えば、「弘、
三」の候補パス(図15の破線f)が記録されている。
FIG. 15 shows the internal state of the path memory 60 after execution of the above-described processing. In the upper part of the figure, the character string pattern 30
And a part of the candidate path formed in the form of a two-terminal directed graph is shown on the lower side in the figure. In addition, character string pattern 3
The extraction candidate point of 0 is associated with the terminal of the graph. The array of candidate character patterns in this example is # S0,
An array of # S1 and # S2 and an array of # S3 and # S2 are conceivable. As an example of the former array, for example,
A candidate path of “many, six, three” (broken line d in FIG. 15) is recorded in the path memory 60. Also, the candidate path of “many, six, two” (broken line e in FIG. 15) is recorded. And, as a constituent of the latter arrangement, for example, "Hiro,
A candidate path “3” (broken line f in FIG. 15) is recorded.

【0090】この図15にも示されるように、この実施
の形態の連接規則を用いると、同一文字種の配列だけが
得られる(漢字の配列と、図15には示していないが、
カタカナの配列とが得られる。)。また、認識対象とし
て氏名の文字列を考えているから、記号および数字に対
しては、規則が設けられていない。従って、氏名として
可能性のある候補パスだけが残り、候補パス数を削減す
ることができるから、分離エラーを低減させることが可
能である。
As shown in FIG. 15, when the concatenation rule of this embodiment is used, only an arrangement of the same character type is obtained (an arrangement of kanji and not shown in FIG. 15,
The sequence of katakana is obtained. ). Further, since a character string of a name is considered as a recognition target, there are no rules for symbols and numbers. Therefore, only candidate paths that are possible as names remain, and the number of candidate paths can be reduced, so that separation errors can be reduced.

【0091】<最良結果の選択>このステップの処理
は、最良結果選択部18により行われる(図2のS7、
S8およびS9)。図1に示すように、最良結果選択部
18は、評価値計算部62と、切出し位置出力部64と
を具えており、作成された候補パスの中から認識の結果
に基づき最良パスを選択する。
<Selection of Best Result> The process of this step is performed by the best result selection unit 18 (S7 in FIG. 2,
S8 and S9). As shown in FIG. 1, the best result selection unit 18 includes an evaluation value calculation unit 62 and a cutout position output unit 64, and selects the best path from the created candidate paths based on the recognition result. .

【0092】上述の評価値計算部62は、各候補パスの
評価を行う(図2のS7)。候補パスの評価は、その候
補パスを構成している文字コードの距離(相違度)の和
を算出することにより行われる。評価値計算部62は、
文字コード用メモリ22に格納されている各候補文字パ
タンの距離(相違度)を、パスメモリ60に格納されて
いる候補パスに従い加算する。そして、距離の和を小さ
い順にソートする(図2のS8)。そして、切出し位置
出力部64は、このソート結果から距離の和が最小の候
補パスを検出し、そのパスを最良パスとして出力する
(図2のS9)。切出し位置出力部64は、切出し位置
と文字コードとを外部に出力する。
The above-described evaluation value calculation unit 62 evaluates each candidate path (S7 in FIG. 2). The evaluation of the candidate path is performed by calculating the sum of the distances (degrees of difference) of the character codes constituting the candidate path. The evaluation value calculation unit 62
The distance (degree of difference) between the candidate character patterns stored in the character code memory 22 is added in accordance with the candidate paths stored in the path memory 60. Then, the sum of the distances is sorted in ascending order (S8 in FIG. 2). Then, the cutout position output unit 64 detects a candidate path having the minimum distance sum from the sorting result, and outputs the detected path as the best path (S9 in FIG. 2). The cutout position output unit 64 outputs the cutout position and the character code to the outside.

【0093】図15に示した候補パスの中では、「弘、
三」という候補パスが、距離が最小となるパスである。
従って、この候補パスが最良パスとして選択され、外部
のコンピュータ装置等に出力される。また、このように
最良パスが決定されたので、文字列パタン30の切出し
位置は上述の切出し候補位置#C0、#C2および#C
3として決定される。
In the candidate paths shown in FIG.
The candidate path “3” is the path with the shortest distance.
Therefore, this candidate path is selected as the best path and output to an external computer device or the like. Further, since the best path is determined in this manner, the cutout positions of the character string pattern 30 are the above-described cutout candidate positions # C0, # C2, and #C.
3 is determined.

【0094】[第2の実施の形態]第2の実施の形態の
文字認識装置は、連接規則検査部26に設定される連接
規則の内容と、候補パス作成部16がパス長計数部66
を具える点とが、第1の実施の形態の構成と異なる。従
って、異なる構成を主として説明し、重複する説明を省
略する。また、同じ構成には同じ番号を付して示す。ま
た、この実施の形態の文字認識装置の処理も、図2に示
したフローに従い行われるので、必要に応じて図2を参
照する。
[Second Embodiment] In a character recognition device according to a second embodiment, the contents of the connection rules set in the connection rule checking unit 26 and the candidate path creation unit 16
Is different from the configuration of the first embodiment. Therefore, different configurations will be mainly described, and redundant description will be omitted. The same components are denoted by the same reference numerals. Further, the processing of the character recognition device of this embodiment is also performed according to the flow shown in FIG. 2, so that FIG. 2 is referred to as necessary.

【0095】<連接規則の入力>図16は、この実施の
形態で認識対象とする文字列パタンを示す。図16に示
す文字列パタン30は、住所を示す文字列パタンであ
り、「パークアベニュー1−2−32」が手書きで記さ
れている。このような住所文字列パタンを認識する際に
は、図17の表に示すような連接規則を、連接規則検査
部26に設定するのが好適である。図17(A)に、第
1の実施の形態と同様である文字種連接規則(ルール
1)を示し、図17(B)に、文字形状に係る連接規則
(ルール2)を示す。
<Input of Concatenation Rule> FIG. 16 shows a character string pattern to be recognized in this embodiment. A character string pattern 30 shown in FIG. 16 is a character string pattern indicating an address, and “Park Avenue 1-2-32” is written by hand. When recognizing such an address character string pattern, it is preferable to set a connection rule as shown in the table of FIG. FIG. 17A shows a character type concatenation rule (rule 1) similar to that of the first embodiment, and FIG. 17B shows a concatenation rule (rule 2) relating to a character shape.

【0096】ルール1では、記号、英数字、カタカナ、
平仮名および漢字の5種類の文字種を想定している。そ
して、ルール1は、「隣接する候補文字は、同一の文字
種でなければならない」という規則である。このルール
は、多くの単語が同一の文字種の文字からなるというこ
とに基づいている。また、ルール2は、文字形状に関す
る規則であり、特に、横棒文字に関する規則である。す
なわち、記号および英数字の後にはハイフン「−」が、
カタカナおよび平仮名の後には長音「ー」が、漢字の後
には漢数字「一」がこなければならないという規則であ
る。住所を示す文字列であって、特に市町村以下の単語
は、アパート名と番地から構成されており、「〜ハイ
ツ」や「〜荘」のように、同一文字種あるいは単語を組
合せた複合語であることが多い。ルール2は、このこと
に基づいた規則である。
In rule 1, symbols, alphanumeric characters, katakana,
Five types of characters, Hiragana and Kanji, are assumed. Rule 1 is a rule that “adjacent candidate characters must be of the same character type”. This rule is based on the fact that many words consist of characters of the same character type. Rule 2 is a rule related to a character shape, and particularly a rule related to a horizontal bar character. That is, a hyphen "-" follows symbols and alphanumeric characters,
The rule is that the long sound "-" must follow the katakana and hiragana characters, and the kanji "1" must follow the kanji. A character string indicating an address, especially words below the municipalities are composed of apartment names and addresses, and are compound words combining the same character type or word, such as "~ heights" or "~ sho" Often. Rule 2 is a rule based on this.

【0097】以上説明した連接規則に基づいて、連接規
則検査部26は動作する。そして、第1の実施の形態と
同様に、第1文字コードおよび第2文字コードの各々の
文字種が同一である連接関係のときに、連接規則が満た
されるように構成されている。また、この実施の形態で
は、第1文字コードが同形文字の分類に属する文字コー
ドであることを想定している。そして、この実施の形態
で対象とする同形文字は、ハイフン「−」、長音「ー」
および漢数字「一」等の横棒文字である。
The connection rule inspection unit 26 operates based on the connection rules described above. As in the case of the first embodiment, the connection rule is satisfied when the first character code and the second character code have the same character type. In this embodiment, it is assumed that the first character code is a character code belonging to the classification of homomorphic characters. The homomorphic characters targeted in this embodiment are a hyphen "-" and a long sound "-".
And a horizontal bar character such as the Chinese numeral “I”.

【0098】<候補文字パタンの抽出>候補文字パタン
の抽出は、第1の実施の形態と同様に行える。図16に
示す文字列パタン30には図示していないが、セグメン
ト#S0とセグメント#S1とが統合されて、新規セグ
メント#S16が生成される。また、セグメント#S
0、#S1および#S2が統合されて、新規セグメント
#S17が生成される。尚、この実施の形態では、セグ
メントの統合処理時に用いる値Nとして1.0を用いて
いる。
<Extraction of Candidate Character Pattern> Extraction of candidate character patterns can be performed in the same manner as in the first embodiment. Although not shown in the character string pattern 30 shown in FIG. 16, the segment # S0 and the segment # S1 are integrated to generate a new segment # S16. Also, segment #S
0, # S1 and # S2 are integrated to generate a new segment # S17. In this embodiment, 1.0 is used as the value N used in the segment integration processing.

【0099】<候補文字パタンの認識>候補文字パタン
の認識結果の一部を、図18に示す。図中左側に、セグ
メント#S0を示し、図中右側の表に、セグメント#S
0に対して得られた文字コードを、その順位および距離
と対応付けて示してある。このセグメント#S0に対し
ては2個の文字コードしか該当するものがなかったが、
第1の実施の形態と同様に、相違度の小さい順に、上位
10個の文字コードが求められるように構成してある。
<Recognition of Candidate Character Pattern> A part of the recognition result of the candidate character pattern is shown in FIG. The segment # S0 is shown on the left side of the figure, and the segment #S
The character codes obtained for 0 are shown in association with their ranks and distances. Although only two character codes corresponded to this segment # S0,
As in the first embodiment, the upper ten character codes are determined in ascending order of the degree of difference.

【0100】<候補パスの作成>次に、候補パス作成部
16の動作につき説明する(図2のS6)。図19のブ
ロック図に候補パス作成部16の構成を示す。この実施
の形態の候補パス作成部16は、パスメモリ60を参照
し、そこに記録されているパス(文字コードの配列)の
長さ(文字コードの数)を計数する手段であるパス長計
数部66を具えている。このパス長計数部66は、一つ
の文字コードがパスメモリ60に追記される度に、記録
されたパスの長さを計数し、最長のパスを選択する手段
である。以下、この候補パス作成部16の動作を、図2
0に示す候補パス作成処理のフローチャートを参照して
説明する。尚、フロー中に現れる候補パス作成関数 Fun
ct(#Ci,#Sk,Mk)は、図14に示したフロー
におけるステップ19(S19)からステップ26(S
26)を、この順に行う関数である。
<Creation of Candidate Path> Next, the operation of the candidate path creation unit 16 will be described (S6 in FIG. 2). The configuration of the candidate path creation unit 16 is shown in the block diagram of FIG. The candidate path creation unit 16 of this embodiment refers to the path memory 60, and counts the length (number of character codes) of the path (array of character codes) recorded therein. A part 66 is provided. Each time one character code is added to the path memory 60, the path length counting unit 66 counts the length of the recorded path and selects the longest path. Hereinafter, the operation of the candidate path creation unit 16 will be described with reference to FIG.
This will be described with reference to the flowchart of the candidate path creation process shown in FIG. The candidate path creation function Fun that appears in the flow
ct (#Ci, #Sk, Mk) corresponds to steps S19 to S26 in the flow shown in FIG.
26) is a function performed in this order.

【0101】図20に示す候補パス作成処理を始める前
に、先ず、テーブル作成部58によってセグメントテー
ブルが作成される。図16に示した文字列パタン30の
場合、図21に示す表が得られる。尚、セグメント記号
と切出し候補点記号の#を省略して表中に示してある。
また、空白のデータ枠内には、NULLが設定されてい
るものとする。そして、このセグメントテーブルを利用
して、候補パス作成処理が行われる。
Before starting the candidate path creation processing shown in FIG. 20, the table creation unit 58 first creates a segment table. In the case of the character string pattern 30 shown in FIG. 16, a table shown in FIG. 21 is obtained. It should be noted that the symbol of the segment symbol and the symbol of the extraction candidate point symbol are omitted in the table.
It is assumed that NULL is set in the blank data frame. Then, a candidate path creation process is performed using this segment table.

【0102】最初に、パスメモリ60をクリアにしてお
き(図20のS27)、また、初期値として#Ci=#
C0,#Sk=#S0,Mk=NULLを設定しておく
(図20のS28)。そして、これら#Ci、#Sk、
Mkを引き数とする候補パス作成関数 Funct(#Ci,
#Sk,Mk)の処理が開始する(図20のS29)。
前述したように、この作成関数は、図14に示したステ
ップ19からステップ26を表す(図14のS19から
S26)。
First, the path memory 60 is cleared (S27 in FIG. 20), and # Ci = #
C0, # Sk = # S0, and Mk = NULL are set (S28 in FIG. 20). And these #Ci, #Sk,
Candidate path creation function Funct (#Ci,
#Sk, Mk) starts (S29 in FIG. 20).
As described above, this creation function represents steps 19 to 26 shown in FIG. 14 (S19 to S26 in FIG. 14).

【0103】そして、作成関数の処理が終了すると、次
に、第1指定部50は、切出し候補点#Ciが最右端か
否かを判別する(図20のS30)。この判別の結果、
#Ciが最右端の場合には、候補パス作成処理は終了す
る。#Ciが最右端ではない場合、次に、パス長計数部
66が、パスメモリ60内に記録されているパスの長さ
を計数する(図20のS31)。そして、この計数結果
において、最長のパスを選択し、そのパスの終端の位置
を#Ciとし、そのパスの終端の候補文字パタンを#S
kとし、その候補文字パタンに属する文字コードをMk
として(図20のS32)、再び作成関数 Funct(#C
i,#Sk,Mk)の処理を開始させる(図20のS2
9)。
Then, when the processing of the creation function is completed, next, the first specifying unit 50 determines whether or not the extraction candidate point #Ci is the rightmost end (S30 in FIG. 20). As a result of this determination,
When #Ci is the rightmost end, the candidate path creation processing ends. If #Ci is not the rightmost end, then the path length counting unit 66 counts the length of the path recorded in the path memory 60 (S31 in FIG. 20). In the counting result, the longest path is selected, the position of the end of the path is set to #Ci, and the candidate character pattern of the end of the path is set to #S.
k, and the character code belonging to the candidate character pattern is Mk
(S32 in FIG. 20), the creation function Funct (#C
i, #Sk, Mk) is started (S2 in FIG. 20).
9).

【0104】以上の処理の結果、図22に示す候補パス
が作成される。尚、図22には、途中で成長が中断した
パスも示してある(終端を記号g、h、iで示す。)。
途中で中断したパスは、パス長計数部66により最長パ
スとして選択されなかったパスである。この例では、最
終的に、始点jおよび終点k間に形成された8本のパス
が、候補パスとして得られている。また、図23には、
文字列パタンの切出し候補点と対応させて、2端子有向
グラフにして候補パスを示してある。
As a result of the above processing, candidate paths shown in FIG. 22 are created. Note that FIG. 22 also shows paths whose growth has been interrupted halfway (ends are indicated by symbols g, h, and i).
The path interrupted on the way is a path that has not been selected as the longest path by the path length counting unit 66. In this example, finally, eight paths formed between the start point j and the end point k are obtained as candidate paths. Also, in FIG.
The candidate paths are shown in a two-terminal directed graph in correspondence with the extraction candidate points of the character string pattern.

【0105】最良パスは、第1の実施の形態と同様にし
て、相違度の和が最小となるパスを選ぶことにより決定
できる。このように、パス長計数部66により、その時
点での最長パスを優先的に成長させている。従って、途
中で途切れるパスすなわち途中で連接規則が満たされな
くなるパスを、作成過程で除外してゆくから、候補パス
数を低減させることができる。よって、アパート名等の
ように分離エラーが起きやすい文字列でも、誤認識せず
に正しい結果を導くことができる。
As in the first embodiment, the best path can be determined by selecting the path that minimizes the sum of the differences. In this way, the path length counting unit 66 preferentially grows the longest path at that time. Therefore, a path that is interrupted in the middle, that is, a path in which the connection rule is not satisfied in the middle is excluded in the creation process, so that the number of candidate paths can be reduced. Therefore, even a character string in which a separation error is likely to occur, such as an apartment name, can lead to a correct result without erroneous recognition.

【0106】尚、この実施の形態では、同形文字として
横棒文字を取り上げたが、これに限らず、同形文字が、
数字「0」、英字「O」等の丸文字であってもよい。ま
た、同形文字が、数字「1」、英字「l」等の縦棒文字
であってもよい。
In this embodiment, the horizontal bar character is taken as an isomorphic character. However, the present invention is not limited to this.
It may be a round character such as the numeral “0” or the alphabetic character “O”. Further, the isomorphic character may be a vertical bar character such as a numeral “1” or an alphabetical character “l”.

【0107】[第3の実施の形態]第3の実施の形態の
文字認識装置は、連接規則検査部26に設定される連接
規則の内容が、第1の実施の形態と異なっている。ま
た、図24のブロック図に示すように、最良結果選択部
18は、単語照合部68を具えている。その他の構成
は、第1の実施の形態と同じ構成である。また、図25
のフローチャートに、この実施の形態の文字認識装置の
動作フローを示す。
[Third Embodiment] The character recognition device of the third embodiment differs from the first embodiment in the content of the connection rule set in the connection rule inspection unit 26. As shown in the block diagram of FIG. 24, the best result selecting unit 18 includes a word matching unit 68. Other configurations are the same as those of the first embodiment. FIG. 25
The flowchart of [1] shows the operation flow of the character recognition device of this embodiment.

【0108】先ず、第3の実施の形態の連接規則につい
て説明する。この実施の形態では、図26に示すような
住所、特に、町名や村名等を認識対象とする。図26
に、入力画像の文字列パタン30として、手書き文字の
「東浅川町」を示す。このような住所文字列パタンに
は、「町」や「村」等の文字が必ず出現する。しかし、
「町」は「田」と「丁」に分離しやすく、「村」は
「木」と「寸」に分離しやすく、分離エラーが起きやす
い。
First, the connection rule according to the third embodiment will be described. In this embodiment, an address as shown in FIG. 26, in particular, a town name, a village name and the like are to be recognized. FIG.
3 shows a handwritten character “Higashiasakawa-cho” as a character string pattern 30 of the input image. In such an address character string pattern, characters such as "town" and "village" always appear. But,
“Town” is easily separated into “field” and “cho”, and “village” is easily separated into “tree” and “dimension”, and separation errors are likely to occur.

【0109】このため、この実施の形態の連接規則検査
部26は、第1文字コードと第2文字コードとが特定の
組合せのときに、第2文字コードをパスメモリ60から
消去し、特定の組合せに対応する文字コードを第1文字
コードの代りにパスメモリ60へ記録するように構成さ
れている。そして、前述の特定の組合せは、第2文字コ
ードを「田」とし、第1文字コードを「丁」としたとき
の組合せであり、この組合せに対応する文字コードを
「町」としている。図27に、この実施の形態の文字種
連接規則を示す。「町」や「村」等は、住所等の文字列
においてキーとなる文字であるからキー文字とも呼び、
このキー文字に係る連接規則を特にキー文字連接規則と
も呼ぶ。そして、文字認識を行う際には、先ず、このキ
ー文字規則を連接規則検査部26に入力する(図25の
S33)。以下、このキー文字規則を用いる場合の処理
につき説明する。
For this reason, the connection rule checking unit 26 of this embodiment deletes the second character code from the path memory 60 when the first character code and the second character code are in a specific combination, and The character code corresponding to the combination is recorded in the path memory 60 instead of the first character code. The above-mentioned specific combination is a combination in which the second character code is “ta” and the first character code is “cho”, and the character code corresponding to this combination is “machi”. FIG. 27 shows a character type connection rule according to this embodiment. Since "town" and "village" are key characters in a character string such as an address, they are also called key characters,
This concatenation rule relating to key characters is also called a key character concatenation rule. Then, when performing character recognition, first, the key character rules are input to the connection rule checking unit 26 (S33 in FIG. 25). Hereinafter, a process in the case of using this key character rule will be described.

【0110】第1の実施の形態と同様にして、画像入力
を行い(図25のS34)、候補文字パタンの抽出すな
わちセグメントの抽出(図25のS35)およびセグメ
ントの統合(図25のS36)を行う。この実施の形態
では、セグメント統合処理に用いる定数Nとして1.2
を設定している。
In the same manner as in the first embodiment, image input is performed (S34 in FIG. 25), extraction of candidate character patterns, that is, extraction of segments (S35 in FIG. 25), and integration of segments (S36 in FIG. 25). I do. In this embodiment, the constant N used for the segment integration process is 1.2
Is set.

【0111】続いて、候補文字パタンの認識を行う(図
25のS37)。図28に、文字列パタン30の認識結
果の一部を示す。この例では、最も相違度が小さい文字
コードだけを求めて文字コード用メモリ22に記録す
る。
Subsequently, the candidate character pattern is recognized (S37 in FIG. 25). FIG. 28 shows a part of the recognition result of the character string pattern 30. In this example, only the character code having the smallest difference is obtained and recorded in the character code memory 22.

【0112】次に、候補パスの作成が行われる(図25
のS38)。先ず、テーブル作成部58により、セグメ
ントテーブルが作成される(図29)。そして、このセ
グメントテーブルを利用して、候補パスが作成される。
この実施の形態の候補パス作成関数 Funct(#Ci,#
Sk,Mk)の処理フローを図30に示す。以下、この
関数につき説明する。
Next, a candidate path is created (FIG. 25).
S38). First, the table creation unit 58 creates a segment table (FIG. 29). Then, a candidate path is created using this segment table.
The candidate path creation function Funct (#Ci, #C
(Sk, Mk) is shown in FIG. Hereinafter, this function will be described.

【0113】最初に、パスメモリ60をクリアしてお
き、初期値として#Ci=#C0、#Sk=#S0、M
k=NULLを設定しておく。尚、この実施の形態の作
成関数の処理の一部は、第1の実施の形態の作成関数
(図14)と重複する処理を行う。具体的には、図30
に示すループ1の処理(図30のS41およびS49間
の処理)の部分が重複している。しかしながら、このル
ープ1の処理中では、第1の実施の形態の処理と異なる
処理が挿入されているので、主として、その点につき説
明する。
First, the path memory 60 is cleared, and # Ci = # C0, # Sk = # S0, M
k = NULL is set in advance. Note that a part of the processing of the creation function according to the present embodiment performs processing overlapping with the creation function according to the first embodiment (FIG. 14). Specifically, FIG.
(The process between S41 and S49 in FIG. 30) overlaps. However, since processing different from the processing of the first embodiment is inserted in the processing of this loop 1, mainly the point will be described.

【0114】ループ1の処理(図30のS41およびS
49間の処理)は、切出し候補点#Ciの右側に位置す
る切出し候補点#Cj(jはj>iを満たす整数)のす
べてが、第1指定部50により指定されるまで続行され
る(For each #Cj∈(Adj(#Ci#Cj)!=NULL) )。また、ル
ープ2の処理(図30のS42およびS48間の処理)
は、候補文字#Sk+1に対して求められた文字コード
(Mk+1∈(#Sk+1 の候補文字))が、ループの巡回ごと
に順次に1つずつ、全てが第1文字読出部52により読
み出されるまで続行される。ここで、候補文字#Sk+
1は、切出し候補点#Ciおよび#Cjで指定される第
1候補文字パタンである。この第1候補文字パタンの選
出は、第1指定部50がセグメントテーブルを参照して
行う(図30のS42: #Sk+1←Adj(#Ci#Cj) )。ま
た、文字コードMk+1は、読み出された第1文字コー
ドである。
Processing of loop 1 (S41 and S41 in FIG. 30)
49) are continued until all of the extraction candidate points #Cj (j is an integer satisfying j> i) located on the right side of the extraction candidate point #Ci are specified by the first specifying unit 50 ( For each # Cj∈ (Adj (# Ci # Cj)! = NULL)). The processing of loop 2 (processing between S42 and S48 in FIG. 30)
Indicates that the character code (Mk + 1∈ (candidate character of # Sk + 1)) obtained for candidate character # Sk + 1 is sequentially entered one by one in each loop, and all are in the first character reading unit 52. Until it is read. Here, candidate character # Sk +
1 is a first candidate character pattern specified by the cutout candidate points #Ci and #Cj. The selection of the first candidate character pattern is performed by the first specifying unit 50 with reference to the segment table (S42 in FIG. 30: # Sk + 1 ← Adj (# Ci # Cj)). The character code Mk + 1 is the read first character code.

【0115】第1指定部50の第1候補文字パタンの指
定および第1文字読出部52の第1文字コードの読出し
に対し、第2指定部54は、第1候補文字#Sk+1の
左側に隣接する候補文字#Skを第2候補文字パタンと
して指定する。この指定は、座標メモリ20を参照する
ことにより行える。そして、第2指定部54は、第2文
字読出部56に対して、第2候補文字#Skに属する文
字コードMkを、第2文字コードとして文字コード用メ
モリ22から読み出すように指示する。
In response to the designation of the first candidate character pattern by the first designation unit 50 and the reading of the first character code by the first character reading unit 52, the second designation unit 54 is adjacent to the left of the first candidate character # Sk + 1. Is designated as a second candidate character pattern. This designation can be made by referring to the coordinate memory 20. Then, the second specifying unit 54 instructs the second character reading unit 56 to read the character code Mk belonging to the second candidate character #Sk from the character code memory 22 as the second character code.

【0116】上述した第1および第2文字コードの読出
しは、1回のループにつき1組のペアが組まれて、ルー
プごとに異なるペアが作成され、最終的に全ての組合せ
が実現されるように行われる。そして、それぞれのペア
が連接規則検査部26に入力される。連接規則検査部2
6は、入力された第1文字コードMk+1と第2文字コ
ードMkとが連接規則を満足するか否かの判別を行う
(図30のS44)。このようにして、全組合せの連接
関係が検査される。
The above-described reading of the first and second character codes is performed such that one pair is formed for each loop, different pairs are created for each loop, and all combinations are finally realized. Done in Then, each pair is input to the connection rule checking unit 26. Connection rule inspection unit 2
6 determines whether or not the inputted first character code Mk + 1 and second character code Mk satisfy the connection rule (S44 in FIG. 30). In this way, the connection relation of all combinations is checked.

【0117】連接検査部26の検査結果に応じて、次の
2通りのステップまたはに進む。先ず、連接規則
が満足されなかった場合には、第1文字コードMk+1
を候補パスへ追加し(図14のS50)、次に、引き数
として、#Cj、#Sk+1およびMk+1を代入した
候補パス作成関数の処理を開始する(図30のS47:
#Cj,#Sk+1,Mk+1→Funct(#Cj,#Sk+1,Mk+1) )。
The process proceeds to the following two steps or according to the inspection result of the connection inspection unit 26. First, if the connection rule is not satisfied, the first character code Mk + 1
Is added to the candidate path (S50 in FIG. 14), and then processing of a candidate path creation function in which #Cj, # Sk + 1, and Mk + 1 are substituted as arguments is started (S47 in FIG. 30).
# Cj, # Sk + 1, Mk + 1 → Funct (# Cj, # Sk + 1, Mk + 1)).

【0118】次に、連接規則が満足された場合には、
第2文字コードMkを候補パスから削除し(図30のS
45)、第1文字コードMk+1を候補パスへ追加する
(図30のS46)。すなわち、第2文字コードMkを
パスメモリ60から消去して、第1文字コードMk+1
をパスメモリ60へ記録する。そして、引き数として、
#Cj、#Sk+1およびMk+1を代入した候補パス
作成関数の処理を開始する(図30のS47:#Cj,#Sk+
1,Mk+1→Funct(#Cj,#Sk+1,Mk+1) )。このように、候補
パス作成関数を再帰的に呼び出す処理を行わせることに
より、パスメモリ60には、連接規則(キー文字規則)
を満たした候補パスが記録される。
Next, when the connection rule is satisfied,
The second character code Mk is deleted from the candidate path (S in FIG. 30).
45), the first character code Mk + 1 is added to the candidate path (S46 in FIG. 30). That is, the second character code Mk is deleted from the path memory 60, and the first character code Mk + 1 is deleted.
Is recorded in the path memory 60. And as arguments
The processing of the candidate path creation function to which #Cj, # Sk + 1, and Mk + 1 are substituted starts (S47 in FIG. 30: #Cj, # Sk +
1, Mk + 1 → Funct (# Cj, # Sk + 1, Mk + 1)). As described above, by performing the process of recursively calling the candidate path creation function, the path memory 60 stores the connection rule (key character rule).
Are recorded.

【0119】図31に、候補パスの作成結果を示す。図
31には、図中上側に文字列パタン30を示し、図中下
側に、文字列パタン30の切出し候補点と対応させた2
端子有向グラフの形で候補パスを示してある。但し、キ
ー文字規則を満たさないパスも共に示してある。
FIG. 31 shows the result of creating a candidate path. In FIG. 31, the character string pattern 30 is shown in the upper part of the figure, and the lower part of the figure is made to correspond to the extraction candidate points of the character string pattern 30.
The candidate paths are shown in the form of a terminal directed graph. However, paths that do not satisfy the key character rules are also shown.

【0120】次に、これら候補パスの中から最良パスを
選択する。最良結果選択部18は、このための単語照合
部68と評価値計算部62とを具えている。この例で
は、単語照合部68が候補パスと単語辞書との照合を行
い(図25のS39)、評価値計算部62は、候補パス
と同一の単語が辞書中に存在した場合には評価値として
「1」を、その候補パスに対して与える。また、候補パ
スと同一の単語が辞書中に存在しない場合には評価値と
して「0」を、その候補パスに対して与える。そして、
切出し位置出力部64は、「1」が付与された候補パス
を最良パスとして、その切出し位置と文字コードとを外
部に出力する(図25のS40)。図31には、候補パ
ス作成結果を文字列パタン30と共に示してある。この
例では、図31に示す候補パスlが住所辞書内にある単
語と同一であったので、これを最良パスとして選択して
いる。
Next, the best path is selected from these candidate paths. The best result selection unit 18 includes a word matching unit 68 and an evaluation value calculation unit 62 for this purpose. In this example, the word matching unit 68 performs matching between the candidate path and the word dictionary (S39 in FIG. 25), and the evaluation value calculation unit 62 sets the evaluation value when the same word as the candidate path exists in the dictionary. Is given to the candidate path. If the same word as the candidate path does not exist in the dictionary, “0” is given to the candidate path as an evaluation value. And
The cutout position output unit 64 sets the candidate path to which “1” has been assigned as the best path, and outputs the cutout position and the character code to the outside (S40 in FIG. 25). FIG. 31 shows a candidate path creation result together with a character string pattern 30. In this example, since the candidate path 1 shown in FIG. 31 is the same as a word in the address dictionary, this is selected as the best path.

【0121】以上説明したように、この実施の形態で
は、キー文字を設定し、これに関する連接規則を設定す
ることにより、分離しやすいキー文字を確実に認識さる
ことができる。よって、文字列パタンを正しく認識する
ことができる。また、これらキー文字は、住所を認識す
る際に重要な文字であるから、これを正しく認識するこ
との意義は大きい。また、キー文字を正しく認識できれ
ば辞書の検索範囲を制限できる等の効果も奏する。
As described above, in this embodiment, by setting a key character and setting a connection rule relating to the key character, it is possible to reliably recognize a key character that is easily separated. Therefore, the character string pattern can be correctly recognized. Further, since these key characters are important when recognizing an address, it is significant to correctly recognize them. In addition, if the key characters can be correctly recognized, there is an effect that the search range of the dictionary can be limited.

【0122】尚、キー文字として「町」を設定するに限
らず、「村」を設定してもよい。この場合には、前述し
た特定の組合せは、第2文字コードを「木」とし、第1
文字コードを「寸」としたときの組合せであり、この組
合せに対応する文字コードを「村」とすればよい。
It is to be noted that not only "town" is set as a key character but "village" may be set. In this case, in the specific combination described above, the second character code is “tree” and the first character code is “tree”.
This is a combination when the character code is “dimension”, and the character code corresponding to this combination may be “mura”.

【0123】[0123]

【発明の効果】この発明の文字認識方法および文字認識
装置によれば、文字列パタンにおいて隣接する関係を有
した候補文字パタンに対応する文字コードを、文字コー
ド用メモリからそれぞれ読み出して、互いの連接関係を
調べることにより、候補パスを構成する文字であるかど
うかを判断することができる。従って、適当に連接規則
を設定すれば、文字列パタンの認識を従来より正確に行
えるようになる。
According to the character recognition method and the character recognition device of the present invention, the character codes corresponding to the candidate character patterns having the adjacent relation in the character string pattern are read out from the character code memory, respectively. By examining the connection relation, it can be determined whether or not the character is a character constituting a candidate path. Therefore, if the connection rules are set appropriately, the character string pattern can be recognized more accurately than in the past.

【0124】また、この発明の文字認識方法および装置
の好適な実施例によれば、同一文字種の文字コードで構
成されるような文字列が認識結果として出力される。こ
のときに設定した連接規則は、姓名等のように、同一の
文字種で表される場合が多い文字列パタンを認識する場
合に有効である。
Further, according to the preferred embodiment of the character recognition method and apparatus of the present invention, a character string composed of character codes of the same character type is output as a recognition result. The concatenation rule set at this time is effective when recognizing a character string pattern that is often represented by the same character type, such as first and last names.

【0125】また、この発明の文字認識方法および装置
の好適な実施例によれば、文字列パタンにおいて連続す
る位置関係にある2つの文字コードの両者が、特定の文
字コードである場合に、これら文字コードの代りに、予
め設定しておいた文字コードを、候補パスを構成する文
字としてパスメモリに記録する。従って、認識対象の文
字列パタンに多く含まれる文字であり、その文字が、2
つの部分に分離しやすく、かつ分離された部分自体が文
字として成り立つような場合には、上述した様に、この
文字を特定の組合せに対応する文字コードとして予め設
定しておくことにより、分離エラーを回避でき、誤認識
が起きにくくなる。
Further, according to the preferred embodiment of the character recognition method and apparatus of the present invention, when two character codes having a continuous positional relationship in a character string pattern are both specific character codes, Instead of the character code, a previously set character code is recorded in the path memory as a character constituting the candidate path. Therefore, it is a character that is frequently included in the character string pattern to be recognized, and the character is 2
In the case where it is easy to separate into two parts and the separated part itself is a character, as described above, this character is set in advance as a character code corresponding to a specific combination, so that the separation error Can be avoided, and erroneous recognition is less likely to occur.

【図面の簡単な説明】[Brief description of the drawings]

【図1】第1の実施の形態の文字認識装置の構成を示す
図でる。
FIG. 1 is a diagram illustrating a configuration of a character recognition device according to a first embodiment.

【図2】第1の実施の形態の文字認識フローを示す図で
ある。
FIG. 2 is a diagram illustrating a character recognition flow according to the first embodiment.

【図3】第1の実施の形態の文字種連接規則を示す図で
ある。
FIG. 3 is a diagram illustrating a character type connection rule according to the first embodiment;

【図4】第1の実施の形態の入力画像を示す図である。FIG. 4 is a diagram illustrating an input image according to the first embodiment.

【図5】第1の実施の形態の統合前のセグメント座標テ
ーブルを示す図である。
FIG. 5 is a diagram illustrating a segment coordinate table before integration according to the first embodiment;

【図6】実施の形態のセグメント統合部の構成を示す図
である。
FIG. 6 is a diagram illustrating a configuration of a segment integration unit according to the embodiment;

【図7】第1の実施の形態のセグメント統合処理を示す
図である。
FIG. 7 is a diagram illustrating a segment integration process according to the first embodiment;

【図8】セグメント間距離の定義の説明に供する図であ
る。
FIG. 8 is a diagram for explaining the definition of the distance between segments.

【図9】第1の実施の形態の統合後のセグメント座標テ
ーブルを示す図である。
FIG. 9 is a diagram illustrating a segment coordinate table after integration according to the first embodiment;

【図10】第1の実施の形態の文字認識結果を示す図で
ある。
FIG. 10 is a diagram illustrating a character recognition result according to the first embodiment.

【図11】第1の実施の形態の各候補文字の認識結果を
示す図である。
FIG. 11 is a diagram illustrating a recognition result of each candidate character according to the first embodiment.

【図12】第1の実施の形態の候補パス作成部の構成を
示す図である。
FIG. 12 is a diagram illustrating a configuration of a candidate path creation unit according to the first embodiment.

【図13】第1の実施の形態のセグメントテーブルを示
す図である。
FIG. 13 illustrates a segment table according to the first embodiment.

【図14】第1の実施の形態の候補パス作成関数の処理
を示す図である。
FIG. 14 is a diagram illustrating processing of a candidate path creation function according to the first embodiment;

【図15】第1の実施の形態の候補パス作成結果を示す
図である。
FIG. 15 is a diagram illustrating a candidate path creation result according to the first embodiment.

【図16】第2の実施の形態の入力画像を示す図であ
る。
FIG. 16 is a diagram illustrating an input image according to the second embodiment.

【図17】第2の実施の形態の文字種連接規則を示す図
である。
FIG. 17 is a diagram illustrating a character type connection rule according to the second embodiment;

【図18】第2の実施の形態の文字認識結果を示す図で
ある。
FIG. 18 is a diagram illustrating a character recognition result according to the second embodiment.

【図19】第2の実施の形態の候補パス作成部の構成を
示す図である。
FIG. 19 is a diagram illustrating a configuration of a candidate path creation unit according to the second embodiment.

【図20】第2の実施の形態の候補パス作成処理を示す
図である。
FIG. 20 is a diagram illustrating a candidate path creation process according to the second embodiment.

【図21】第2の実施の形態のセグメントテーブルを示
す図である。
FIG. 21 illustrates a segment table according to the second embodiment.

【図22】第2の実施の形態のルール適用と候補パス作
成の説明に供する図である。
FIG. 22 is a diagram provided for describing rules application and candidate path creation according to the second embodiment.

【図23】第2の実施の形態の候補パス作成結果を示す
図である。
FIG. 23 is a diagram illustrating a candidate path creation result according to the second embodiment.

【図24】第3の実施の形態の文字認識装置の構成を示
す図である。
FIG. 24 is a diagram illustrating a configuration of a character recognition device according to a third embodiment.

【図25】第3の実施の形態の文字認識フローを示す図
である。
FIG. 25 is a diagram illustrating a character recognition flow according to the third embodiment.

【図26】第3の実施の形態の入力画像を示す図であ
る。
FIG. 26 is a diagram illustrating an input image according to the third embodiment.

【図27】第3の実施の形態の文字種連接規則を示す図
である。
FIG. 27 is a diagram illustrating a character type connection rule according to the third embodiment;

【図28】第3の実施の形態の文字認識結果を示す図で
ある。
FIG. 28 is a diagram illustrating a character recognition result according to the third embodiment.

【図29】第3の実施の形態のセグメントテーブルを示
す図である。
FIG. 29 is a diagram illustrating a segment table according to the third embodiment.

【図30】第3の実施の形態の候補パス作成関数の処理
を示す図である。
FIG. 30 is a diagram illustrating processing of a candidate path creation function according to the third embodiment.

【図31】第3の実施の形態の候補パス作成結果を示す
図である。
FIG. 31 is a diagram illustrating a candidate path creation result according to the third embodiment;

【符号の説明】[Explanation of symbols]

10:画像入力部 12:候補文字パタン抽出部 14:文字認識部 16:候補パス作成部 18:最良結果選択部 20:座標メモリ 22:文字コード用メモリ 24:制御部 26:連接規則検査部 28:文字種連接規則 30:文字列パタン 32:画像メモリ 34:セグメント抽出部 36:セグメント統合部 38:第1座標読出部 40:第2座標読出部 42:距離値検出部 44:比較部 46:生成部 48:書込部 50:第1指定部 52:第1文字読出部 54:第2指定部 56:第2文字読出部 58:テーブル作成部 60:パスメモリ 62:評価値計算部 64:切出し位置出力部 66:パス長計数部 68:単語照合部 10: Image input unit 12: Candidate character pattern extraction unit 14: Character recognition unit 16: Candidate path creation unit 18: Best result selection unit 20: Coordinate memory 22: Character code memory 24: Control unit 26: Connection rule inspection unit 28 : Character type concatenation rule 30: Character string pattern 32: Image memory 34: Segment extraction unit 36: Segment integration unit 38: First coordinate reading unit 40: Second coordinate reading unit 42: Distance value detection unit 44: Comparison unit 46: Generation Unit 48: writing unit 50: first designation unit 52: first character reading unit 54: second designation unit 56: second character reading unit 58: table creation unit 60: path memory 62: evaluation value calculation unit 64: cutout Position output unit 66: path length counting unit 68: word matching unit

Claims (22)

【特許請求の範囲】[Claims] 【請求項1】 (a)認識対象の文字列パタンから連続
した複数個の候補文字パタンを抽出すると共に、その位
置情報を座標メモリに記録するステップと、(b)前記
抽出した候補文字パタンを認識して適当数の文字コード
を求め、該文字コードを文字コード用メモリに記録する
ステップと、(c)前記記録した位置情報に基づいて前
記記録した文字コードを配列させ、候補パスを作成する
ステップと、(d)前記作成した候補パスの中から、前
記認識の結果に基づき、最良パスを選択するステップと
を含む文字認識方法において、 前記(c)ステップは、 (c1)前記抽出した候補文字パタンを第1候補文字パ
タンとして指定するステップと、 (c2)前記第1候補文字パタンに対して求めた前記文
字コードを第1文字コードとして前記文字コード用メモ
リから読み出すステップと、 (c3)前記記録した位置情報に基づいて、前記第1候
補文字パタンに隣接する候補文字パタンを第2候補文字
パタンとして指定するステップと、 (c4)前記第2候補文字パタンに対して求めた前記文
字コードを第2文字コードとして前記文字コード用メモ
リから読み出すステップと、 (c5)前記第1文字コードと前記第2文字コードの連
接関係が予め設定した連接規則を満たす場合に、前記第
1文字コードをパスメモリに記録するステップとを含
み、 前記(c1)ステップから(c5)ステップを繰り返し
行うことにより前記パスメモリに記録される文字コード
の配列を前記候補パスとすることを特徴とする文字認識
方法。
1. A method comprising: (a) extracting a plurality of consecutive candidate character patterns from a character string pattern to be recognized; and recording position information thereof in a coordinate memory; and (b) extracting the extracted candidate character patterns. Recognizing an appropriate number of character codes and recording the character codes in a character code memory; and (c) arranging the recorded character codes based on the recorded position information to create a candidate path. And (d) selecting a best path from the created candidate paths based on the result of the recognition. In the character recognition method, the step (c) includes: (c1) the extracted candidate path; Specifying a character pattern as a first candidate character pattern; and (c2) using the character code determined for the first candidate character pattern as a first character code, Reading from a character code memory; (c3) specifying a candidate character pattern adjacent to the first candidate character pattern as a second candidate character pattern based on the recorded position information; Reading the character code obtained for the two candidate character patterns from the character code memory as a second character code; and (c5) a connection in which the connection relationship between the first character code and the second character code is set in advance. Recording the first character code in a path memory when the rule is satisfied, and repeating the steps (c1) to (c5) to change the character code array recorded in the path memory to the A character recognition method characterized by using a candidate path.
【請求項2】 請求項1に記載の文字認識方法におい
て、 前記第1文字コードおよび前記第2文字コードの各々の
文字種が同一である連接関係のときに、前記連接規則が
満たされることを特徴とする文字認識方法。
2. The character recognition method according to claim 1, wherein the connection rule is satisfied when the first character code and the second character code have the same connection type. Character recognition method.
【請求項3】 請求項2に記載の文字認識方法におい
て、 前記第1文字コードが同形文字の分類に属する文字コー
ドであることを特徴とする文字認識方法。
3. The character recognition method according to claim 2, wherein the first character code is a character code belonging to a class of homomorphic characters.
【請求項4】 請求項3に記載の文字認識方法におい
て、 前記同形文字は、ハイフン「−」、長音「ー」、漢数字
「一」等の横棒文字であることを特徴とする文字認識方
法。
4. The character recognition method according to claim 3, wherein the isomorphic characters are horizontal bar characters such as a hyphen "-", a long sound "-", and a Chinese numeral "1". Method.
【請求項5】 請求項3に記載の文字認識方法におい
て、 前記同形文字は、数字「0」、英字「O」等の丸文字で
あることを特徴とする文字認識方法。
5. The character recognition method according to claim 3, wherein the isomorphic characters are round characters such as a numeral “0” and an alphabetic character “O”.
【請求項6】 請求項3に記載の文字認識方法におい
て、 前記同形文字は、数字「1」、英字「l」等の縦棒文字
であることを特徴とする文字認識方法。
6. The character recognition method according to claim 3, wherein the isomorphic characters are vertical bar characters such as a numeral “1” and an alphabetical character “l”.
【請求項7】 請求項1に記載の文字認識方法におい
て、 前記第1文字コードと前記第2文字コードとが特定の組
合せのときに、前記第2文字コードを前記パスメモリか
ら消去し、前記特定の組合せに対応する文字コードを前
記第1文字コードの代りに前記パスメモリへ記録するこ
とを特徴とする文字認識方法。
7. The character recognition method according to claim 1, wherein when the first character code and the second character code have a specific combination, the second character code is deleted from the path memory. A character recognition method, wherein a character code corresponding to a specific combination is recorded in the path memory instead of the first character code.
【請求項8】 請求項7に記載の文字認識方法におい
て、 前記特定の組合せは、前記第2文字コードを「田」と
し、前記第1文字コードを「丁」としたときの組合せで
あり、該組合せに対応する文字コードを「町」としたこ
とを特徴とする文字認識方法。
8. The character recognition method according to claim 7, wherein the specific combination is a combination when the second character code is “ta” and the first character code is “cho”. A character recognition method, wherein the character code corresponding to the combination is "town".
【請求項9】 請求項7に記載の文字認識方法におい
て、 前記特定の組合せは、前記第2文字コードを「木」と
し、前記第1文字コードを「寸」としたときの組合せで
あり、該組合せに対応する文字コードを「村」としたこ
とを特徴とする文字認識方法。
9. The character recognition method according to claim 7, wherein the specific combination is a combination when the second character code is “tree” and the first character code is “dimension”. A character recognition method, wherein a character code corresponding to the combination is "village".
【請求項10】 請求項1に記載の文字認識方法におい
て、 前記候補文字パタンの抽出は、 (a1)前記文字列パタンの黒ブロック領域をセグメン
トとして抽出し、該セグメントの位置座標を前記座標メ
モリに記録するステップと、 (a2)前記抽出したセグメント同士を各々の位置座標
に基づいて統合して新規セグメントを生成し、該新規セ
グメントの位置座標を前記座標メモリに追記するステッ
プとを以て行い、 前記(a1)ステップおよび(a2)ステップの実行に
より前記座標メモリに記録された前記セグメントおよび
新規セグメントの位置座標を、前記候補文字パタンの位
置座標としたことを特徴とする文字認識方法。
10. The character recognition method according to claim 1, wherein the extraction of the candidate character pattern includes: (a1) extracting a black block area of the character string pattern as a segment, and storing the position coordinates of the segment in the coordinate memory. And (a2) integrating the extracted segments based on their respective position coordinates to generate a new segment, and adding the position coordinates of the new segment to the coordinate memory. A character recognition method, wherein the position coordinates of the segment and the new segment recorded in the coordinate memory by executing the steps (a1) and (a2) are used as the position coordinates of the candidate character pattern.
【請求項11】 請求項10に記載の文字認識方法にお
いて、 前記新規セグメントの生成は、 前記記録したセグメント#Sn(nは整数)の位置座標
を、前記座標メモリから読み出すステップと、 前記セグメント#Snとは別のセグメント#Sk(kは
整数)の位置座標を、前記座標メモリから読み出すステ
ップと、 セグメント#Snおよびセグメント#Sk間の距離値D
nkを前記読み出した各々の位置座標から求めるステップ
と、 前記文字列パタンの行高さLの定数e(eは正の実数)
倍と前記求めた距離値Dnkとを比較するステップと、 該比較の結果がDnk≦e・Lのときに、セグメント#S
nと、セグメント#Skと、これらセグメント間のセグ
メントとを統合して前記新規セグメントを生成するステ
ップとを以て行うことを特徴とする文字認識方法。
11. The character recognition method according to claim 10, wherein the generation of the new segment includes: reading a position coordinate of the recorded segment #Sn (n is an integer) from the coordinate memory; Reading the position coordinates of a segment #Sk (k is an integer) different from Sn from the coordinate memory; and a distance value D between the segment #Sn and the segment #Sk.
determining nk from each of the read position coordinates; and a constant e (e is a positive real number) of a line height L of the character string pattern.
Comparing the distance with the distance value D nk obtained above, and when the result of the comparison is D nk ≦ e · L, the segment #S
n, a segment #Sk, and a segment between these segments to generate the new segment.
【請求項12】 認識対象の文字列パタンを含む原画像
を読み取り、該原画像を格納する画像メモリを具えた画
像入力部と、前記文字列パタンから連続した複数個の候
補文字パタンを抽出すると共に、その位置情報を座標メ
モリに記録する候補文字パタン抽出部と、前記抽出され
た候補文字パタンを認識して適当数の文字コードを求
め、該文字コードを文字コード用メモリに記録する文字
認識部と、前記記録された位置情報に基づいて前記記録
された文字コードを配列させ、候補パスを作成する候補
パス作成部と、前記作成された候補パスの中から、前記
認識の結果に基づき、最良パスを選択する最良結果選択
部とを具える文字認識装置において、 前記候補パス作成部は、 前記抽出された候補文字パタンを第1候補文字パタンと
して指定する第1指定部と、 前記第1候補文字パタンに対して求められた前記文字コ
ードを第1文字コードとして前記文字コード用メモリか
ら読み出す第1文字読出部と、 前記記録された位置情報に基づいて、前記第1候補文字
パタンに隣接する候補文字パタンを第2候補文字パタン
として指定する第2指定部と、 前記第2候補文字パタンに対して求められた前記文字コ
ードを第2文字コードとして前記文字コード用メモリか
ら読み出す第2文字読出部と、 前記第1文字コードと前記第2文字コードの連接関係が
予め設定した連接規則を満たす場合に、前記第1文字コ
ードをパスメモリに記録する連接規則検査部とを具える
ことを特徴とする文字認識装置。
12. An original image including a character string pattern to be recognized is read, an image input unit having an image memory for storing the original image, and a plurality of continuous candidate character patterns are extracted from the character string pattern. A candidate character pattern extraction unit that records the position information in a coordinate memory; and a character recognition unit that recognizes the extracted candidate character pattern to determine an appropriate number of character codes and records the character codes in a character code memory. Unit, arrange the recorded character code based on the recorded position information, a candidate path creation unit that creates a candidate path, from among the created candidate paths, based on the result of the recognition, In the character recognition device including a best result selection unit that selects a best path, the candidate path creation unit specifies the extracted candidate character pattern as a first candidate character pattern. A first character reading unit that reads out the character code obtained for the first candidate character pattern from the character code memory as a first character code, based on the recorded position information, A second designation unit that designates a candidate character pattern adjacent to the first candidate character pattern as a second candidate character pattern; and the character code determined for the second candidate character pattern as a second character code. A second character reading unit that reads from the code memory; and a connection rule that records the first character code in a path memory when a connection relationship between the first character code and the second character code satisfies a predetermined connection rule. A character recognition device comprising an inspection unit.
【請求項13】 請求項12に記載の文字認識装置にお
いて、 前記第1文字コードおよび前記第2文字コードの各々の
文字種が同一である連接関係のときに、前記連接規則が
満たされることを特徴とする文字認識装置。
13. The character recognition device according to claim 12, wherein the connection rule is satisfied when the first character code and the second character code have the same connection type. Character recognition device.
【請求項14】 請求項13に記載の文字認識装置にお
いて、 前記第1文字コードが同形文字の分類に属する文字コー
ドであることを特徴とする文字認識装置。
14. The character recognition device according to claim 13, wherein the first character code is a character code belonging to a class of homomorphic characters.
【請求項15】 請求項14に記載の文字認識装置にお
いて、 前記同形文字は、ハイフン「−」、長音「ー」、漢数字
「一」等の横棒文字であることを特徴とする文字認識装
置。
15. The character recognition device according to claim 14, wherein the isomorphic characters are horizontal bar characters such as a hyphen "-", a long sound "-", and a Chinese numeral "1". apparatus.
【請求項16】 請求項14に記載の文字認識装置にお
いて、 前記同形文字は、数字「0」、英字「O」等の丸文字で
あることを特徴とする文字認識装置。
16. The character recognition device according to claim 14, wherein the isomorphic characters are round characters such as a numeral “0” and an alphabetic character “O”.
【請求項17】 請求項14に記載の文字認識装置にお
いて、 前記同形文字は、数字「1」、英字「l」等の縦棒文字
であることを特徴とする文字認識装置。
17. The character recognition device according to claim 14, wherein the isomorphic characters are vertical bar characters such as a numeral “1” and an alphabetical character “l”.
【請求項18】 請求項12に記載の文字認識装置にお
いて、 前記連接規則検査部は、前記第1文字コードと前記第2
文字コードとが特定の組合せのときに、前記第2文字コ
ードを前記パスメモリから消去し、前記特定の組合せに
対応する文字コードを前記第1文字コードの代りに前記
パスメモリへ記録する手段であることを特徴とする文字
認識装置。
18. The character recognition device according to claim 12, wherein the connection rule checking unit is configured to determine the first character code and the second character code.
When the character code is a specific combination, the second character code is deleted from the path memory, and the character code corresponding to the specific combination is recorded in the path memory instead of the first character code. A character recognition device, comprising:
【請求項19】 請求項18に記載の文字認識装置にお
いて、 前記特定の組合せは、前記第2文字コードを「田」と
し、前記第1文字コードを「丁」としたときの組合せで
あり、該組合せに対応する文字コードを「町」としたこ
とを特徴とする文字認識装置。
19. The character recognition device according to claim 18, wherein the specific combination is a combination when the second character code is “ta” and the first character code is “cho”; A character recognition device, wherein the character code corresponding to the combination is "town".
【請求項20】 請求項18に記載の文字認識装置にお
いて、 前記特定の組合せは、前記第2文字コードを「木」と
し、前記第1文字コードを「寸」としたときの組合せで
あり、該組合せに対応する文字コードを「村」としたこ
とを特徴とする文字認識装置。
20. The character recognition device according to claim 18, wherein the specific combination is a combination when the second character code is “tree” and the first character code is “dimension”, A character recognition device, wherein a character code corresponding to the combination is "village".
【請求項21】 請求項12に記載の文字認識装置にお
いて、 前記候補文字パタン抽出部は、 前記文字列パタンの黒ブロック領域をセグメントとして
抽出し、該セグメントの位置座標を前記座標メモリに記
録するセグメント抽出部と、 前記抽出されたセグメント同士を各々の位置座標に基づ
いて統合して新規セグメントを生成し、該新規セグメン
トの位置座標を前記座標メモリに追記するセグメント統
合部とを具え、 前記座標メモリに記録された位置座標を前記候補文字パ
タンの位置座標として抽出することを特徴とする文字認
識装置。
21. The character recognition device according to claim 12, wherein the candidate character pattern extraction unit extracts a black block area of the character string pattern as a segment, and records the position coordinates of the segment in the coordinate memory. A segment extraction unit; and a segment integration unit that integrates the extracted segments based on their respective position coordinates to generate a new segment, and adds the position coordinates of the new segment to the coordinate memory. A character recognition device for extracting position coordinates recorded in a memory as position coordinates of the candidate character pattern.
【請求項22】 請求項21に記載の文字認識装置にお
いて、 前記セグメント統合部は、 前記記録されたセグメント#Sn(nは整数)の位置座
標を、前記座標メモリから読み出す第1座標読出部と、 前記セグメント#Snとは別のセグメント#Sk(kは
整数)の位置座標を、前記座標メモリから読み出す第2
座標読出部と、 セグメント#Snおよびセグメント#Sk間の距離値D
nkを前記読み出された各々の位置座標から求める距離値
検出部と、 前記文字列パタンの行高さLの定数e(eは正の実数)
倍と前記求められた距離値Dnkとを比較する比較部と、 該比較の結果がDnk≦e・Lのときに、セグメント#S
nと、セグメント#Skと、これらセグメント間のセグ
メントとを統合して前記新規セグメントを生成する生成
部と、 前記生成された新規セグメントの位置情報を前記座標メ
モリに追加して記録する書込部とを具えることを特徴と
する文字認識装置。
22. The character recognition device according to claim 21, wherein the segment integrating unit reads a position coordinate of the recorded segment #Sn (n is an integer) from the coordinate memory; A second step of reading the position coordinates of a segment #Sk (k is an integer) different from the segment #Sn from the coordinate memory;
Distance value D between coordinate reading unit and segment #Sn and segment #Sk
a distance value detection unit for determining nk from the read position coordinates; and a constant e (e is a positive real number) of a line height L of the character string pattern.
A comparing unit that compares the distance with the calculated distance value D nk , and when the result of the comparison is D nk ≦ eL, the segment #S
n, a segment #Sk, and a segment between these segments to generate the new segment by integrating the segment, and a writing unit that additionally records the generated position information of the new segment in the coordinate memory. And a character recognition device comprising:
JP9002402A 1997-01-09 1997-01-09 Character recognizing method and device therefor Withdrawn JPH10198761A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9002402A JPH10198761A (en) 1997-01-09 1997-01-09 Character recognizing method and device therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9002402A JPH10198761A (en) 1997-01-09 1997-01-09 Character recognizing method and device therefor

Publications (1)

Publication Number Publication Date
JPH10198761A true JPH10198761A (en) 1998-07-31

Family

ID=11528257

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9002402A Withdrawn JPH10198761A (en) 1997-01-09 1997-01-09 Character recognizing method and device therefor

Country Status (1)

Country Link
JP (1) JPH10198761A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013047887A (en) * 2011-08-29 2013-03-07 Fuji Xerox Co Ltd Image processor and image processing program
JP2013097590A (en) * 2011-11-01 2013-05-20 Fujitsu Ltd Computer program for character recognition, character recognition device and character recognition method
JP2013186906A (en) * 2012-03-09 2013-09-19 Fujitsu Ltd Method and device for recognizing character string in image
CN112800904A (en) * 2021-01-19 2021-05-14 深圳市玩瞳科技有限公司 Method and device for identifying character strings in picture according to finger pointing

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013047887A (en) * 2011-08-29 2013-03-07 Fuji Xerox Co Ltd Image processor and image processing program
JP2013097590A (en) * 2011-11-01 2013-05-20 Fujitsu Ltd Computer program for character recognition, character recognition device and character recognition method
JP2013186906A (en) * 2012-03-09 2013-09-19 Fujitsu Ltd Method and device for recognizing character string in image
CN112800904A (en) * 2021-01-19 2021-05-14 深圳市玩瞳科技有限公司 Method and device for identifying character strings in picture according to finger pointing

Similar Documents

Publication Publication Date Title
JP2973944B2 (en) Document processing apparatus and document processing method
EP0054439B1 (en) Character segmentation method
US5583949A (en) Apparatus and method for use in image processing
US5267332A (en) Image recognition system
CN101127081B (en) Table data processing method and apparatus
US6341176B1 (en) Method and apparatus for character recognition
JP2726568B2 (en) Character recognition method and device
US6014460A (en) Character strings reading device
EP1971957B1 (en) Methods and apparatuses for extending dynamic handwriting recognition to recognize static handwritten and machine generated text
KR100487386B1 (en) Retrieval of cursive chinese handwritten annotations based on radical model
JP3452774B2 (en) Character recognition method
JP2004139484A (en) Form processing device, program for implementing it, and program for creating form format
JPH0420226B2 (en)
US5265171A (en) Optical character reading apparatus for performing spelling check
JPH1011531A (en) Slip reader
US6567545B1 (en) Format recognition method, apparatus and storage medium
JPH10198761A (en) Character recognizing method and device therefor
US20030123730A1 (en) Document recognition system and method using vertical line adjacency graphs
JP5712415B2 (en) Form processing system and form processing method
JP2000322514A (en) Pattern extraction device and character segmentation device
JP3157530B2 (en) Character extraction method
JPH0689330A (en) Image filing system
JPH11203408A (en) Handwritten pattern storing/retrieving device
JP2993533B2 (en) Information processing device and character recognition device
JP2851102B2 (en) Character extraction method

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20040406