JPH06348899A - Character recognizing device - Google Patents

Character recognizing device

Info

Publication number
JPH06348899A
JPH06348899A JP5140747A JP14074793A JPH06348899A JP H06348899 A JPH06348899 A JP H06348899A JP 5140747 A JP5140747 A JP 5140747A JP 14074793 A JP14074793 A JP 14074793A JP H06348899 A JPH06348899 A JP H06348899A
Authority
JP
Japan
Prior art keywords
pattern
sub
unit
line width
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5140747A
Other languages
Japanese (ja)
Other versions
JP2902904B2 (en
Inventor
Toru Miyamae
徹 宮前
Koichi Higuchi
浩一 樋口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP5140747A priority Critical patent/JP2902904B2/en
Publication of JPH06348899A publication Critical patent/JPH06348899A/en
Application granted granted Critical
Publication of JP2902904B2 publication Critical patent/JP2902904B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

PURPOSE:To provide a character recognizing device capable of obtaining highly accurate and stable recognition performance even for low quality character patterns with large variation in a local line width. CONSTITUTION:Four kinds of sub patterns for representing the distribution state of the strokes of characters based on the average line width source character patterns are extracted at every scanning direction and thinning pattern composed of the patterns belonging to neither of extracted sub patterns are extracted. The presence/absence of the need of extracting the sub patterns is judged for the remaining patterns for which infinitesimal segments are removed from the thinning patterns and thinning sub patterns based on the average line width of the pertinent thinning pattern are extracted when it is judged that the extraction is needed. Thereafter, either of the sub pattern and the synthesis sub pattern of the sub pattern with the thinning sub pattern is outputted to a feature extraction part 135, feature extraction relating to the pertinent character pattern is performed and the characters are recognized by collating the features with the features of a dictionary.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】この発明は、一部がかすれたよう
な局所的に線幅の異なる文字パタンに対処した高精度な
文字認識装置に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a high-accuracy character recognizing device which copes with a character pattern having a partially different line width, such as a faint part.

【0002】[0002]

【従来の技術】従来、入力文字パタンの特徴を抽出し、
予め用意した辞書との照合によって、認識結果を出力す
る文字認識装置としては、例えば特公昭60−3875
6に開示されるものがあった。この文字認識装置による
処理の概要について以下に説明する。
2. Description of the Related Art Conventionally, characteristics of input character patterns are extracted,
As a character recognition device that outputs a recognition result by collating with a dictionary prepared in advance, for example, Japanese Patent Publication No. 60-3875.
6 was disclosed. The outline of the processing by the character recognition device will be described below.

【0003】先ず、入力文字パタンの各セルの明るさを
光電変換によって、量子化された電気信号である2値画
像に変換し、パタンレジスタに格納しておく。そして前
記パタンレジスタ内の文字パタンの外接枠を検出し、外
接枠内の文字パタンの線幅を計算する。次に外接枠内の
文字パタンに対して、水平、垂直、右斜め、左斜め方向
に走査し、前記線幅を閾値とする連続黒画素成分を検出
することによって、該入力文字パタンに対する4種のサ
ブパタンを抽出する。また、前記パタンレジスタの外接
枠内の文字パタンに対して、各分割領域内の黒画素数が
同数になるようにN×M個の格子状の部分領域に非線形
分割する。次に4種のサブパタンのそれぞれについて、
分割された部分領域内における該サブパタンの黒画素数
を計数し、これを文字パタンの大きさで正規化すること
によって、各方向における文字線の分布状態を反映する
N×M×4次元の特徴マトリクスを抽出する。この特徴
マトリクスと予め用意された複数の標準文字の特徴マト
リクスである辞書とを照合し、該照合結果より該入力文
字パタンの認識結果を出力する。
First, the brightness of each cell of the input character pattern is converted into a binary image which is a quantized electric signal by photoelectric conversion and stored in a pattern register. Then, the circumscribing frame of the character pattern in the pattern register is detected, and the line width of the character pattern in the circumscribing frame is calculated. Next, the character pattern in the circumscribing frame is scanned horizontally, vertically, diagonally to the right, and diagonally to the left to detect continuous black pixel components with the line width as a threshold value, thereby determining four types of the input character pattern. The sub-pattern of is extracted. Further, the character pattern in the circumscribing frame of the pattern register is non-linearly divided into N × M grid-shaped partial regions so that the number of black pixels in each divided region is the same. Next, for each of the four types of sub patterns,
The number of black pixels of the sub-pattern in the divided partial area is counted and normalized by the size of the character pattern to reflect the distribution state of the character lines in each direction, which is an N × M × 4 dimensional feature. Extract the matrix. The feature matrix is collated with a dictionary, which is a feature matrix of a plurality of standard characters prepared in advance, and the recognition result of the input character pattern is output from the collation result.

【0004】[0004]

【発明が解決しようとする課題】しかし、前記文字認識
装置においては、以下のような問題点があった。即ち、
従来技術では、入力された文字パタンの外接枠内の2値
画像に対して、水平、垂直、右斜め、左斜めの4方向に
それぞれ走査し、当該文字パタンの平均線幅の2倍を閾
値として、連続した黒画素よりなるストロ−クを抽出
し、それらの分布を表わす4種のサブパタンを抽出して
いた。しかし、従来のサブパタンの抽出方法では、当然
ながら前記線幅の2倍より小さい連続黒画素数を持つス
トロ−ク成分は、抽出されない。従って、一部がかすれ
たような文字パタン、即ち、局所的な線幅が他の部分と
比較して極めて小さくなっている文字パタン等は、その
かすれた部分がサブパタン及びサブパタンに基づいて抽
出される特徴マトリクスに反映されず、その結果、認識
性能の低下の一因を為していたという問題点があった。
However, the above character recognition device has the following problems. That is,
In the conventional technique, the binary image in the circumscribed frame of the input character pattern is scanned in each of four directions of horizontal, vertical, right diagonal, and left diagonal, and a threshold value is twice the average line width of the character pattern. As an example, a stroke consisting of continuous black pixels was extracted, and four types of sub-patterns representing their distribution were extracted. However, the conventional sub-pattern extraction method naturally does not extract the stroke component having the number of continuous black pixels smaller than twice the line width. Therefore, a character pattern that is partly faint, that is, a character pattern whose local line width is extremely smaller than other parts, is extracted based on the sub-pattern and sub-pattern. However, there was a problem in that it was not reflected in the feature matrix, and as a result, it contributed to the deterioration of recognition performance.

【0005】このような場合の例を図4及び図6(a)
に示す。図4では、アルファベットの「Q」の字のひげ
の部分、即ち波線401で囲まれた領域内のセグメント
がかすれて3つに分裂してしまった場合を表している。
このかすれたひげの部分は、本来ならば、左斜め方向の
走査によって、ストロ−クの一部として検出されるわけ
であるが、この例では、いかなる方向の走査においても
サブパタンの一部としては検出されない。従って、ひげ
の部分は特徴に反映されず、ひげのない類似文字、例え
ば、「O」等に誤読する確率が増大することになる。
An example of such a case is shown in FIGS. 4 and 6 (a).
Shown in. FIG. 4 shows a case where the beard portion of the letter “Q” of the alphabet, that is, the segment in the area surrounded by the wavy line 401 is faintly divided into three.
This faint whisker is normally detected as a part of the stroke by scanning in the left diagonal direction, but in this example, as a part of the sub-pattern in scanning in any direction. Not detected. Therefore, the beard portion is not reflected in the feature, and the probability of misreading a similar character without a beard, such as "O", increases.

【0006】また図6(a)では、漢字の「因」の字を
扱っている。この場合、「因」を構成する要素の内、外
側の部分である「口」に対し、内側の部分である「大」
が通常より小さく書かれ、文字全体の平均線幅の2倍以
下の大きさしか持たないため、平均線幅を用いた走査で
は、図6(b)、図6(c)、図6(d)、図6(e)
に示したように「大」の字がどのサブパタンにも反映さ
れないといった事態が生じ、大きな問題点となる。
Further, in FIG. 6 (a), the kanji character "Cause" is used. In this case, of the elements that make up the "cause," the "mouth," which is the outer part, is "large," which is the inner part.
Is written smaller than usual and has a size of not more than twice the average line width of the entire character. Therefore, in scanning using the average line width, FIG. 6 (b), FIG. 6 (c), and FIG. ), FIG. 6 (e)
As shown in, there is a situation in which the character “large” is not reflected in any sub-pattern, which is a big problem.

【0007】また、上述のように一部がかすれたり、小
さく書かれたりした文字パタンではないときでも、一部
がつぶれたことにより平均線幅の値が非常に大きくな
り、その結果、通常のストロ−クが走査によってサブパ
タンとして検出されず、故に特徴マトリクスに反映され
ず、認識性能の低下をもたらすという問題点があった。
このような場合の例を図5に示す。図5は、数字の
「5」において、下部がル−プを作りつぶれてしまった
例であるが、このとき、文字全体の平均線幅は大きな値
となり、その結果、例えば、波線501で示されたよう
な通常に書かれたストロ−クの部分等は線幅の2倍以下
の大きさとなってしまい、結局、サブパタンとして抽出
されなくなる。従って、波線501が示すストロ−クが
ないパタンとして、特徴抽出されるので、例えば「6」
等に極めて類似してくることになり、「6」に誤読する
確率が増大する。
Further, even when the character pattern is not faint or written small as described above, the value of the average line width becomes very large due to the part being crushed. There is a problem in that the stroke is not detected as a sub-pattern by scanning and is therefore not reflected in the feature matrix, resulting in deterioration of recognition performance.
An example of such a case is shown in FIG. FIG. 5 shows an example in which the lower part of the numeral "5" has been formed into a loop, but at this time, the average line width of the entire character becomes a large value, and as a result, for example, a wavy line 501 is shown. The stroke portion or the like which is normally written as described above has a size of twice the line width or less, and is eventually not extracted as a sub pattern. Therefore, since the feature is extracted as a pattern having no stroke indicated by the wavy line 501, for example, "6".
And so on, and the probability of misreading as "6" increases.

【0008】本発明は、前記従来のサブパタン抽出方法
において、文字を構成する各ストロ−ク成分の線幅が平
均線幅に近いところで分布する場合には、有効な特徴抽
出となり得る一方、局所的なストロ−クの線幅が他の部
分の線幅と大きな差がある場合、即ち、一部がつぶれて
いたり、かすれていたりするような文字パタンに対して
は、適切な特徴抽出ができず認識性能の低下をもたらす
といった問題点を除去し、局所線幅の異なる各ストロ−
ク成分のそれぞれに対して、最適な閾値で各方向から走
査してサブパタンを抽出し、該サブパタンに基づいた特
徴抽出、認識処理を行うことによって、局所的な線幅に
大きなばらつきのある品質の良くない文字パタンに対し
ても、高精度で、安定な認識性能の得られる文字認識装
置を提供することを目的とする。
According to the present invention, in the above-mentioned conventional sub-pattern extraction method, when the stroke width of each stroke component constituting a character is distributed near the average stroke width, effective feature extraction can be performed, while local feature extraction can be performed. If the stroke width is significantly different from that of other parts, that is, if the character pattern is partially crushed or faint, proper feature extraction cannot be performed. By eliminating the problem that the recognition performance deteriorates, each strobe with different local line width
Each sub-component is scanned from each direction with an optimal threshold value to extract a sub-pattern, and feature extraction and recognition processing based on the sub-pattern are performed to obtain a local line width with a large variation in quality. It is an object of the present invention to provide a character recognition device that can obtain stable recognition performance with high accuracy even for bad character patterns.

【0009】[0009]

【課題を解決するための手段】本発明は、前記課題を解
決するために、帳票等に記入された文字パタンを光学的
に走査して、量子化された電気信号である2値画像に変
換する光電変換部と、前記2値画像に変換された文字パ
タンを格納するパタンレジスタと、前記パタンレジスタ
内の文字パタンの外接枠を検出する外接枠検出部と、前
記パタンレジスタの外接枠内の文字パタンの線幅を算出
する文字パタン線幅計算部と、前記パタンレジスタの外
接枠内の文字パタンに対して、各々、水平、垂直、右斜
め、左斜め方向に走査して得られた黒画素の連続数が前
記線幅に基づいて定められた閾値を超えた場合にストロ
−クとして検出し、これらのストロ−クの分布を表わす
サブパタンを各方向毎に4種類抽出するサブパタン抽出
部と、前記パタンレジスタの外接枠内の2値画像及び前
記4種類のサブパタンより、文字パタンを構成する黒画
素の中で、前記4種類のサブパタンのいずれにも属さな
い黒画素をかすれパタンとして抽出するかすれパタン抽
出部と、前記かすれパタンを構成する各々独立したセグ
メントのうち、微小セグメントを除去する微小セグメン
ト除去部と、前記かすれパタンの線幅を算出するかすれ
パタン線幅計算部と、微小セグメントを除去したかすれ
パタンについてサブパタンの抽出の必要が有りと判定さ
れた場合に、前記かすれパタンの線幅に基づいてかすれ
パタンのストロ−クの分布を表わすかすれサブパタンを
前記同様に各走査方向毎に4種類抽出するかすれサブパ
タン抽出部と、前記サブパタン或は前記サブパタンとか
すれサブパタンを各走査方向毎に合成した合成サブパタ
ンの何れか一方のサブパタンを特徴抽出部に出力する制
御部と、前記サブパタン或は合成サブパタンの特徴マト
リクスを抽出する特徴抽出部と、前記特徴マトリクスと
予め用意された辞書マトリクスとを照合した結果に基づ
き認識結果を出力する識別部とを有することを特徴とす
る。
In order to solve the above problems, the present invention optically scans a character pattern written on a form or the like and converts it into a binary image which is a quantized electric signal. A photoelectric conversion unit, a pattern register for storing the character pattern converted into the binary image, a circumscribing frame detecting unit for detecting a circumscribing frame of the character pattern in the pattern register, and a circumscribing frame of the pattern register. A character pattern line width calculation unit for calculating the line width of a character pattern, and a black obtained by scanning the character pattern in the circumscribing frame of the pattern register in the horizontal, vertical, right diagonal, and left diagonal directions, respectively. A sub-pattern extraction unit that detects a stroke when the number of consecutive pixels exceeds a threshold value determined based on the line width and extracts four types of sub-patterns representing the distribution of these strokes in each direction. , The pattern From the binary image in the circumscribing frame of the register and the four types of sub-patterns, among the black pixels forming the character pattern, a black pattern that does not belong to any of the four types of sub-patterns is extracted as a fading pattern. Section, a fine segment removal unit that removes a fine segment among the independent segments that form the blur pattern, a blur pattern line width calculation unit that calculates the line width of the blur pattern, and a blur that has removed the fine segment. When it is determined that it is necessary to extract a sub-pattern for a pattern, four types of faint sub-patterns representing the stroke distribution of the faint pattern are extracted for each scanning direction based on the line width of the faint pattern. The blurring sub-pattern extraction unit and the sub-pattern or the sub-pattern and the blurring sub-pattern are combined for each scanning direction. The control unit that outputs any one of the synthesized sub-patterns to the feature extraction unit, the feature extraction unit that extracts the feature matrix of the sub-pattern or the synthesized sub-pattern, and the feature matrix and the dictionary matrix prepared in advance. And an identification unit that outputs a recognition result based on the result.

【0010】[0010]

【作用】この発明によれば、原文字パタンの平均線幅に
基づいた文字のストロークの分布状態を表わすサブパタ
ンが各走査方向毎に4種類抽出され、更に抽出されたサ
ブパタンの何れにも属さないパタンから成るかすれパタ
ンが抽出される。このかすれパタンから微小セグメント
を除去した残りのパタンに対しサブパタンの抽出の必要
の有無が判定され、抽出の必要有りと判定された場合に
は当該かすれパタンの平均線幅に基づいたかすれサブパ
タンが抽出される。その後、前記サブパタン或はかすれ
サブパタンが抽出された場合には前記サブパタンとかす
れサブパタンとの合成サブパタンの何れか一方が制御部
の制御の下に特徴抽出部に出力されて当該文字パタンに
関する特徴抽出が行われ、この特徴が辞書の特徴と照合
されることにより文字認識がおこなわれる。従って、文
字パタンを構成するストローク成分で文字認識に本質的
な役割を果たすものの一部がかすれたり或は小さくなっ
たような場合でもかすれサブパタンとして救済し抽出す
ることが可能となるため局所的な線幅にばらつきの有る
ような低品質の文字パタンに対し他も高精度で、安定し
た認識性能を得ることが可能となる。
According to the present invention, four types of sub-patterns representing the distribution of the strokes of characters based on the average line width of the original character pattern are extracted for each scanning direction, and do not belong to any of the extracted sub-patterns. A faint pattern consisting of patterns is extracted. It is determined whether or not sub-patterns need to be extracted from the remaining patterns obtained by removing minute segments from this blurring pattern, and if it is determined that extraction is necessary, a blurring sub-pattern based on the average line width of the blurring pattern is extracted. To be done. After that, when the sub pattern or the faint sub pattern is extracted, one of the combined sub patterns of the sub pattern and the faint sub pattern is output to the feature extraction unit under the control of the control unit to extract the feature related to the character pattern. Then, character recognition is performed by collating this feature with the feature of the dictionary. Therefore, even if a part of the stroke component that constitutes the character pattern, which plays an essential role in character recognition, becomes faint or small, it can be relieved and extracted as a faint sub-pattern, so that it can be locally extracted. It is possible to obtain stable recognition performance with high accuracy for other low-quality character patterns having line width variations.

【0011】[0011]

【実施例】以下に本発明による文字認識装置の実施例1
及び実施例2を説明するが、ここでは例えば図4の40
1,図5の501及び図6(a)の「因」を構成する要
素「大」等は、便宜上、かすれパタンという名称で一括
して呼称する。また実施例1では、図6(a)の漢字
「因」という字の2値画像に対して、本実施例を適用し
た例について併せて説明していく。
[Embodiment] Embodiment 1 of the character recognition apparatus according to the present invention will be described below.
And Example 2 will be described. Here, for example, in FIG.
1, 501 in FIG. 5 and the element “large” and the like that constitute the “factor” in FIG. 6A are collectively referred to as a blur pattern for convenience. In addition, in the first embodiment, an example in which the present embodiment is applied to the binary image of the Chinese character “Cause” in FIG.

【0012】図1は、本発明による文字認識装置の実施
例1を示すブロック図である。ここで、101は、文字
パタンをスキャナで走査して得られた光信号入力、10
2は光電変換部、103はパタンレジスタ、104は外
接枠検出部、105は文字パタン線幅計算部、106は
水平方向走査部、107は水平サブパタン1メモリ、1
08は垂直方向走査部、109は垂直サブパタン1メモ
リ、110は右斜め方向走査部、111は右斜めサブパ
タン1メモリ、112は左斜め方向走査部、113は左
斜めサブパタン1メモリ、114はかすれパタン抽出
部、115はかすれパタンメモリ、116はかすれパタ
ン線幅計算部、117は水平方向走査部、118は水平
かすれサブパタンメモリ、119は垂直方向走査部、1
20は垂直かすれサブパタンメモリ、121は右斜め方
向走査部、122は右斜めかすれサブパタンメモリ、1
23は左斜め方向走査部、124は左斜めかすれサブパ
タンメモリ、125は水平サブパタン合成部、126は
水平サブパタン2メモリ、127は垂直サブパタン合成
部、128は垂直サブパタン2メモリ、129は右斜め
サブパタン合成部、130は右斜めサブパタン2メモ
リ、131は左斜めサブパタン合成部、132は左斜め
サブパタン2メモリ、133は出力制御部、134は線
幅判定部、135は特徴抽出部、136は識別部、13
7は辞書メモリ、138は認識結果、139は微小セグ
メント除去部である。
FIG. 1 is a block diagram showing a first embodiment of a character recognition device according to the present invention. Here, 101 is an optical signal input obtained by scanning a character pattern with a scanner, 10
2 is a photoelectric conversion unit, 103 is a pattern register, 104 is a circumscribing frame detection unit, 105 is a character pattern line width calculation unit, 106 is a horizontal scanning unit, 107 is a horizontal sub pattern 1 memory, 1
Reference numeral 08 is a vertical scanning unit, 109 is a vertical sub-pattern 1 memory, 110 is a right diagonal scanning unit, 111 is a right diagonal sub pattern 1 memory, 112 is a left diagonal scanning unit, 113 is a left diagonal sub pattern 1 memory, and 114 is a faint pattern. An extraction unit, 115 is a blur pattern memory, 116 is a blur pattern line width calculation unit, 117 is a horizontal scanning unit, 118 is a horizontal blur sub-pattern memory, 119 is a vertical scanning unit, 1
Reference numeral 20 is a vertical blurring sub-pattern memory, 121 is a diagonal right direction scanning unit, 122 is a right diagonal blurring sub pattern memory, 1
23 is a left oblique direction scanning unit, 124 is a left oblique fading sub pattern memory, 125 is a horizontal sub pattern combining unit, 126 is a horizontal sub pattern 2 memory, 127 is a vertical sub pattern combining unit, 128 is a vertical sub pattern 2 memory, and 129 is a right oblique sub pattern. A synthesizing unit, 130 is a right diagonal sub-pattern 2 memory, 131 is a left diagonal sub-pattern 2 synthesizing unit, 132 is a left diagonal sub-pattern 2 memory, 133 is an output control unit, 134 is a line width determining unit, 135 is a feature extracting unit, 136 is an identifying unit. , 13
Reference numeral 7 is a dictionary memory, 138 is a recognition result, and 139 is a minute segment removing unit.

【0013】帳票等に手書きまたは印刷された文字パタ
ンをスキャナで走査して得られた光信号101は、光電
変換部102において、電気信号に変換され、さらに量
子化れて2値の信号からなる2値画像に変換されパタン
レジスタ103に格納される。
An optical signal 101 obtained by scanning a character pattern handwritten or printed on a form or the like with a scanner is converted into an electric signal in a photoelectric conversion unit 102 and further quantized to be a binary signal. It is converted into a binary image and stored in the pattern register 103.

【0014】外接枠検出部104は、パタンレジスタ1
03に蓄えられた2値画像に対し、水平走査により前記
2値画像の上端及び下端を検出し、垂直走査により前記
2値画像の左端及び右端を検出し、その結果、当該入力
文字パタンに外接する矩形である外接枠を得る。そし
て、外接枠に関する座標値を文字パタン線幅計算部10
5、水平方向走査部106、垂直方向走査部108、右
斜め方向走査部110、左斜め方向走査部112及びか
すれパタン抽出部114に出力し、文字パタンの領域を
指定する。以下の処理において、パタンレジスタ103
の2値画像を用いる場合は、全て外接枠内にある2値画
像を対象とする。
The circumscribing frame detection unit 104 is used in the pattern register 1
For the binary image stored in 03, the upper and lower ends of the binary image are detected by horizontal scanning, the left and right ends of the binary image are detected by vertical scanning, and as a result, the input character pattern is circumscribed. Get a circumscribed frame that is a rectangle. Then, the coordinate values regarding the circumscribing frame are set to the character pattern line width calculation unit 10
5, the horizontal scanning unit 106, the vertical scanning unit 108, the right oblique direction scanning unit 110, the left oblique direction scanning unit 112, and the blur pattern extracting unit 114, and specifies the character pattern area. In the following processing, the pattern register 103
When the binary image of is used, all the binary images within the circumscribed frame are targeted.

【0015】文字パタン線幅計算部105では、当該文
字パタンの平均線幅が計算される。ここで、平均線幅の
求め方の一つの例として、本実施例では、次の方法を採
用した。即ち、パタンレジスタ103の外接枠内の文字
パタンの2値画像の黒画素数をA、4黒画素数をQとし
た時、平均線幅Wrを次式で計算する方法である。 Wr = A / (A − Q) (1) 但し、4黒画素とは、2値画像を2×2の窓で走査した
時に2×2の窓の全てが黒画素となる点であり、4黒画
素数Qとは、そのような4黒画素を計数したものであ
る。
The character pattern line width calculation unit 105 calculates the average line width of the character pattern. Here, as one example of how to obtain the average line width, the following method is adopted in the present embodiment. That is, when the number of black pixels of the binary image of the character pattern in the circumscribed frame of the pattern register 103 is A and the number of black pixels is Q, the average line width Wr is calculated by the following formula. Wr = A / (A−Q) (1) However, 4 black pixels means that all the 2 × 2 windows become black pixels when the binary image is scanned by the 2 × 2 window. The black pixel number Q is a count of such 4 black pixels.

【0016】次にパタンレジスタ103の外接枠内の文
字パタンに対して、水平方向走査部106において水平
方向に、垂直方向走査部108において垂直方向に、右
斜め方向走査部110において右斜め方向に、左斜め方
向走査部112において左斜め方向に、それぞれ走査
し、前記線幅に基づいた値を閾値として、連続した黒画
素であるストロ−クを検出していき、それらの分布状態
を反映するサブパタンを生成する。この時、その連続し
た黒画素がサブパタンを構成するストロ−ク成分である
ことの条件は、連続黒画素数をLとしたとき、次式で与
えられる。 L > 2 × Wr (2) ここで、Wrは前述の平均線幅である。即ち、それぞれ
の方向の走査において平均線幅の2倍を超える長さを持
つストロ−クが当該方向のサブパタンを構成するストロ
−クとして抽出されるのである。以上のように検出され
た外接枠内における連続黒画素としてのストロ−クの分
布状態は、各々の走査方向毎に、水平サブパタン1、垂
直サブパタン1、右斜めサブパタン1、左斜めサブパタ
ン1として、それぞれ水平サブパタン1メモリ107、
垂直サブパタン1メモリ109、右斜めサブパタン1メ
モリ111、左斜めサブパタン1メモリ113に格納さ
れる。
Next, with respect to the character pattern in the circumscribed frame of the pattern register 103, the horizontal scanning unit 106 horizontally, the vertical scanning unit 108 vertically, and the right diagonal scanning unit 110 diagonally right. , The diagonally leftward scanning unit 112 scans diagonally leftward, detects strokes that are continuous black pixels by using the value based on the line width as a threshold, and reflects their distribution state. Generate a sub pattern. At this time, the condition that the continuous black pixels are the stroke components forming the sub-pattern is given by the following equation, where L is the number of continuous black pixels. L> 2 * Wr (2) Here, Wr is the above-mentioned average line width. That is, in the scanning in each direction, a stroke having a length that is more than twice the average line width is extracted as a stroke that constitutes a sub pattern in that direction. The distribution state of strokes as continuous black pixels in the circumscribing frame detected as described above is as follows: horizontal sub-pattern 1, vertical sub-pattern 1, right diagonal sub-pattern 1, left diagonal sub-pattern 1, for each scanning direction. Horizontal sub-pattern 1 memory 107,
The data is stored in the vertical sub-pattern 1 memory 109, the right diagonal sub-pattern 1 memory 111, and the left diagonal sub-pattern 1 memory 113.

【0017】図6を例にとると、走査前の原2値画像が
図6(a)に、水平サブパタン1が図6(b)に、垂直
サブパタン1が図6(c)に、右斜めサブパタン1が図
6(d)に、左斜めサブパタン1が図6(e)に各々表
されている。前述したように「因」を構成する要素
「大」は、平均線幅の2倍以下のスケ−ルであるため各
サブパタンには全く反映されていないことがわかる。
Taking FIG. 6 as an example, the original binary image before scanning is shown in FIG. 6A, the horizontal sub-pattern 1 is shown in FIG. 6B, the vertical sub-pattern 1 is shown in FIG. The sub pattern 1 is shown in FIG. 6 (d), and the left diagonal sub pattern 1 is shown in FIG. 6 (e). As described above, it can be seen that the element "large" that constitutes the "factor" is not reflected in each sub-pattern because it is a scale of twice the average line width or less.

【0018】次のかすれパタン抽出部114は、パタン
レジスタ103の外接枠内の2値画像及び水平サブパタ
ン1、垂直サブパタン1、右斜めサブパタン1、左斜め
サブパタン1とを用いて、サブパタンとして抽出されな
かったストロ−ク成分の分布状態をかすれパタンとして
抽出する。図3はかすれパタン抽出部の構成例を示すブ
ロック図であり、点線で示された枠内がかすれパタン抽
出部114の内部を表している。301はOR回路部、
302はメモリ、303はNOT回路部、304は文字
パタンメモリ、305はAND回路部である。
The next blur pattern extraction unit 114 extracts a sub-pattern by using the binary image in the circumscribing frame of the pattern register 103 and the horizontal sub-pattern 1, the vertical sub-pattern 1, the right diagonal sub-pattern 1, and the left diagonal sub-pattern 1. The distribution state of the stroke components that did not exist is extracted as a blur pattern. FIG. 3 is a block diagram showing a configuration example of the blur pattern extracting unit, and the inside of the frame indicated by the dotted line represents the inside of the blur pattern extracting unit 114. 301 is an OR circuit unit,
Reference numeral 302 is a memory, 303 is a NOT circuit unit, 304 is a character pattern memory, and 305 is an AND circuit unit.

【0019】図3に示されたかすれパタン抽出部114
における各ブロックの機能及び処理の流れについて以下
で説明する。先ず、各方向のサブパタンメモリ107,
109,111,113に格納された水平サブパタン
1、垂直サブパタン1、右斜めサブパタン1及び左斜め
サブパタン1は、OR回路部301に入力される。OR
回路部301では、各サブパタンの黒画素を1、白画素
を0としたとき、外接枠で囲まれたサブパタン領域の画
素1つ1つについて、4つのサブパタン1の画素値のO
R論理演算が実行され、当該演算結果が、予めメモリ3
02に用意されたサブパタン領域と同じ句形領域の対応
する画素についてそれぞれ出力されていき、最終的に
は、4つのサブパタン1の和集合であるパタンがメモリ
302上に生成される。このパタンは、当該領域の各画
素において、4つのサブパタンの内、少なくとも1つの
サブパタンの画素値が1、即ち、黒画素である時に、黒
画素であり、4つのサブパタン1のいずれも画素値が
0、即ち、白画素である時に白画素となっている。従っ
て、このサブパタンの和集合のパタンの白画素部分は、
もともと文字パタンの2値画像で白画素であったか或い
は、2値画像では黒画素であるがサブパタンとしては抽
出されなかったかのどちらかである。
The faint pattern extraction unit 114 shown in FIG.
The function and processing flow of each block in FIG. First, the sub pattern memory 107 for each direction,
The horizontal sub-pattern 1, the vertical sub-pattern 1, the right diagonal sub-pattern 1 and the left diagonal sub-pattern 1 stored in 109, 111 and 113 are input to the OR circuit unit 301. OR
In the circuit unit 301, assuming that the black pixel of each sub-pattern is 1 and the white pixel is 0, each pixel in the sub-pattern area surrounded by the circumscribing frame has an O value of the pixel value of four sub-patterns 1.
The R logical operation is executed, and the operation result is previously stored in the memory 3
The sub-pattern area prepared in No. 02 is output for each corresponding pixel in the same phrase-shaped area, and finally a pattern that is the union of four sub-patterns 1 is generated in the memory 302. This pattern is a black pixel when the pixel value of at least one sub-pattern among the four sub-patterns in each pixel of the area is 1, that is, a black pixel, and the pixel values of all four sub-patterns 1 are 0, that is, a white pixel is a white pixel. Therefore, the white pixel part of the pattern of the union of this sub-pattern is
Either it was originally a white pixel in the binary image of the character pattern, or it was a black pixel in the binary image but was not extracted as a sub-pattern.

【0020】次にメモリ302上に生成された前記パタ
ンについて、NOT回路部303によるNOT演算が実
行される。NOT回路部303では、メモリ302上の
パタンを構成する画素の一つ一つについて、順次、画素
値0の画素を画素値1に、画素値1の画素を画素値0に
変換し、即ち、白画素を黒画素に、黒画素を白画素に変
換するNOT演算を実行し、当該演算結果をメモリ30
2における当該画素上に出力する。以上のようにして、
メモリ302上には、OR回路部301によって生成さ
れたサブパタンの和集合であるパタンを白黒反転させた
パタンが生成される。
Next, the NOT circuit section 303 performs a NOT operation on the pattern generated on the memory 302. The NOT circuit unit 303 sequentially converts a pixel having a pixel value of 0 into a pixel value of 1 and a pixel having a pixel value of 1 into a pixel value of 0 for each of the pixels forming the pattern on the memory 302, that is, A NOT operation for converting a white pixel into a black pixel and a black pixel into a white pixel is executed, and the operation result is stored in the memory 30.
It outputs on the said pixel in 2. As described above,
On the memory 302, a pattern in which the pattern, which is the union of the sub patterns generated by the OR circuit unit 301, is inverted in black and white is generated.

【0021】一方、上述の処理とは独立に、パタンレジ
スタ103の2値画像の内、外接枠検出部104によっ
て検出された外接枠内の2値画像のみが文字パタンメモ
リ304に転送される。
On the other hand, independently of the above-mentioned processing, only the binary image in the circumscribing frame detected by the circumscribing frame detecting unit 104 among the binary images in the pattern register 103 is transferred to the character pattern memory 304.

【0022】次にメモリ302上のパタンと文字パタン
メモリ304上の文字パタンに対して、AND回路部3
05によって、AND演算が実行される。AND回路部
305では、パタン領域内の個々の画素について、メモ
リ302上のパタンの画素値と該画素に対応する文字パ
タンメモリ304上の文字パタンの画素値とのAND演
算、即ち、両者の画素値が1であったときのみに、画素
値1を出力し、少なくともどちらかが0であったとき
は、画素値0を出力する演算を実行していき、当該演算
結果をかすれパタンとして、かすれパタンメモリ115
に出力する。
Next, for the pattern on the memory 302 and the character pattern on the memory pattern 304, the AND circuit unit 3
An AND operation is executed by 05. In the AND circuit unit 305, for each pixel in the pattern area, an AND operation is performed between the pixel value of the pattern on the memory 302 and the pixel value of the character pattern on the character pattern memory 304 corresponding to the pixel, that is, both pixels. Only when the value is 1, the pixel value 1 is output, and when at least one of them is 0, an operation of outputting the pixel value 0 is executed, and the operation result is used as a blur pattern to make a blur. Pattern memory 115
Output to.

【0023】このかすれパタンは、上述の説明で理解で
きるように、文字パタンを構成する黒画素の中で、4つ
のサブパタン1の黒画素のいずれにも所属しないものを
抽出してできたものである。即ち、かすれパタンは、例
えば、図4の401が示すようにストロ−クの一部がか
すれ、いくつかのセグメントに分裂してできたストロ−
クや図5の501が示すように元々孤立したストロ−ク
であって、式(2)で示された平均線幅の2倍という閾
値に達しないもの等から構成されている。尚、このかす
れパタン抽出部の処理を図6(a)の原2値画像に適用
すると、図6(a)から図6(b),(c),(d),
(e)の各サブパタンの黒画素を全て除去することにな
り、従って、図6(f)のように、サブパタンとして抽
出されなかった要素「大」だけからなるかすれパタンが
得られる。
As can be understood from the above description, this blur pattern is obtained by extracting black pixels constituting the character pattern that do not belong to any of the black pixels of the four sub patterns 1. is there. That is, for example, as shown by 401 in FIG. 4, a faint pattern is a stroke formed by a part of the stroke being divided into several segments.
Or a stroke originally isolated as indicated by 501 in FIG. 5 and which does not reach the threshold value of twice the average line width shown in equation (2). When the processing of the blur pattern extracting unit is applied to the original binary image of FIG. 6A, the processing of FIGS. 6A to 6B, 6C, 6D,
All the black pixels of each sub-pattern of (e) are removed, and therefore, as shown in FIG. 6 (f), a blur pattern including only the element “large” that is not extracted as a sub-pattern is obtained.

【0024】かすれパタン抽出部114で抽出されたか
すれパタンは、かすれパタンメモリ115に格納されて
いるが、必要に応じて、このかすれパタンにおける微小
セグメントを除去するための微小セグメント除去部13
9を設置することも可能である。例えば、この微小セグ
メント除去部139による微小セグメントの除去ル−ル
として、次のものが考えられる。即ち、かすれパタンを
構成する各セグメントの輪郭を構成する輪郭黒画素数ま
たは、各セグメントの全黒画素数が、所定の閾値、例え
ば、当該入力文字パタンの線幅Wrのβ倍(β>0)以
下であったとき、微小セグメントとみなすというル−ル
である。ここで微小と判定されたセグメントは、かすれ
パタンメモリ上で消去されるか、あるいは処理の対象外
とされる。以上のように微小セグメントが消去されるこ
とによって、それに起因する認識性能の低下を未然に防
止することができる。
The faint pattern extracted by the faint pattern extracting unit 114 is stored in the faint pattern memory 115. If necessary, the fine segment removing unit 13 for removing the fine segment in the faint pattern.
It is also possible to install 9. For example, the following can be considered as a removal rule of the minute segment by the minute segment removing unit 139. That is, the number of contour black pixels forming the contour of each segment forming the faint pattern or the total number of black pixels of each segment is a predetermined threshold, for example, β times (β> 0) the line width Wr of the input character pattern. ) It is a rule to consider it as a minute segment when it is below. Here, the segment determined to be minute is erased on the blur pattern memory or excluded from the processing. By deleting the minute segment as described above, it is possible to prevent deterioration of the recognition performance due to the deletion.

【0025】かすれパタン線幅計算部116において
は、かすれパタンの線幅が計算される。この線幅の計算
方法としては、例えば、文字パタン線幅計算部105で
使用した式(1)に基づく方法が用いられる。
The faint pattern line width calculation unit 116 calculates the faint pattern line width. As the method of calculating the line width, for example, the method based on the equation (1) used in the character pattern line width calculation unit 105 is used.

【0026】次にかすれパタンメモリ115内のかすれ
パタンに対して、水平方向走査部117、垂直方向走査
部119、右斜め方向走査部121及び左斜め方向走査
部123によって、それぞれ水平、垂直、右斜め、左斜
め方向に走査され、所定の閾値を超えて連続した黒画素
がストロ−クとして検出されていく。その結果、今度は
かすれパタンのサブパタン、即ち、かすれサブパタンが
抽出され、それぞれ水平かすれサブパタンメモリ11
8、垂直かすれサブパタンメモリ120、右斜めかすれ
サブパタンメモリ122及び左斜めかすれサブパタンメ
モリ124に格納される。尚、ここで、サブパタンを構
成するストロ−ク成分であるための条件は、式(2)で
与えられるのではなく、連続した黒画素数をLとしたと
き、次式で与えられる。
Next, with respect to the blur pattern in the blur pattern memory 115, the horizontal scanning unit 117, the vertical scanning unit 119, the right diagonal scanning unit 121, and the left diagonal scanning unit 123 respectively perform horizontal, vertical, and right scanning. Scanning is performed diagonally and diagonally to the left, and continuous black pixels exceeding a predetermined threshold are detected as strokes. As a result, the sub-patterns of the blurring pattern, that is, the blurring sub-patterns are extracted this time, and the horizontal blurring sub-pattern memory 11 is extracted.
8. The vertical blurring sub pattern memory 120, the right diagonal blurring sub pattern memory 122, and the left diagonal blurring sub pattern memory 124 are stored. Here, the condition for the stroke component forming the sub-pattern is not given by the equation (2), but given by the following equation when the number of consecutive black pixels is L.

【0027】[0027]

【数1】 [Equation 1]

【0028】但し、Wsは、かすれパタン線幅計算部1
16によって計算されたかすれパタンの線幅値である。
また(4)式で、γ=2としなかったのは、通常より小
さな領域で線幅を計算すること等に由来する誤差を考慮
したからであり、γに補正因子が乗じられているとみな
す。この補正因子は、経験的に求められるが、勿論、通
常はγ=2として閾値を設定してもよい。
However, Ws is the fading pattern line width calculation unit 1
It is the line width value of the fading pattern calculated by 16.
In addition, the reason why γ is not set to 2 in the equation (4) is because an error caused by calculating the line width in a smaller area than usual is taken into consideration, and it is considered that γ is multiplied by the correction factor. . This correction factor is empirically determined, but, of course, the threshold value may be normally set as γ = 2.

【0029】かすれサブパタンの抽出処理を図6を例に
とって説明する。先ず、「因」の字からかすれパタンと
して抽出された部分パタン「大」は図6(f)に示され
ており、このかすれパタンに対して、水平、垂直、右斜
め、左斜め方向に走査して得られたかすれサブパタン
が、それぞれ、図6(g)、(h)、(i)、(j)に
示されている。前述したように、当該走査における閾値
は、図6(a)の原2値画像「因」の線幅ではなく、図
6(f)のかすれパタン「大」の線幅に基づいて決定さ
れる。従って、図6(a)の原2値画像の走査時では、
線幅値が大きかったため抽出されなかった「大」の字の
サブパタンが、好適な線幅値による走査によって適切に
抽出されていることがわかる。
The process of extracting the faint sub-pattern will be described with reference to FIG. First, a partial pattern "large" extracted as a blur pattern from the character "Cause" is shown in FIG. 6F, and scanning is performed horizontally, vertically, diagonally to the right, and diagonally to the left with respect to this blurred pattern. The faint sub-patterns obtained by the above are shown in FIGS. 6 (g), (h), (i), and (j), respectively. As described above, the threshold value in the scan is determined based on the line width of the faint pattern “large” in FIG. 6F, not the line width of the original binary image “factor” in FIG. 6A. . Therefore, when scanning the original binary image of FIG.
It can be seen that the "large" sub-patterns that were not extracted because the line width value was large were properly extracted by scanning with a suitable line width value.

【0030】次に、原2値画像に対する走査によって抽
出された水平サブパタン1、垂直サブパタン1、右斜め
サブパタン1、左斜めサブパタン1と、かすれパタンに
対する走査によって抽出された水平かすれサブパタン、
垂直かすれサブパタン、右斜めかすれサブパタン、左斜
めかすれサブパタンとをそれぞれ合成する処理を行う。
この合成処理は、各方向のサブパタンに対して、それぞ
れ独立に水平サブパタン合成部125、垂直サブパタン
合成部127、右斜めサブパタン合成部129、左斜め
サブパタン合成部131によって実行される。合成され
たパタンは、それぞれ水平サブパタン2、垂直サブパタ
ン2、右斜めサブパタン2、左斜めサブパタン2とし
て、各々、水平サブパタン2メモリ126、垂直サブパ
タン2メモリ128、右斜めサブパタン2メモリ13
0、左斜めサブパタンメモリ132に格納される。
Next, a horizontal sub-pattern 1, a vertical sub-pattern 1, a right diagonal sub-pattern 1, a left diagonal sub-pattern 1 extracted by scanning the original binary image, and a horizontal blur sub-pattern extracted by scanning the blur pattern,
Processing for combining the vertical blurring subpattern, the right diagonal blurring subpattern, and the left diagonal blurring subpattern is performed.
This synthesizing process is executed by the horizontal sub-pattern synthesizing unit 125, the vertical sub-pattern synthesizing unit 127, the right diagonal sub-pattern synthesizing unit 129, and the left diagonal sub-pattern synthesizing unit 131 independently for each sub-pattern in each direction. The combined patterns are a horizontal sub-pattern 2, a vertical sub-pattern 2, a right diagonal sub-pattern 2 and a left diagonal sub-pattern 2, respectively, which are a horizontal sub-pattern 2 memory 126, a vertical sub-pattern 2 memory 128 and a right diagonal sub-pattern 2 memory 13, respectively.
0, stored in the left diagonal sub-pattern memory 132.

【0031】ここで前記合成部におけるパタンの合成
は、例えば、2つのサブパタンの個々の画素についてO
R演算を行う方法等が用いられる。つまり、2つの2値
パタンを合成する場合、各々を構成する個々の画素にお
いて、少なくともどちらかが、画素値1、即ち、黒画素
であれば画素値1を出力し、両者ともに画素値0、即
ち、白画素であったときに画素値0を出力するという方
法で合成パタンを作成する。図6の例の場合、原2値画
像のサブパタンとして、それぞれ、図6(b)、
(c)、(d)、(e)が与えられ、かすれパタンのサ
ブパタンとしてはそれぞれ図6(g)、(h)、
(i)、(j)が与えられているときに前記合成部によ
って、合成されたサブパタン2は、各々図6(k)、
(l)、(m)、(n)となる。これらの合成されたサ
ブパタン2は、原2値画像のサブパタンと比較して、局
所的なスケ−ルの小さい部分が正確に反映されているの
で、そのサブパタンに基づいて計算される特徴マトリク
スにも当然それが反映され、従って、従来のサブパタン
抽出にともなう情報劣化による誤読等が防止できる。
Here, the pattern composition in the composition section is performed by, for example, O for each pixel of two sub patterns.
A method of performing R calculation or the like is used. That is, in the case of combining two binary patterns, at least one of the individual pixels forming each outputs the pixel value 1, that is, the pixel value 1 if it is a black pixel, and both output the pixel value 0, That is, a composite pattern is created by a method of outputting a pixel value of 0 when it is a white pixel. In the case of the example of FIG. 6, as the sub-pattern of the original binary image, FIG.
(C), (d), and (e) are given, and subpatterns of the blur pattern are shown in FIGS. 6 (g), 6 (h), and 6 (h), respectively.
When (i) and (j) are given, the sub-pattern 2 synthesized by the synthesizing unit is as shown in FIG.
(L), (m), and (n). Compared with the sub-pattern of the original binary image, these combined sub-patterns 2 accurately reflect the small local scale, so that the feature matrix calculated based on that sub-pattern is also reflected. Naturally, this is reflected, and therefore erroneous reading due to information deterioration due to the conventional sub-pattern extraction can be prevented.

【0032】さて、上述の方法により作成されたサブパ
タンは、特徴抽出部135においてさらに圧縮された特
徴に変換されるわけであるが、本実施例では、出力制御
部133の制御の下に特徴抽出部135に入力させるサ
ブパタンを選択できるようにしている。この出力制御部
133は、前記微小セグメント除去部139においてか
すれパタンを構成する各セグメントが全て微小であると
判定された場合に、それ以降のかすれパタンに対する処
理を中止させ、原2値画像から得られた各方向のサブパ
タン1をそれぞれのメモリ107、109、111、1
13から読取り、特徴抽出部135に出力する。また、
前記かすれパタン線幅計算部116で計算されたかすれ
パタンの線幅は、常時、線幅判定部134で判定されて
おり、前記線幅が所定の閾値以下であると判定された場
合、その判定結果は出力制御部133に伝達される。こ
の時、前記線幅に対する閾値としては、例えば、次式が
与えられる。 Ws < δ × Wr (5) 0 < δ 《 1 (6) 但し、Wsはかすれパタンの平均線幅、Wrは原2値画
像の平均線幅であって、式(5)及び式(6)の条件が
満たされる時は、WsがWrに比べて極端に小さいこと
を意味している。
The sub-pattern created by the above method is converted into a further compressed feature in the feature extraction unit 135. In this embodiment, the feature extraction is performed under the control of the output control unit 133. A sub pattern to be input to the unit 135 can be selected. The output control unit 133, when the minute segment removing unit 139 determines that all the segments forming the blurred pattern are all minute, stops the processing for the blurred pattern thereafter and obtains it from the original binary image. The sub-pattern 1 in each direction is stored in each of the memories 107, 109, 111, 1
The data is read from the data 13 and output to the feature extraction unit 135. Also,
The line width of the blur pattern calculated by the blur pattern line width calculation unit 116 is always determined by the line width determination unit 134, and when the line width is determined to be equal to or less than a predetermined threshold value, the determination is made. The result is transmitted to the output control unit 133. At this time, for example, the following equation is given as the threshold for the line width. Ws <δ × Wr (5) 0 <δ << 1 (6) where Ws is the average line width of the blur pattern, and Wr is the average line width of the original binary image, and the equations (5) and (6) When the condition of is satisfied, it means that Ws is extremely smaller than Wr.

【0033】前記線幅判定部134からWsがWrに比
べて極端に小さい場合には出力制御部133はかすれパ
タンに対する走査を中止させ、原2値画像に対する走査
によって得られた各方向のサブパタン1をそれぞれのメ
モリ107、109、111、113から読取り、特徴
抽出部135に出力する。以上の出力制御部133の処
理は、以下に述べる問題点に鑑みてなされたものであ
る。
When Ws is extremely smaller than Wr from the line width determination unit 134, the output control unit 133 stops the scan for the blur pattern and the sub pattern 1 in each direction obtained by the scan for the original binary image. Is read from each of the memories 107, 109, 111 and 113 and is output to the feature extraction unit 135. The above processing of the output control unit 133 is performed in view of the problems described below.

【0034】かすれサブパタンを原2値画像の走査によ
って得られたサブパタン1に合成することは、除去され
た重要な情報を回復させる一方でストロ−クのノイズ的
な成分をもつけ加えてしまうおそれがある。従って本実
施例では、非本質的なストロ−ク成分の除去を目指すた
めに、前述したように先ず、微小セグメント除去部13
9においてかすれパタン内の微小セグメントを除去し、
また当然のことながら全てのセグメントが微小と判定さ
れた場合には、原2値画像に対する走査によって得られ
たサブパタン1だけを特徴抽出部135に出力するよう
にしたのである。さらに線幅判定部134を設け、かす
れパタンの線幅が所定の閾値に達しない場合にも当該か
すれパタンは、認識上、非本質的であると判定すること
にして、かかる場合にかすれパタンの走査を実行せず、
サブパタン1のみを特徴抽出部135に出力するように
したものである。このようにすることで、非本質的なス
トロ−ク成分はサブパタンから除去され、それによる誤
読等を未然に防止することが可能となる。
Combining the faint sub-pattern with the sub-pattern 1 obtained by scanning the original binary image may restore the important information that has been removed while adding a noise-like component of the stroke. is there. Therefore, in this embodiment, in order to remove the extrinsic stroke component, first, as described above, the minute segment removing unit 13 is first performed.
At 9, the fine segment in the blur pattern is removed,
Further, as a matter of course, when it is determined that all the segments are minute, only the sub pattern 1 obtained by scanning the original binary image is output to the feature extraction unit 135. Further, a line width determination unit 134 is provided, and even if the line width of the fading pattern does not reach a predetermined threshold, the fading pattern is determined to be extrinsic for recognition, and in such a case, the fading pattern is determined. Without performing a scan,
Only the sub pattern 1 is output to the feature extraction unit 135. By doing so, the extrinsic stroke component is removed from the sub-pattern, and it is possible to prevent erroneous reading and the like due to it.

【0035】特徴抽出部135では、入力された原2値
画像のサブパタンあるいは合成されたサブパタン4種に
基づいた特徴抽出を行うが、この特徴抽出を行う前に、
予め前記パタンレジスタ103の外接枠内の文字パタン
に対して、例えば各分割領域内の黒画素数が同数になる
ように垂直方向、水平方向に格子状となるN×M個の部
分領域に非線形分割しておく。次に前記4種のサブパタ
ンのそれぞれについて、前記分割された部分領域内にお
ける該サブパタンの黒画素数を計数し、これを文字パタ
ンの大きさで正規化することによって、各方向における
文字線の分布状態を反映するN×M×4次元の特徴マト
リクスを抽出し、識別部136に出力する。
The feature extraction unit 135 performs feature extraction based on the sub-pattern of the input original binary image or the four types of synthesized sub-patterns. Before performing this feature extraction,
For the character pattern in the circumscribing frame of the pattern register 103, for example, nonlinearity is made in N × M partial regions in a grid pattern in the vertical and horizontal directions so that the number of black pixels in each divided region is the same. Split it. Next, for each of the four types of sub-patterns, the number of black pixels of the sub-pattern in the divided partial area is counted, and the number of black pixels is normalized by the size of the character pattern to thereby distribute the character lines in each direction. An N × M × 4 dimensional feature matrix that reflects the state is extracted and output to the identification unit 136.

【0036】識別部136では、入力された前記特徴マ
トリクスと辞書メモリ137に予め格納しておいた複数
の標準文字の特徴マトリクスとを照合し、該照合結果か
ら判断して、最終的に一つの候補カテゴリを該入力文字
パタンの認識結果138として出力する。以上が本発明
による文字認識装置の実施例1である。
The identification unit 136 collates the inputted characteristic matrix with the characteristic matrix of a plurality of standard characters stored in the dictionary memory 137 in advance, judges from the collation result, and finally makes one The candidate category is output as the recognition result 138 of the input character pattern. The above is the first embodiment of the character recognition device according to the present invention.

【0037】ここで実施例1は、文字や図形を構成する
ストロ−クの局所線幅が2つに分類できるときに極めて
有効な方法であった。しかし、通常の簡単な文字は、2
種類の線幅による走査でもサブパタンにほぼ反映できる
とみなせる一方、3種類以上のスケ−ルのストロ−クか
ら構成される複雑な図形や漢字等では、2段階の走査で
もとらえきれないストロ−ク成分がある場合が有り得
る。実施例2は、このような問題点に対処し得るもので
あり、実施例1が2段階の線幅による走査であったのに
対し、実施例2は、これをさらに一般化し、N段階(N
≧2)の走査が可能となっている。この実施例2につい
て以下に説明する。
Here, the first embodiment was an extremely effective method when the local line widths of strokes forming characters and figures can be classified into two. But the usual simple letter is 2
It can be considered that the scanning can be almost reflected in the sub-pattern even by scanning with different line widths, but in the case of complicated figures and Chinese characters composed of strokes of three or more types of stroke, strokes that cannot be captured by two-step scanning There may be ingredients. The second embodiment is capable of coping with such a problem, and the second embodiment generalizes this, and the second embodiment is the N-stage ( N
Scanning of ≧ 2) is possible. The second embodiment will be described below.

【0038】図2は本発明による実施例2を示すブロッ
ク図である。ここで、201は光信号入力、202は光
電変換部、203はパタンレジスタ、204は外接枠検
出部、205はレジスタ、206は線幅計算部、207
は水平方向走査部、208は水平パタンメモリ、209
は垂直方向走査部、210は垂直パタンメモリ、211
は右斜め方向走査部、212は右斜めパタンメモリ、2
13は左斜め方向走査部、214は左斜めパタンメモ
リ、215はかすれパタン抽出部、216は微小セグメ
ント除去部、217は線幅判定部、218は水平パタン
合成部、219は水平合成パタンメモリ、220は垂直
パタン合成部、221は垂直合成パタンメモリ、222
は右斜めパタン合成部、223は右斜め合成パタンメモ
リ、224は左斜めパタン合成部、225は左斜め合成
パタンメモリ、226はル−プカウンタ、227は出力
制御部、228は特徴抽出部、229は識別部、230
は辞書メモリ、231は認識結果である。
FIG. 2 is a block diagram showing a second embodiment according to the present invention. Here, 201 is an optical signal input, 202 is a photoelectric conversion unit, 203 is a pattern register, 204 is a circumscribing frame detection unit, 205 is a register, 206 is a line width calculation unit, and 207.
Is a horizontal scanning unit, 208 is a horizontal pattern memory, 209
Is a vertical scanning unit, 210 is a vertical pattern memory, 211
Is a right diagonal scanning unit, 212 is a right diagonal pattern memory, 2
13 is a left oblique direction scanning unit, 214 is a left oblique pattern memory, 215 is a blurred pattern extraction unit, 216 is a minute segment removal unit, 217 is a line width determination unit, 218 is a horizontal pattern composition unit, 219 is a horizontal composition pattern memory, 220 is a vertical pattern composition unit, 221 is a vertical pattern pattern memory, 222
Is a right diagonal pattern synthesis unit, 223 is a right diagonal synthesis pattern memory, 224 is a left diagonal pattern synthesis unit, 225 is a left diagonal synthesis pattern memory, 226 is a loop counter, 227 is an output control unit, 228 is a feature extraction unit, 229 Is an identification unit, 230
Is a dictionary memory and 231 is a recognition result.

【0039】ここでは、主として実施例1との相違点に
ついて説明する。先ず、201、202、203、20
4は実施例1に準じ、パタンレジスタ203の2値画像
のうち、外接枠内のデ−タだけが、レジスタ205に転
送される。後述するようにこのレジスタ205には、文
字パタンの2値デ−タだけでなく、かすれパタンも順
次、上書きされる。線幅計算部206はこのレジスタ2
05内のデ−タに対し、線幅の計算を行う。今は、文字
パタンの2値デ−タが格納されているので、文字パタン
の平均線幅が計算される。この線幅の算出も実施例1の
方法を準用する。
Here, differences from the first embodiment will be mainly described. First, 201, 202, 203, 20
In No. 4, according to the first embodiment, only the data within the circumscribing frame of the binary image of the pattern register 203 is transferred to the register 205. As will be described later, not only the binary data of the character pattern but also the blurred pattern are sequentially overwritten in the register 205. The line width calculation unit 206 uses this register 2
The line width is calculated for the data in 05. Since the binary data of the character pattern is currently stored, the average line width of the character pattern is calculated. The method of Example 1 is also applied to the calculation of the line width.

【0040】次に、実施例1と同様に、このレジスタ2
05内の2値デ−タに対して、水平方向走査部207、
垂直方向走査部209、右斜め方向走査部211、左斜
め方向走査部213により、それぞれ水平、垂直、右斜
め、左斜め方向に走査し、前記線幅を閾値として、サブ
パタンを抽出し、各々、水平サブパタンメモリ208、
垂直サブパタンメモリ210、右斜めサブパタンメモリ
212、左斜めサブパタンメモリ214に格納する。
Next, as in the first embodiment, this register 2
For the binary data in 05, the horizontal scanning section 207,
The vertical scanning unit 209, the right diagonal scanning unit 211, and the left diagonal scanning unit 213 scan horizontally, vertically, diagonally to the right, and diagonally to the left, respectively, and the subpatterns are extracted with the line width as a threshold. Horizontal sub-pattern memory 208,
The data is stored in the vertical sub pattern memory 210, the right diagonal sub pattern memory 212, and the left diagonal sub pattern memory 214.

【0041】次に、かすれパタン抽出部215におい
て、レジスタ205の文字パタンの2値デ−タとメモリ
208、210、212、214に格納されたサブパタ
ンより、かすれパタンを抽出し、レジスタ205に転送
する。この時、かすれパタンの抽出は、実施例1の図3
に示した方法によって行い、このかすれパタンを便宜
上、かすれパタン1としておく。そして、微小セグメン
ト除去部216でかすれパタン1の微小セグメントの除
去を行い、残ったセグメント数等をチェックした後、線
幅計算部206においてかすれパタン1の線幅の計算を
行い、さらに線幅判定部217で、前記線幅値に基づい
てかすれパタン1の走査を行うか否かを判定する。但
し、微小セグメント除去部216または線幅判定部21
7の判定は、実施例1に準用する。ここでかすれパタン
1について、走査をする必要はないと判定されると、メ
モリ208、210、212、214に格納されたサブ
パタンは、出力制御部227を通じて特徴抽出部228
に出力され、また走査する必要ありと判定された場合に
は、各々、水平合成サブパタンメモリ219、垂直合成
サブパタンメモリ221、右斜め合成サブパタンメモリ
223、左斜め合成サブパタンメモリ225に転送され
る。次に実施例1と同様に、レジスタ205内のかすれ
パタン1に対して、各方向の走査部207、209、2
11、213により再度走査され、かすれパタン1の線
幅に基づいて、かすれパタン1のサブパタン、即ち、か
すれサブパタン1が抽出され、各々、メモリ208、2
10、212、214に格納される。
Next, the blur pattern extracting unit 215 extracts the blur pattern from the binary data of the character pattern of the register 205 and the sub patterns stored in the memories 208, 210, 212 and 214 and transfers it to the register 205. To do. At this time, the extraction of the faint pattern is performed as shown in FIG.
This method is used as the fading pattern 1 for the sake of convenience. Then, the minute segment removing unit 216 removes the minute segment of the blurred pattern 1, and after checking the number of remaining segments, the line width calculating unit 206 calculates the line width of the blurred pattern 1 and further determines the line width. The unit 217 determines whether to scan the fading pattern 1 based on the line width value. However, the minute segment removal unit 216 or the line width determination unit 21
The determination of 7 applies mutatis mutandis to Example 1. If it is determined that the blur pattern 1 does not need to be scanned, the sub patterns stored in the memories 208, 210, 212, and 214 are output to the feature extraction unit 228 via the output control unit 227.
When it is determined that scanning is necessary, scanning is performed to the horizontal composition sub-pattern memory 219, the vertical composition sub-pattern memory 221, the right diagonal composition sub-pattern memory 223, and the left diagonal composition sub-pattern memory 225, respectively. To be done. Next, similarly to the first embodiment, the scanning patterns 207, 209, 2 in each direction are applied to the blur pattern 1 in the register 205.
11 and 213, the sub-pattern of the blurred pattern 1, that is, the blurred sub pattern 1, is extracted based on the line width of the blurred pattern 1, and the memories 208 and 2 are respectively extracted.
10, 212, and 214 are stored.

【0042】次に水平サブパタン合成部218、垂直サ
ブパタン合成部220、右斜めサブパタン合成部22
2、左斜めサブパタン合成部224において、メモリ2
08、210、212、214に格納されたかすれサブ
パタン1とメモリ219、221、223、225に格
納されたサブパタンとが合成され、合成サブパタン1と
して、再び、メモリ219、221、223、225に
出力される。
Next, the horizontal sub-pattern combining section 218, the vertical sub-pattern combining section 220, and the right diagonal sub-pattern combining section 22.
2. In the left diagonal sub-pattern combining unit 224, the memory 2
08, 210, 212, 214 and the sub-pattern 1 stored in the memories 219, 221, 223, 225 are combined, and the combined sub-pattern 1 is output to the memories 219, 221, 223, 225 again. To be done.

【0043】前記合成サブパタン1は、実施例1におい
て、2度のサブパタン抽出の結果合成されたものと同一
のものであるが、実施例2では、さらにかすれパタン抽
出部215において、現時点でレジスタ205に格納さ
れたかすれパタン1とメモリ208、210、212、
214に格納されたかすれサブパタン1とを用いて、2
度目の走査によっても検出されなかったストロ−ク成分
を抽出し、これをかすれパタン2としてレジスタ205
に格納する。ここで、図3において、メモリ107、1
09、111、113は、図2におけるメモリ208、
210、212、214に相当し、文字パタンメモリ3
04は、レジスタ205に相当する。
The synthetic sub-pattern 1 is the same as that synthesized as a result of the two sub-pattern extractions in the first embodiment, but in the second embodiment, the blurring pattern extraction unit 215 further registers the register 205 at the present time. The blur pattern 1 and the memories 208, 210, 212 stored in
By using the faint sub-pattern 1 stored in 214, 2
The stroke component which is not detected by the second scanning is extracted and is set as the blur pattern 2 in the register 205.
To store. Here, in FIG. 3, the memories 107, 1
09, 111, and 113 are the memories 208,
Character pattern memory 3 corresponding to 210, 212, and 214
04 corresponds to the register 205.

【0044】次にかすれパタン2に対しても、かすれパ
タン2の線幅を閾値とした走査によってかすれサブパタ
ン2を求め、合成部218、220、222、224に
おいて、メモリ219、221、223、225に格納
された合成サブパタン1との合成を行い、再びメモリ2
19、221、223、225に合成サブパタン2とし
て出力する。全く同様にして、かすれパタンKに対し
て、かすれパタンKの線幅を閾値とした走査によってか
すれサブパタンKを求め、合成部218、220、22
2、224において、メモリ219、221、223、
225に格納された合成サブパタンK−1との合成を行
い、再びメモリ219、221、223、225に合成
サブパタンKとして出力する。
Next, with respect to the blur pattern 2, the blur sub pattern 2 is obtained by scanning with the line width of the blur pattern 2 as a threshold value, and the memories 219, 221, 223, 225 in the combining units 218, 220, 222, 224. The composition with the composition sub-pattern 1 stored in
It is output to 19, 221, 223, and 225 as a combined sub-pattern 2. In exactly the same manner, for the blur pattern K, the blur sub-pattern K is obtained by scanning with the line width of the blur pattern K as a threshold, and the combining units 218, 220, 22 are obtained.
2, 224, memories 219, 221, 223,
The composite sub-pattern K-1 stored in 225 is combined, and the composite sub-pattern K-1 is output to the memories 219, 221, 223 and 225 as the composite sub-pattern K again.

【0045】ル−プカウンタ226は、サブパタンの合
成回数Kをカウントし、Kが所定の閾値Mに達した場
合、出力制御部227にそのことを伝達する。その時、
出力制御部227では、メモリ219、221、22
3、225に格納されていた合成サブパタンMを特徴抽
出部228に転送する。尚、合成回数KがMに達しない
場合でも、微小セグメント除去部216または線幅判定
部217において、かすれパタンKを走査する必要がな
いと判定された場合は、その時点の合成サブパタンKが
特徴抽出部228に転送される。
The loop counter 226 counts the number of times K of sub-pattern combination, and when K reaches a predetermined threshold value M, it notifies the output control unit 227 of this. At that time,
In the output control unit 227, the memories 219, 221, 22
The combined sub-pattern M stored in Nos. 3 and 225 is transferred to the feature extraction unit 228. Even if the number of times K of synthesis does not reach M, if the minute segment removal unit 216 or the line width determination unit 217 determines that it is not necessary to scan the fading pattern K, the combination sub-pattern K at that time is a feature. It is transferred to the extraction unit 228.

【0046】以下、特徴抽出部228、識別部229、
辞書メモリ230、認識結果231は、全て実施例1と
同様であるので、ここでは説明を省略する。
Hereinafter, the feature extracting section 228, the identifying section 229,
Since the dictionary memory 230 and the recognition result 231 are all the same as those in the first embodiment, the description thereof is omitted here.

【0047】以上、実施例2によれば、M回の走査によ
って、それぞれ線幅の異なるM種のストロ−ク成分を反
映したサブパタンが作成でき、従って、M種の線幅のス
トロ−クからなる複雑な漢字や図形等に対しても高精度
な認識性能を安定に維持できる。また、実施例1は、実
施例2においてM=1としたものと同等であり、実施例
2の特殊な場合に相当している。
As described above, according to the second embodiment, by scanning M times, it is possible to create a sub-pattern that reflects M kinds of stroke components having different line widths. Highly accurate recognition performance can be stably maintained even for complicated Chinese characters and figures. Further, the first embodiment is equivalent to the case where M = 1 in the second embodiment, and corresponds to the special case of the second embodiment.

【0048】尚、実施例1及び実施例2は、上述した例
のみに限定されるものではない。例えば、かすれパタン
抽出部114または215におけるかすれパタン抽出手
段は図3に示された方法だけでなく、OR、NOR、A
ND,NAND、NOT回路等を組み合わせることによ
って、また原2値画像と4種のサブパタンの黒画素を画
素毎にカウントし、そのカウント数が1のものを抽出し
ていくことによって同一の結果を出力する方法がいくつ
か考えられるが、如何なる方法であっても本実施例で定
義されたかすれパタンを抽出できれば、それらは全て本
発明に属する。
The first and second embodiments are not limited to the above-mentioned examples. For example, the blur pattern extracting means in the blur pattern extracting unit 114 or 215 is not limited to the method shown in FIG.
The same result is obtained by combining the ND, NAND, and NOT circuits, and by counting the original binary image and the black pixels of four types of sub-patterns for each pixel and extracting the ones with the count number of 1. There are several possible output methods, but all of them belong to the present invention as long as the blur pattern defined in this embodiment can be extracted.

【0049】また非本質的なストロ−ク成分を除去する
方法として、微小セグメントの除去や線幅による判定等
を用意したが、これらの条件式及び閾値の設定等は、本
発明の範囲内で任意に変更できる。尚、線幅判定部13
4及び微小セグメント除去部139は、かすれパタンと
して残された部分が文字の本質的特徴を表わすものであ
るか否かを、かすれパタンのセグメントの大きさや線幅
という特徴を用いて判定するという点では両者とも同様
な機能を持つので、いづれか一方のみを実施してもよ
い。更に前記特徴以外の特徴、例えばセグメントの分布
状態や黒画素密度等を用いて前記判定と同様な効果が得
られる手段であれば全て本発明に属する。また、入力す
る文字が高品質であり局所線幅が一定であるということ
が予め判っている場合にはかすれパタンの抽出を行わ
ず、逆に文字品質が低品質であり、かすれ文字が多いと
いうことが予め判っている場合には、常に、或は前記判
定を実施しながらかすれパタンの抽出、合成を行うとい
う具合いに、トップダウン的に行う実施例も本発明に属
する。
Further, as a method for removing an extrinsic stroke component, removal of a minute segment, determination by a line width, etc. were prepared. However, these conditional expressions and threshold values are set within the scope of the present invention. It can be changed arbitrarily. The line width determination unit 13
4 and the minute segment removing unit 139 determines whether or not the portion left as the blurred pattern represents the essential characteristics of the character by using the characteristics such as the size and line width of the segment of the blurred pattern. Since both have the same function, either one may be implemented. Further, any feature other than the above feature, such as the distribution state of the segment or the black pixel density, can be used as long as it can obtain the same effect as the above determination, and belongs to the present invention. Also, if it is known in advance that the characters to be input are of high quality and the local line width is constant, the blur pattern is not extracted, and conversely, the character quality is low and there are many blur characters. If it is known in advance, an embodiment in which the faint pattern is extracted and combined constantly or while performing the determination also belongs to the present invention.

【0050】またパタンレジスタや各メモリの構成、線
幅の計算方法、特徴マトリクスの抽出方法、外接枠分割
方法等も本発明の範囲内で適宜変更可能である。さらに
図1のブロック図において、各構成部分に分担された処
理や動作、入出力信号の流れ、設置個数、位置その他の
条件も任意好適に変更可能である。
Further, the configuration of the pattern register and each memory, the line width calculation method, the feature matrix extraction method, the circumscribing frame division method, etc. can be appropriately changed within the scope of the present invention. Further, in the block diagram of FIG. 1, the processing and operation assigned to each component, the flow of input / output signals, the number of installations, the position, and other conditions can be arbitrarily changed.

【0051】[0051]

【発明の効果】以上、詳細に説明したように、本発明に
よれば、入力文字パタンを2値画像に変換し、この2値
画像の外接枠内の2値画像の線幅を計算し、外接枠内の
2値画像に対して水平、垂直、右斜め、左斜め方向に走
査して、前記線幅に基づくストロ−クの分布状態を反映
する4種類のサブパタンを抽出し、前記外接枠内の2値
画像及び前記サブパタン4種とを用いて、サブパタンと
して抽出されなかった画素部分から構成されるかすれパ
タンを検出し、このかすれパタンの線幅を計算する。更
にかすれパタンに対して、その線幅に基づいて設定され
た閾値を用いて、水平、垂直、右斜め、左斜め方向に走
査し、検出されたストロ−クの分布状態を反映する4種
類のかすれサブパタンを抽出し、前記サブパタン及び前
記かすれサブパタンとをそれぞれの種類毎に合成するこ
とによって、合成サブパタンを作成し、前記合成サブパ
タンに基づいて特徴マトリクスを抽出し、前記特徴マト
リクスと辞書とを照合した結果より、認識結果を出力す
るようにしたので、文字パタンを構成するストロ−クで
あって、認識に本質的な役割を果たすものの一部が、他
の部分との局所線幅と比較して小さくなった場合でも、
サブパタンの一部として抽出され、従って、局所線幅に
大きな相違のある品質の悪い文字パタンや様々なスケ−
ルのストロ−クから構成される複雑な漢字文字や図形等
に対しても高精度な認識性能を安定に維持できる文字認
識装置が実現可能となる。
As described above in detail, according to the present invention, the input character pattern is converted into a binary image, and the line width of the binary image in the circumscribing frame of the binary image is calculated. The binary image in the circumscribing frame is scanned horizontally, vertically, diagonally to the right, and diagonally to the left to extract four types of sub-patterns that reflect the stroke distribution state based on the line width. Using the binary image and the four types of sub-patterns, a blur pattern composed of pixel portions not extracted as a sub-pattern is detected, and the line width of this blur pattern is calculated. Further, with respect to the blur pattern, using four threshold values set on the basis of the line width, scanning is performed in the horizontal, vertical, right diagonal, and left diagonal directions, and there are four types that reflect the distribution state of the detected strokes. A sub-pattern is extracted, a composite sub-pattern is created by combining the sub-pattern and the blur sub-pattern for each type, a feature matrix is extracted based on the composite sub-pattern, and the feature matrix and the dictionary are collated. As a result, the recognition result is output.Therefore, some strokes that make up the character pattern, which play an essential role in recognition, are compared with the local line width with other portions. Even when it gets smaller,
It is extracted as a part of the sub-pattern, and therefore poor quality character patterns and various scales with large differences in local line widths.
It is possible to realize a character recognition device capable of stably maintaining high-precision recognition performance even for complicated Kanji characters and figures composed of strokes of a ball.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明による文字認識装置の実施例1を示すブ
ロック図である。
FIG. 1 is a block diagram showing a first embodiment of a character recognition device according to the present invention.

【図2】本発明による文字認識装置の実施例2を示すブ
ロック図である。
FIG. 2 is a block diagram showing a second embodiment of the character recognition device according to the present invention.

【図3】かすれパタン抽出部の構成を示すブロック図で
ある。
FIG. 3 is a block diagram showing a configuration of a blur pattern extracting unit.

【図4】かすれ部分の存在するパタンの一例である。FIG. 4 is an example of a pattern in which a blurred portion exists.

【図5】つぶれによりサブパタンとして抽出されない部
分があるパタンの一例である。
FIG. 5 is an example of a pattern in which there is a portion that is not extracted as a sub-pattern due to crushing.

【図6】本発明の適用例の一例を示す図である。FIG. 6 is a diagram showing an example of an application example of the present invention.

【符号の説明】[Explanation of symbols]

101 光信号 102 光電変換部 103 パタンレジスタ 104 外接枠検出部 105 文字パタン線幅計算部 106 水平方向走査部 107 水平サブパタン1メモリ 108 垂直方向走査部 109 垂直サブパタン1メモリ 110 右斜め方向走査部 111 右斜めサブパタン1メモリ 112 左斜め方向走査部 113 左斜めサブパタン1メモリ 114 かすれパタン抽出部 115 かすれパタンメモリ 116 かすれパタン線幅計算部 117 水平方向走査部 118 水平かすれサブパタンメモリ 119 垂直方向走査部 120 垂直かすれサブパタンメモリ 121 右斜め方向走査部 122 右斜めかすれサブパタンメモリ 123 左斜め方向走査部 124 左斜めかすれサブパタンメモリ 125 水平サブパタン合成部 126 水平サブパタン2メモリ 127 垂直サブパタン合成部 128 垂直サブパタン2メモリ 129 右斜めサブパタン合成部 130 右斜めサブパタン2メモリ 131 左斜めサブパタン合成部 132 左斜めサブパタン2メモリ 133 出力制御部 134 線幅判定部 135 特徴抽出部 136 識別部 137 辞書メモリ 138 認識結果 139 微小セグメント除去部 101 optical signal 102 photoelectric conversion unit 103 pattern register 104 circumscribing frame detection unit 105 character pattern line width calculation unit 106 horizontal direction scanning unit 107 horizontal sub pattern 1 memory 108 vertical direction scanning unit 109 vertical sub pattern 1 memory 110 right diagonal direction scanning unit 111 right Diagonal sub-pattern 1 memory 112 Left diagonal sub-pattern scanning unit 113 Left diagonal sub-pattern 1 memory 114 Blurred pattern extraction unit 115 Blurred pattern memory 116 Blurred pattern line width calculation unit 117 Horizontal scanning unit 118 Horizontal blur sub-pattern memory 119 Vertical scanning unit 120 Vertical Faint sub-pattern memory 121 Right diagonal scan section 122 Right diagonal sub-pattern memory 123 Left diagonal scan section 124 Left diagonal sub-pattern memory 125 Horizontal sub-pattern combining section 126 Horizontal sub-pattern 2 Memory 127 Vertical sub-pattern combining unit 128 Vertical sub-pattern 2 memory 129 Right oblique sub-pattern combining unit 130 Right oblique sub-pattern 2 memory 131 Left oblique sub-pattern combining unit 132 Left oblique sub-pattern 2 memory 133 Output control unit 134 Line width determination unit 135 Feature extraction unit 136 Identification Part 137 dictionary memory 138 recognition result 139 minute segment removal part

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】 帳票等に記入された文字パタンを光学的
に走査して、量子化された電気信号である2値画像に変
換する光電変換部と、 前記2値画像に変換された文字パタンを格納するパタン
レジスタと、 前記パタンレジスタ内の文字パタンの外接枠を検出する
外接枠検出部と、 前記パタンレジスタの外接枠内の文字パタンの線幅を算
出する文字パタン線幅計算部と、 前記パタンレジスタの外接枠内の文字パタンに対して、
各々、水平、垂直、右斜め、左斜め方向に走査して得ら
れた黒画素の連続数が前記線幅に基づいて定められた閾
値を超えた場合にストロ−クとして検出し、これらのス
トロ−クの分布を表わすサブパタンを各方向毎に4種類
抽出するサブパタン抽出部と、 前記パタンレジスタの外接枠内の2値画像及び前記4種
類のサブパタンより、文字パタンを構成する黒画素の中
で、前記4種類のサブパタンのいずれにも属さない黒画
素をかすれパタンとして抽出するかすれパタン抽出部
と、 前記かすれパタンを構成する各々独立したセグメントの
うち、微小セグメントを除去する微小セグメント除去部
と、 前記かすれパタンの線幅を算出するかすれパタン線幅計
算部と、 微小セグメントを除去したかすれパタンについてサブパ
タンの抽出の必要が有りと判定された場合に、前記かす
れパタンの線幅に基づいてかすれパタンのストロ−クの
分布を表わすかすれサブパタンを前記同様に各走査方向
毎に4種類抽出するかすれサブパタン抽出部と、 前記サブパタン或は前記サブパタンとかすれサブパタン
を各走査方向毎に合成した合成サブパタンの何れか一方
のサブパタンを特徴抽出部に出力する制御部と、 前記サブパタン或は合成サブパタンの特徴マトリクスを
抽出する特徴抽出部と、 前記特徴マトリクスと予め用意された辞書マトリクスと
を照合した結果に基づき認識結果を出力する識別部とを
有することを特徴とする文字認識装置。
1. A photoelectric conversion unit for optically scanning a character pattern written on a form or the like to convert it into a binary image which is a quantized electric signal, and a character pattern converted into the binary image. A pattern register for storing, a circumscribing frame detecting unit for detecting a circumscribing frame of the character pattern in the pattern register, a character pattern line width calculating unit for calculating a line width of the character pattern in the circumscribing frame of the pattern register, For the character pattern in the circumscribed frame of the pattern register,
When the number of consecutive black pixels obtained by scanning horizontally, vertically, diagonally to the right, and diagonally to the left exceeds a threshold value determined based on the line width, it is detected as a stroke, and these strokes are detected. -A sub-pattern extraction unit that extracts four types of sub-patterns representing the distribution of black and white in each direction, and a binary image in the circumscribed frame of the pattern register and the four types of sub-patterns among the black pixels that form a character pattern. A blur pattern extracting unit that extracts a black pixel that does not belong to any of the four types of sub patterns as a blur pattern, and a fine segment removing unit that removes a fine segment from each of the independent segments that form the blur pattern. It is necessary to extract the sub-pattern for the faint pattern line width calculation unit that calculates the faint pattern line width and the faint pattern from which minute segments have been removed. If it is determined that the blur pattern sub-pattern that represents the stroke distribution of the blur pattern based on the line width of the blur pattern is extracted in the same manner as above, four types of blur sub patterns are extracted in each scanning direction; A control unit that outputs to the feature extraction unit one of the sub-patterns of the combined sub-pattern and the blurred sub-pattern for each scanning direction, and a feature extraction unit that extracts the feature matrix of the sub-pattern or the combined sub-pattern, A character recognition device comprising: an identification unit that outputs a recognition result based on a result obtained by comparing the feature matrix with a dictionary matrix prepared in advance.
JP5140747A 1993-06-11 1993-06-11 Character recognition device Expired - Lifetime JP2902904B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5140747A JP2902904B2 (en) 1993-06-11 1993-06-11 Character recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5140747A JP2902904B2 (en) 1993-06-11 1993-06-11 Character recognition device

Publications (2)

Publication Number Publication Date
JPH06348899A true JPH06348899A (en) 1994-12-22
JP2902904B2 JP2902904B2 (en) 1999-06-07

Family

ID=15275795

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5140747A Expired - Lifetime JP2902904B2 (en) 1993-06-11 1993-06-11 Character recognition device

Country Status (1)

Country Link
JP (1) JP2902904B2 (en)

Also Published As

Publication number Publication date
JP2902904B2 (en) 1999-06-07

Similar Documents

Publication Publication Date Title
US20050271275A1 (en) Text character identification system and method thereof
CN112861865A (en) OCR technology-based auxiliary auditing method
US8229214B2 (en) Image processing apparatus and image processing method
CN111626145A (en) Simple and effective incomplete form identification and page-crossing splicing method
US6983071B2 (en) Character segmentation device, character segmentation method used thereby, and program therefor
JP3268552B2 (en) Area extraction method, destination area extraction method, destination area extraction apparatus, and image processing apparatus
JP2902904B2 (en) Character recognition device
JP2902905B2 (en) Character recognition device
JPH076205A (en) Character recognition device
JPH0728948A (en) Character recognition device
JP2590099B2 (en) Character reading method
JP2708604B2 (en) Character recognition method
EP0446630A2 (en) Method and apparatus for segmenting characters in an amount field on a financial document
JP4439054B2 (en) Character recognition device and character frame line detection method
JP2613211B2 (en) Image input device
JP3197464B2 (en) Character recognition method and character recognition device
JP3162414B2 (en) Ruled line recognition method and table processing method
JP3277977B2 (en) Character recognition method
JP3210224B2 (en) Character recognition device
JP2827288B2 (en) Character recognition device
JPH09238247A (en) Optical character reader
JP2888885B2 (en) Character extraction device
JP3084833B2 (en) Feature extraction device
JP2983448B2 (en) Drawing recognition method
JPH11175659A (en) Character recognizing device

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19990309