JPH0728948A - Character recognition device - Google Patents

Character recognition device

Info

Publication number
JPH0728948A
JPH0728948A JP5167908A JP16790893A JPH0728948A JP H0728948 A JPH0728948 A JP H0728948A JP 5167908 A JP5167908 A JP 5167908A JP 16790893 A JP16790893 A JP 16790893A JP H0728948 A JPH0728948 A JP H0728948A
Authority
JP
Japan
Prior art keywords
pattern
sub
unit
line width
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5167908A
Other languages
Japanese (ja)
Inventor
Toru Miyamae
徹 宮前
Koichi Higuchi
浩一 樋口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP5167908A priority Critical patent/JPH0728948A/en
Publication of JPH0728948A publication Critical patent/JPH0728948A/en
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

PURPOSE:To provide a character recognition device which can obtain the highly accurate and stable recognition performance even for a character pattern of low quality that has the local variation of line width. CONSTITUTION:Four types of subpatterns are extracted at every scanning direction based on the average line width of an original character pattern. Furthermore a blurred pattern is extracted. If it is decided that a restoration pattern must be generated for the remaining pattern obtained by excluding the infinitesimal segments form the blurred pattern, a blur restoration pattern is generated by a thickening processing. In the same way, the sub-pattern of the blur restoration pattern are extracted at every direction. Then an area included in a circumscribed frame of the original character pattern or a synthetic pattern of the original character pattern with the blur restoration pattern is divided into the lattice-shaped partial areas. Then the feature value is calculated in each divided in each divided area of either a subpattern or a synthetic subpattern of the subpattern with the blur restoration pattern. Thus a feature matrix is generated and collated with the feature matrix of a dictionary 137. Thus the characters are recognized.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】この発明は、一部がかすれたよう
な局所的に線幅の異なる文字パタンに対しても高精度に
安定した認識性能の得られる文字認識装置に関するもの
である。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character recognition device capable of obtaining highly accurate and stable recognition performance even for a character pattern having a partially different line width such as a faint part.

【0002】[0002]

【従来の技術】従来、入力文字パタンの特徴を抽出し、
予め用意した辞書との照合によって、認識結果を出力す
る文字認識装置としては、例えば特公昭60−3875
6に開示されるものがあった。この文字認識装置による
処理の概要について以下に説明する。
2. Description of the Related Art Conventionally, characteristics of input character patterns are extracted,
As a character recognition device that outputs a recognition result by collating with a dictionary prepared in advance, for example, Japanese Patent Publication No. 60-3875.
6 was disclosed. The outline of the processing by the character recognition device will be described below.

【0003】先ず、入力文字パタンの各セルの明るさを
光電変換によって、量子化された電気信号である2値画
像に変換し、該2値画像をパタンレジスタに格納してお
く。そして前記パタンレジスタ内の文字パタンの外接枠
を検出し、この外接枠内の文字パタンの線幅を計算す
る。次にパタンレジスタの外接枠内の文字パタンに対し
て、水平、垂直、右斜め、左斜め方向に走査し、前記線
幅を閾値とする連続黒画素成分を検出することによっ
て、該入力文字パタンに対する4種のサブパタンを抽出
する。また、前記パタンレジスタの外接枠内の文字パタ
ンに対して、各分割領域内の黒画素数が同数になるよう
に垂直方向、水平方向に格子状となるN×M個の部分領
域に非線形分割する。次に前記4種のサブパタンのそれ
ぞれについて、前記分割された部分領域内における該サ
ブパタンの黒画素数を計数し、これを文字パタンの大き
さで正規化することによって、各方向における文字線の
分布状態を反映するN×M×4次元の特徴マトリクスを
抽出する。そして前記特徴マトリクスと予め用意された
複数の標準文字の特徴マトリクスである辞書とを照合
し、該照合結果より該入力文字パタンの認識結果を出力
するというものであった。
First, the brightness of each cell of an input character pattern is converted into a binary image which is a quantized electric signal by photoelectric conversion, and the binary image is stored in a pattern register. Then, the circumscribing frame of the character pattern in the pattern register is detected, and the line width of the character pattern in the circumscribing frame is calculated. Next, the character pattern in the circumscribing frame of the pattern register is scanned horizontally, vertically, diagonally to the right, and diagonally to the left to detect continuous black pixel components having the line width as a threshold, thereby detecting the input character pattern. Extract four sub-patterns for. Further, with respect to the character pattern in the circumscribing frame of the pattern register, non-linear division into N × M partial areas in a grid pattern in the vertical direction and the horizontal direction so that the number of black pixels in each divided area is the same. To do. Next, for each of the four types of sub-patterns, the number of black pixels of the sub-pattern in the divided partial area is counted, and the number of black pixels is normalized by the size of the character pattern to thereby distribute the character lines in each direction. An N × M × 4 dimensional feature matrix reflecting the state is extracted. Then, the feature matrix is collated with a dictionary, which is a feature matrix of a plurality of standard characters prepared in advance, and the recognition result of the input character pattern is output from the collation result.

【0004】[0004]

【発明が解決しようとする課題】しかし、前記文字認識
装置においては、以下のような問題点があった。即ち、
入力された文字パタンの外接枠内の2値画像に対して、
水平、垂直、右斜め、左斜めの4方向にそれぞれ走査
し、当該文字パタンの平均線幅の2倍を閾値として、連
続した黒画素よりなるストロ−クを抽出し、それらの分
布を表わす4種のサブパタンを抽出していた。しかし、
前記従来のサブパタンの抽出方法では、当然ながら前記
線幅の2倍より小さい連続黒画素数を持つストロ−ク成
分は抽出されない。従って、一部がかすれたような文字
パタン、即ち、局所的な線幅値が他の部分と比較して極
めて小さくなっている文字パタン等は、その部分がサブ
パタン及びサブパタンに基づいて抽出される特徴マトリ
クスに反映されず、その結果、認識性能の低下の一因を
為していたという問題点があった。
However, the above character recognition device has the following problems. That is,
For the binary image in the circumscribed frame of the input character pattern,
Scanning is performed in each of the four directions of horizontal, vertical, diagonal to the right, and diagonal to the left, and a stroke consisting of consecutive black pixels is extracted by using twice the average line width of the character pattern as a threshold, and the distribution thereof is represented. The seed sub-pattern was extracted. But,
The conventional sub-pattern extraction method naturally does not extract the stroke component having the number of continuous black pixels smaller than twice the line width. Therefore, a character pattern that is partly faint, that is, a character pattern whose local line width value is extremely small compared to other parts, is extracted based on the sub-pattern and sub-pattern. There was a problem that it was not reflected in the feature matrix, and as a result, it contributed to the deterioration of the recognition performance.

【0005】このような場合の例を図4及び図6(a)
に示す。図4では、アルファベットの「Q」の字のひげ
の部分、即ち波線401で囲まれた領域内のセグメント
がかすれて3つに分裂してしまった場合を表している。
このかすれたひげの部分は、本来ならば、左斜め方向の
走査によって、ストロ−クの一部として検出されるわけ
であるが、この例では、いかなる方向の走査においても
サブパタンの一部としては検出されない。従って、ひげ
の部分は特徴に反映されず、ひげのない類似文字、例え
ば、「O」等に誤読する確率が増大することになる。ま
た図6(a)では、漢字の「因」の字をあつかってい
る。この場合、「因」を構成する要素の内、外側の部分
である「口」に対し、内側の部分である「大」が通常よ
り小さく書かれ、文字全体の平均線幅の2倍以下の大き
さしか持たないため、平均線幅を用いた走査では、図6
(b)、(c)、(d)、(e)に示したように「大」
の字がどのサブパタンにも反映されないといった事態が
生じ、大きな問題点となる。
An example of such a case is shown in FIGS. 4 and 6 (a).
Shown in. FIG. 4 shows a case where the beard portion of the letter “Q” of the alphabet, that is, the segment in the area surrounded by the wavy line 401 is faintly divided into three.
This faint whisker is normally detected as a part of the stroke by scanning in the left diagonal direction, but in this example, as a part of the sub-pattern in scanning in any direction. Not detected. Therefore, the beard portion is not reflected in the feature, and the probability of misreading a similar character without a beard, such as "O", increases. In addition, in FIG. 6A, the kanji “Cause” is used. In this case, of the elements that make up the "cause," the inner part, "large", is written smaller than usual, with respect to the outer part, "mouth," and is less than twice the average line width of the entire character. Since it has only the size, the scan using the average line width is
“Large” as shown in (b), (c), (d), and (e)
This is a big problem because the situation where the character of “” is not reflected in any sub pattern occurs.

【0006】また、上述のように一部がかすれたり、小
さく書かれたりした文字パタンではないときでも、一部
がつぶれたことにより平均線幅の値が非常に大きくな
り、その結果、通常のストロ−クが走査によってサブパ
タンとして検出されず、故に特徴マトリクスに反映され
ず、認識性能の低下をもたらすという問題点があった。
このような場合の例を図5に示す。図5は、数字の
「5」において、下部がル−プを作りつぶれてしまった
例であるが、このとき、文字全体の平均線幅は大きな値
となり、その結果、例えば、破線501で示されたよう
な通常に書かれたストロ−クの部分等は線幅の2倍以下
の大きさとなってしまい、結局、サブパタンとして抽出
されなくなる。従って、破線501が示すストロ−クが
ないパタンとして、特徴抽出されるので、例えば「6」
等に極めて類似してくることになり、「6」に誤読する
確率が増大する。
Further, even when the character pattern is not faint or written small as described above, the value of the average line width becomes very large due to the part being crushed, and as a result, the normal line width is increased. There is a problem in that the stroke is not detected as a sub-pattern by scanning and is therefore not reflected in the feature matrix, resulting in deterioration of recognition performance.
An example of such a case is shown in FIG. FIG. 5 is an example in which the lower part of the numeral "5" has been formed into a loop, but at this time, the average line width of the entire character becomes a large value, and as a result, for example, the broken line 501 indicates. The stroke portion or the like which is normally written as described above has a size of twice the line width or less, and is eventually not extracted as a sub pattern. Therefore, the feature is extracted as a pattern having no stroke indicated by the broken line 501, and, for example, "6".
And so on, and the probability of misreading as "6" increases.

【0007】本発明は、前記従来のサブパタン抽出方法
において、文字を構成する各ストロ−ク成分の線幅が平
均線幅に近いところで分布する場合には、有効な特徴抽
出となり得る一方、局所的なストロ−クの線幅値が他の
部分の線幅値と大きな差がある場合、即ち、一部がつぶ
れていたり、かすれていたりする等のような文字パタン
に対しては、適切な特徴抽出ができず認識性能の低下を
もたらすといった問題点を除去し、平均線幅に比較して
局所線幅が小さく、通常の走査ではサブパタンとして抽
出されないストロ−ク成分のみからなるかすれパタンを
抽出し、これらのストロ−ク成分に対して、入力文字の
平均線幅にまで太め処理を行うことによって、かすれ復
元パタンを作成した後、かすれ復元パタンのサブパタン
を抽出して入力文字パタンのサブパタンとの合成を行
い、さらに原2値画像とかすれ復元パタンとの合成を行
って該合成文字パタンに基づく周辺分布より外接枠を分
割し、前記合成サブパタン及び前記分割領域に基づいた
特徴抽出、認識処理を行うことによって、局所的な線幅
に大きなばらつきのある品質の良くない文字パタンに対
しても、高精度で、安定な認識性能の得られる文字認識
装置を提供することを目的とする。
In the conventional sub-pattern extraction method described above, when the stroke width of each stroke component forming a character is distributed near the average line width, effective feature extraction can be performed while local feature extraction can be performed. When the stroke width value of a stroke has a large difference from the stroke width value of other parts, that is, an appropriate feature for a character pattern such as a part being crushed or faint By eliminating the problem that the extraction could not be performed and the recognition performance was degraded, the local pattern width was smaller than the average line width, and a blur pattern consisting only of stroke components that was not extracted as a sub pattern in normal scanning was extracted. By creating a blur restoration pattern by performing thickening processing to these stroke components up to the average line width of the input character, the sub pattern of the blur restoration pattern is extracted and the input sentence is extracted. The feature is based on the composite sub-pattern and the divided area by synthesizing the pattern with the sub-pattern, further synthesizing the original binary image and the blur restoration pattern, and dividing the circumscribing frame from the peripheral distribution based on the synthetic character pattern. An object of the present invention is to provide a character recognition device that can obtain stable and highly accurate recognition performance even for poor quality character patterns that have large variations in local line widths by performing extraction and recognition processing. And

【0008】[0008]

【課題を解決するための手段】本発明は、前記課題を解
決するために、帳票等に記入された文字パタンを光学的
に走査して、量子化された電気信号である2値画像に変
換する光電変換部と、前記2値画像に変換された文字パ
タンを格納するパタンレジスタと、前記パタンレジスタ
内の文字パタンの外接枠を検出する外接枠検出部と、前
記パタンレジスタの外接枠内の文字パタンの線幅を算出
する線幅計算部と、前記パタンレジスタの外接枠内の文
字パタンに対して、水平、垂直、右斜め、左斜めの各方
向に走査し、走査線上の黒画素の連続数が前記線幅に基
づいて定められた閾値を超えた場合にストロ−クとして
検出し、これらのストロ−クの分布を表わすサブパタン
を各方向毎に4種類抽出するサブパタン抽出部と、前記
パタンレジスタの外接枠内の2値画像及び前記4種類の
サブパタンより、文字パタンを構成する黒画素の中で、
4種類のサブパタンのいずれにも属さない黒画素の集合
をかすれパタンとして抽出するかすれパタン抽出部と、
前記かすれパタンを構成する各々独立したセグメントの
うち、微小セグメントを除去する微小セグメント除去部
と、前記かすれパタンの線幅を算出するかすれパタン線
幅計算部と、微小セグメントを除去したかすれパタンに
ついて復元パタン作成の必要有りと判定された場合に、
当該かすれパタンを構成する各々のセグメントに対し
て、線幅を前記平均線幅まで太める処理を行うことによ
って、かすれ復元パタンを作成するかすれパタン復元部
と、前記かすれ復元パタンに対して、水平、垂直、右斜
め、左斜めの各方向に走査し、走査線上の黒画素の連続
数が前平均線幅に基づいて定められた閾値を超えた場合
にストロ−クとして検出し、これらのストロ−クの分布
を表わすかすれ復元サブパタンを各方向毎に4種類抽出
するかすれ復元サブパタン抽出部と、前記サブパタンと
前記かすれ復元サブパタンとをそれぞれの種類毎に合成
するサブパタン合成部と、前記サブパタンまたは合成サ
ブパタンの何れか一方のサブパタンを特徴抽出部に出力
する制御部と、前記パタンレジスタの外接枠内の2値画
像及び前記かすれ復元パタンとを合成し、合成文字パタ
ンを作成するパタン合成部と、前記パタンレジスタの外
接枠内の2値画像または前記合成文字パタンの周辺分布
に基づいて、外接枠を水平方向及び垂直方向に格子状と
なる部分領域に分割する外接枠分割部と、前記サブパタ
ンまたは前記合成サブパタンについて前記分割された部
分領域の特徴値を算出し、特徴マトリクスを作成する特
徴抽出部と、前記特徴マトリクスと予め用意された辞書
とを照合することにより最終的な認識結果を出力する識
別部とを有することを特徴とする。
In order to solve the above problems, the present invention optically scans a character pattern written on a form or the like and converts it into a binary image which is a quantized electric signal. A photoelectric conversion unit, a pattern register for storing the character pattern converted into the binary image, a circumscribing frame detecting unit for detecting a circumscribing frame of the character pattern in the pattern register, and a circumscribing frame of the pattern register. A line width calculation unit for calculating a line width of a character pattern, and a character pattern in a circumscribing frame of the pattern register is scanned in each of horizontal, vertical, right diagonal, and left diagonal directions, and a black pixel on a scanning line is scanned. A sub-pattern extraction unit that detects as strokes when the number of consecutive patterns exceeds a threshold value determined based on the line width, and extracts four types of sub-patterns representing the distribution of these strokes in each direction; Pattern register From the binary image and the four sub-patterns in the contact frame, among the black pixels constituting a character pattern,
A blur pattern extracting unit that extracts a set of black pixels that do not belong to any of the four types of sub patterns as a blur pattern,
Of the independent segments constituting the faint pattern, a fine segment removing unit that removes a fine segment, a faint pattern line width calculating unit that calculates a line width of the faint pattern, and a faint pattern from which the fine segment is removed are restored. If it is determined that a pattern needs to be created,
For each segment that constitutes the faint pattern, by performing a process of thickening the line width to the average line width, a faint pattern restoring unit that creates a faint restored pattern and a horizontal direction with respect to the faint restored pattern , Vertical, diagonal to the right, diagonal to the left, and when the number of consecutive black pixels on the scanning line exceeds the threshold value determined based on the previous average line width, it is detected as a stroke and these strokes are detected. A shading restoration sub-pattern extraction unit that extracts four types of shading restoration sub-patterns that represent the distribution of black and white in each direction, a sub-pattern synthesis unit that synthesizes the sub-pattern and the shading restoration sub-pattern for each type, and the sub-pattern or synthesis. A control unit that outputs one of the sub patterns to the feature extraction unit, a binary image in the circumscribed frame of the pattern register, and the blurring correction. A pattern synthesizing unit for synthesizing a pattern and creating a synthetic character pattern, and a circumscribing frame in a horizontal and vertical direction based on a binary image in the circumscribing frame of the pattern register or a peripheral distribution of the synthetic character pattern. Circumscribing frame dividing unit that divides the divided partial region into a shape, a feature extraction unit that calculates a feature value of the divided partial region for the sub-pattern or the composite sub-pattern, and creates a feature matrix; It has a discriminating part which outputs a final recognition result by collating with the created dictionary.

【0009】[0009]

【作用】この発明によれば、原文字パタンの平均線幅に
基づいた文字のストロークの分布状態を表わすサブパタ
ンが各走査方向毎に4種類抽出され、更に抽出されたサ
ブパタンの何れにも属さないパタンから成るかすれパタ
ンが抽出される。このかすれパタンから微小セグメント
を除去した残りのパタンに対して復元パタン作成の必要
性の有無が判定され、作成の必要有りと判定された場合
には当該かすれパタンの線幅に基づきかすれ復元パタン
が作成され、前記同様にかすれ復元パタンのサブパタン
が各方向毎に抽出される。また、原文字パタン或は原文
字パタンとかすれ復元パタンとの合成パタンの外接枠内
の領域が格子状の部分領域に分割され、前記サブパタン
或はかすれ復元パタンのサブパタンが抽出された場合に
はそれらの合成サブパタンの何れか一方のサブパタンが
特徴抽出部に出力され、前記分割領域内の特徴値が計算
されて特徴マトリクスが作成される。この特徴マトリク
スを辞書の特徴マトリクスと照合することにより文字認
識が行われる。従って、文字パタンを構成するストロー
ク成分の中で文字認識に本質的な役割を果たすものの一
部がかすれたり或は小さくなったような場合でもかすれ
復元サブパタンとして救済し抽出することが可能となる
ため、局所的な線幅にばらつきの有るような低品質の文
字パタンに対しても高精度で安定した認識性能を得るこ
とが可能となる。
According to the present invention, four types of sub-patterns representing the distribution of the strokes of characters based on the average line width of the original character pattern are extracted for each scanning direction, and do not belong to any of the extracted sub-patterns. A faint pattern consisting of patterns is extracted. It is determined whether or not there is a need to create a restoration pattern for the remaining patterns obtained by removing minute segments from this blur pattern, and if it is determined that it is necessary to create a restoration pattern, the blur restoration pattern is determined based on the line width of the blur pattern. The sub-pattern of the blur restoration pattern is created and extracted in each direction as described above. In addition, when the area inside the circumscribed frame of the original character pattern or the composite pattern of the original character pattern and the blur restoration pattern is divided into the grid-like partial areas, and the sub pattern or the sub pattern of the blur restoration pattern is extracted. One of the sub patterns of the combined sub patterns is output to the feature extraction unit, the feature value in the divided area is calculated, and the feature matrix is created. Character recognition is performed by comparing this feature matrix with the feature matrix of the dictionary. Therefore, even if a part of the stroke components constituting the character pattern that plays an essential role in character recognition becomes faint or small, it is possible to rescue and extract it as a faint restoration sub-pattern. As a result, it is possible to obtain a highly accurate and stable recognition performance even for a low-quality character pattern having local line width variations.

【0010】[0010]

【実施例】以下に本発明による文字認識装置の実施例1
及び2を説明するが、ここでは例えば図4の401,図
5の501及び図6(a)の「因」を構成する要素
「大」等は、便宜上、かすれパタンという名称で一括し
て呼称する。また実施例1では、図6(a)の漢字
「因」という字の2値画像に対して、本発明を適用した
例について併せて説明していく。
[Embodiment] Embodiment 1 of the character recognition apparatus according to the present invention will be described below.
2 will be described, but here, for example, the element “large” and the like constituting 401 of FIG. 4, 501 of FIG. 5, and “factor” of FIG. 6A are collectively referred to as a blur pattern. To do. Further, in the first embodiment, an example in which the present invention is applied to the binary image of the Chinese character “Cause” in FIG.

【0011】図1は、本発明による文字認識装置の実施
例1を示すブロック図である。ここで、101は、文字
パタンをスキャナで走査して得られた光信号入力、10
2は光電変換部、103はパタンレジスタ、104は外
接枠検出部、105は文字パタン線幅計算部、106は
水平方向走査部、107は水平サブパタン1メモリ、1
08は垂直方向走査部、 109は垂直サブパタン1メ
モリ、110は右斜め方向走査部、111は右斜めサブ
パタン1メモリ、112は左斜め方向走査部、113は
左斜めサブパタン1メモリ、114はかすれパタン抽出
部、115はかすれパタンメモリ、116はかすれパタ
ン線幅計算部、117は水平方向走査部、118は水平
かすれサブパタンメモリ、119は垂直方向走査部、1
20は垂直かすれサブパタンメモリ、121は右斜め方
向走査部、122は右斜めかすれサブパタンメモリ、1
23は左斜め方向走査部、124は左斜めかすれサブパ
タンメモリ、125は水平サブパタン合成部、126は
水平サブパタン2メモリ、127は垂直サブパタン合成
部、128は垂直サブパタン2メモリ、129は右斜め
サブパタン合成部、130は右斜めサブパタン2メモ
リ、131は左斜めサブパタン合成部、132は左斜め
サブパタン2メモリ、133は出力制御部、134は線
幅判定部、135は特徴抽出部、136は識別部、13
7は辞書メモリ、138は認識結果、139は微小セグ
メント除去部、140はかすれパタン復元部、141は
かすれ復元パタンメモリ、142はパタン合成部、14
3は合成文字パタンメモリ、144は外接枠分割部であ
る。
FIG. 1 is a block diagram showing a first embodiment of a character recognition device according to the present invention. Here, 101 is an optical signal input obtained by scanning a character pattern with a scanner, 10
2 is a photoelectric conversion unit, 103 is a pattern register, 104 is a circumscribing frame detection unit, 105 is a character pattern line width calculation unit, 106 is a horizontal scanning unit, 107 is a horizontal sub pattern 1 memory, 1
Reference numeral 08 is a vertical scanning unit, 109 is a vertical sub-pattern 1 memory, 110 is a right diagonal scanning unit, 111 is a right diagonal sub pattern 1 memory, 112 is a left diagonal scanning unit, 113 is a left diagonal sub pattern 1 memory, and 114 is a faint pattern. An extraction unit, 115 is a blur pattern memory, 116 is a blur pattern line width calculation unit, 117 is a horizontal scanning unit, 118 is a horizontal blur sub-pattern memory, 119 is a vertical scanning unit, 1
Reference numeral 20 is a vertical blurring sub-pattern memory, 121 is a diagonal right direction scanning unit, 122 is a right diagonal blurring sub pattern memory, 1
23 is a left oblique direction scanning unit, 124 is a left oblique fading sub pattern memory, 125 is a horizontal sub pattern combining unit, 126 is a horizontal sub pattern 2 memory, 127 is a vertical sub pattern combining unit, 128 is a vertical sub pattern 2 memory, and 129 is a right oblique sub pattern. A synthesizing unit, 130 is a right diagonal sub-pattern 2 memory, 131 is a left diagonal sub-pattern 2 synthesizing unit, 132 is a left diagonal sub-pattern 2 memory, 133 is an output control unit, 134 is a line width determining unit, 135 is a feature extracting unit, 136 is an identifying unit. , 13
7 is a dictionary memory, 138 is a recognition result, 139 is a minute segment removing unit, 140 is a faint pattern restoring unit, 141 is a faint restoring pattern memory, 142 is a pattern combining unit, 14
Reference numeral 3 is a composite character pattern memory, and 144 is a circumscribing frame division unit.

【0012】先ず、帳票等に手書きまたは印刷された文
字パタンをスキャナで走査して得られた光信号101
は、光電変換部102において、電気信号に変換され、
さらに量子化によって2値の信号からなる2値画像に変
換されてパタンレジスタ103に格納される。
First, an optical signal 101 obtained by scanning a character pattern handwritten or printed on a form with a scanner.
Is converted into an electric signal in the photoelectric conversion unit 102,
Further, it is converted into a binary image composed of binary signals by quantization and stored in the pattern register 103.

【0013】外接枠検出部104は、パタンレジスタ1
03に蓄えられた2値画像に対し、水平走査により前記
2値画像の上端及び下端を検出し、垂直走査により前記
2値画像の左端及び右端を検出し、その結果、当該入力
文字パタンに外接する句形である外接枠を得る。そし
て、外接枠に関する座標値を線幅計算部105、水平方
向走査部106、垂直方向走査部108、右斜め方向走
査部110、左斜め方向走査部112及びかすれパタン
抽出部114に出力し、文字パタンの切り出し領域を指
定する。以下の処理において、パタンレジスタ103の
2値画像を用いる場合は、全て外接枠内にある2値画像
を対象とする。
The circumscribing frame detection unit 104 is used in the pattern register 1
For the binary image stored in 03, the upper and lower ends of the binary image are detected by horizontal scanning, the left and right ends of the binary image are detected by vertical scanning, and as a result, the input character pattern is circumscribed. Get a circumscribing frame that is a phrase form. Then, the coordinate value regarding the circumscribing frame is output to the line width calculation unit 105, the horizontal scanning unit 106, the vertical scanning unit 108, the right diagonal scanning unit 110, the left diagonal scanning unit 112, and the blur pattern extracting unit 114, and the character Specify the cutout area of the pattern. In the following processing, when the binary image of the pattern register 103 is used, all the binary images within the circumscribed frame are targeted.

【0014】文字パタン線幅計算部105では、当該入
力文字パタンにおける平均線幅が計算される。ここで、
平均線幅の求め方の一例として本実施例では、パタンレ
ジスタ103の外接枠内の文字パタンの2値画像の黒画
素数をA、4黒画素数をQとした時、当該入力文字パタ
ンの平均線幅Wrを次式で計算する方法を用いた。 Wr = A / (A − Q) (1) 但し、4黒画素とは、2値画像を2×2の窓で走査した
時に2×2の窓の全てが黒画素となる点であり、4黒画
素数Qとは、そのような4黒画素を計数したものであ
る。
The character pattern line width calculation unit 105 calculates the average line width in the input character pattern. here,
As an example of how to obtain the average line width, in this embodiment, when the number of black pixels of the binary image of the character pattern in the circumscribing frame of the pattern register 103 is A and the number of black pixels is Q, the input character pattern The method of calculating the average line width Wr by the following formula was used. Wr = A / (A−Q) (1) However, 4 black pixels means that all the 2 × 2 windows become black pixels when the binary image is scanned by the 2 × 2 window. The black pixel number Q is a count of such 4 black pixels.

【0015】次にパタンレジスタ103の外接枠内の文
字パタンに対して、水平方向走査部106において水平
方向に、垂直方向走査部108において垂直方向に、右
斜め方向走査部110において右斜め方向に、左斜め方
向走査部112において左斜め方向に、それぞれ走査
し、前記線幅に基づいた値を閾値として、連続した黒画
素であるストロ−クを検出していき、それらの分布状態
を反映するサブパタンを生成する。この時、その連続し
た黒画素がサブパタンを構成するストロ−ク成分である
ことの条件は、連続黒画素数をLとしたとき、次式で与
えられる。 L > 2 × Wr (2) ここで、Wrとは文字パタン線幅計算部105において
算出された当該文字入力パタンの平均線幅である。即
ち、それぞれの方向の走査において線幅の2倍を超える
長さを持つストロ−クが当該方向のサブパタンを構成す
るストロ−クとして抽出されるのである。以上のように
検出された外接枠内における連続黒画素としてのストロ
−クの分布状態は、各々の走査方向毎に、水平サブパタ
ン1、垂直サブパタン1、右斜めサブパタン1、左斜め
サブパタン1として、それぞれ水平サブパタン1メモリ
107、垂直サブパタン1メモリ109、右斜めサブパ
タン1メモリ111、左斜めサブパタン1メモリ113
に格納される。
Next, with respect to the character pattern in the circumscribed frame of the pattern register 103, the horizontal scanning unit 106 horizontally, the vertical scanning unit 108 vertically, and the right diagonal scanning unit 110 diagonally right. , The diagonally leftward scanning unit 112 scans diagonally leftward, detects strokes that are continuous black pixels by using the value based on the line width as a threshold, and reflects their distribution state. Generate a sub pattern. At this time, the condition that the continuous black pixels are the stroke components forming the sub-pattern is given by the following equation, where L is the number of continuous black pixels. L> 2 × Wr (2) Here, Wr is the average line width of the character input pattern calculated by the character pattern line width calculation unit 105. That is, in the scanning in each direction, the stroke having a length that is more than twice the line width is extracted as the stroke that constitutes the sub-pattern in that direction. The distribution state of strokes as continuous black pixels in the circumscribing frame detected as described above is as follows: horizontal sub-pattern 1, vertical sub-pattern 1, right diagonal sub-pattern 1, left diagonal sub-pattern 1, for each scanning direction. Horizontal sub pattern 1 memory 107, vertical sub pattern 1 memory 109, diagonal right sub pattern 1 memory 111, diagonal left sub pattern 1 memory 113, respectively.
Stored in.

【0016】図6を例にとると、走査前の原2値画像が
図6(a)に、水平サブパタン1が図6(b)に、垂直
サブパタン1が図6(c)に、右斜めサブパタン1が図
6(d)に、左斜めサブパタン1が図6(e)に各々示
されている。前述したように「因」を構成する要素
「大」は、平均線幅の2倍以下のスケ−ルであるため各
サブパタンには全く反映されていないことがわかる。
Taking FIG. 6 as an example, the original binary image before scanning is shown in FIG. 6A, the horizontal sub-pattern 1 is shown in FIG. 6B, the vertical sub-pattern 1 is shown in FIG. The sub pattern 1 is shown in FIG. 6 (d), and the left diagonal sub pattern 1 is shown in FIG. 6 (e). As described above, it can be seen that the element "large" that constitutes the "factor" is not reflected in each sub-pattern because it is a scale of twice the average line width or less.

【0017】かすれパタン抽出部114は、パタンレジ
スタ103の外接枠内の2値画像及び水平サブパタン
1、垂直サブパタン1、右斜めサブパタン1、左斜めサ
ブパタン1とを用いて、サブパタンとして抽出されなか
ったストロ−ク成分の分布状態をかすれパタンとして抽
出する。図3はかすれパタン抽出部114の構成を示す
ブロック図であって、点線で示された枠内がかすれパタ
ン抽出部114の内部を表しており、301はOR回路
部、302はメモリ、303はNOT回路部、304は
文字パタンメモリ、305はAND回路部である。
The blur pattern extracting unit 114 uses the binary image in the circumscribing frame of the pattern register 103 and the horizontal sub pattern 1, the vertical sub pattern 1, the right oblique sub pattern 1, and the left oblique sub pattern 1 and is not extracted as a sub pattern. The distribution state of the stroke components is extracted as a blur pattern. FIG. 3 is a block diagram showing the configuration of the blur pattern extracting unit 114, and the inside of the frame shown by the dotted line represents the interior of the blur pattern extracting unit 114, 301 is an OR circuit unit, 302 is a memory, and 303 is A NOT circuit unit, 304 is a character pattern memory, and 305 is an AND circuit unit.

【0018】次に図3に示されたかすれパタン抽出部1
14における各ブロックの機能及び処理の流れについて
説明する。先ず、各方向のサブパタンメモリ107,1
09,111,113に格納された水平サブパタン1、
垂直サブパタン1、右斜めサブパタン1及び左斜めサブ
パタン1は、OR回路部301に入力される。OR回路
部301では、各サブパタンの黒画素を1、白画素を0
としたとき、外接枠で囲まれたサブパタン領域の画素1
つ1つについて、4つのサブパタン1の画素値のOR論
理演算が実行され、当該演算結果が、予めメモリ302
に用意されたサブパタン領域と同じ句形領域の対応する
画素についてそれぞれ出力されていき、最終的には、4
つのサブパタン1の和集合であるパタンがメモリ302
上に生成される。このパタンは、当該領域の各画素にお
いて、4つのサブパタンの内、少なくとも1つのサブパ
タンの画素値が1、即ち、黒画素である時に、黒画素で
あり、4つのサブパタン1のいずれも画素値が0、即
ち、白画素である時に白画素となっている。従って、こ
のサブパタンの和集合のパタンの白画素部分は、もとも
と文字パタンの2値画像でも白画素であったか或いは、
2値画像では黒画素であるがサブパタンとしては抽出さ
れなかったかのどちらかである。
Next, the blur pattern extraction unit 1 shown in FIG.
The function of each block in 14 and the flow of processing will be described. First, the sub-pattern memories 107 and 1 in each direction
Horizontal sub-patterns 1 stored in 09, 111 and 113,
The vertical sub pattern 1, the diagonal right sub pattern 1, and the diagonal left sub pattern 1 are input to the OR circuit unit 301. In the OR circuit unit 301, the black pixel of each sub-pattern is 1, and the white pixel is 0.
Then, the pixel 1 of the sub-pattern area surrounded by the circumscribed frame
For each one, the OR logical operation of the pixel values of the four sub patterns 1 is executed, and the operation result is stored in advance in the memory 302.
Are output for each of the pixels corresponding to the same phrase-shaped area as the sub-pattern area prepared in.
The pattern that is the union of the two sub patterns 1 is the memory 302.
Generated on. This pattern is a black pixel when the pixel value of at least one sub-pattern among the four sub-patterns in each pixel of the area is 1, that is, a black pixel, and the pixel values of all four sub-patterns 1 are 0, that is, a white pixel is a white pixel. Therefore, the white pixel portion of the pattern of the union of the sub patterns was originally a white pixel in the binary image of the character pattern, or
It is either a black pixel in the binary image, but it was not extracted as a sub pattern.

【0019】次にメモリ302上に生成された前記パタ
ンについて、NOT回路部303によるNOT演算が実
行される。NOT回路部303では、メモリ302上の
パタンを構成する画素の一つ一つについて、順次、画素
値0の画素を画素値1に、画素値1の画素を画素値0に
変換し、即ち、白画素を黒画素に、黒画素を白画素に変
換するNOT演算を実行し、当該演算結果をメモリ30
2における当該画素上に出力する。以上のようにして、
メモリ302上には、OR回路部301によって生成さ
れたサブパタンの和集合であるパタンを白黒反転させた
パタンが生成される。一方、上述の処理とは独立に、パ
タンレジスタ103の2値画像の内、外接枠検出部10
4によって検出された外接枠内の2値画像のみが文字パ
タンメモリ304に転送される。
Next, the NOT circuit section 303 performs a NOT operation on the pattern generated on the memory 302. The NOT circuit unit 303 sequentially converts a pixel having a pixel value of 0 into a pixel value of 1 and a pixel having a pixel value of 1 into a pixel value of 0 for each of the pixels forming the pattern on the memory 302, that is, A NOT operation for converting a white pixel into a black pixel and a black pixel into a white pixel is executed, and the operation result is stored in the memory 30.
It outputs on the said pixel in 2. As described above,
On the memory 302, a pattern in which the pattern, which is the union of the sub patterns generated by the OR circuit unit 301, is inverted in black and white is generated. On the other hand, independently of the above processing, the circumscribing frame detection unit 10 in the binary image of the pattern register 103 is
Only the binary image in the circumscribing frame detected by No. 4 is transferred to the character pattern memory 304.

【0020】次にメモリ302上のパタンと文字パタン
メモリ3045の文字パタンに対して、AND回路部3
05によって、AND演算が実行される。AND回路部
305では、パタン領域内の個々の画素について、メモ
リ302上のパタンの画素値と該画素に対応する文字パ
タンメモリ304上の文字パタンの画素値とのAND演
算、即ち、両者の画素値が1であったときのみに、画素
値1を出力し、少なくともどちらかが0であったとき
は、画素値0を出力する演算を実行していき、当該演算
結果をかすれパタンとして、かすれパタンメモリ115
に出力する。このかすれパタンは、上述の説明で理解で
きるように、文字パタンを構成する黒画素の中で、4つ
のサブパタン1の黒画素のいずれにも所属しないものを
抽出してできたものである。即ち、かすれパタンは、例
えば、図4の401が示すようにストロ−クの一部がか
すれ、いくつかのセグメントに分裂してできたストロ−
クやまた図5の501が示すように元々孤立したストロ
−クであって、式(2)で示された平均線幅の2倍とい
う閾値に達しないもの等から構成されている。
Next, for the pattern on the memory 302 and the character pattern in the character pattern memory 3045, the AND circuit unit 3
An AND operation is executed by 05. In the AND circuit unit 305, for each pixel in the pattern area, an AND operation is performed between the pixel value of the pattern on the memory 302 and the pixel value of the character pattern on the character pattern memory 304 corresponding to the pixel, that is, both pixels. Only when the value is 1, the pixel value 1 is output, and when at least one of them is 0, an operation of outputting the pixel value 0 is executed, and the operation result is used as a blur pattern to make a blur. Pattern memory 115
Output to. As can be understood from the above description, this blurring pattern is obtained by extracting black pixels constituting the character pattern that do not belong to any of the black pixels of the four sub patterns 1. That is, for example, as shown by 401 in FIG. 4, a faint pattern is a stroke formed by a part of the stroke being divided into several segments.
Or a stroke originally isolated as shown by 501 in FIG. 5 and which does not reach the threshold value of twice the average line width shown in equation (2).

【0021】このかすれパタン抽出部の処理を図6
(a)の原2値画像に適用すると、図6(a)から図6
(b),(c),(d),(e)の各サブパタンの黒画
素を全て除去することになり、従って、図6(f)のよ
うに、サブパタンとして抽出されなかった要素「大」だ
けからなるかすれパタンが得られる。
FIG. 6 shows the processing of this blur pattern extraction unit.
When applied to the original binary image of (a), FIG.
All black pixels of the sub-patterns of (b), (c), (d), and (e) are to be removed. Therefore, as shown in FIG. 6F, the element "large" that is not extracted as a sub-pattern. A faint pattern consisting of only

【0022】以上説明したように、図1のかすれパタン
抽出部114で抽出されたかすれパタンは、かすれパタ
ンメモリ115に格納されているが、必要に応じて、こ
のかすれパタンにおける微小セグメントを除去するため
の微小セグメント除去部139を設けることも可能であ
る。例えば、この微小セグメント除去部139による微
小セグメントの除去ル−ルとして、次のものが考えられ
る。即ち、かすれパタンを構成する各セグメントの輪郭
を構成する輪郭黒画素数または、各セグメントの全黒画
素数が、所定の閾値、例えば、当該入力文字パタンの線
幅Wrのβ倍(β>0)以下であったとき、微小セグメ
ントとみなすというル−ルである。ここで微小と判定さ
れたセグメントは、かすれパタンメモリ上で消去される
か、あるいは後続する処理の対象外とされる。以上のよ
うに微小セグメントが消去されることによって、それに
起因する認識性能の低下を未然に防止することが出来
る。
As described above, the faint pattern extracted by the faint pattern extracting unit 114 of FIG. 1 is stored in the faint pattern memory 115, but if necessary, minute segments in the faint pattern are removed. It is also possible to provide a minute segment removal unit 139 for this. For example, the following can be considered as a removal rule of the minute segment by the minute segment removing unit 139. That is, the number of contour black pixels forming the contour of each segment forming the faint pattern or the total number of black pixels of each segment is a predetermined threshold, for example, β times (β> 0) the line width Wr of the input character pattern. ) It is a rule to consider it as a minute segment when it is below. Here, the segment determined to be minute is erased on the blurred pattern memory or excluded from the subsequent processing. By deleting the minute segment as described above, it is possible to prevent deterioration of the recognition performance due to the deletion.

【0023】次にかすれパタン線幅計算部116におい
て、かすれパタンの線幅が計算される。この線幅の計算
方法としては、例えば、文字パタン線幅計算部105で
使用した式(2)が用いられる。
Next, the blur pattern line width calculation unit 116 calculates the line width of the blur pattern. As the method of calculating the line width, for example, the equation (2) used in the character pattern line width calculation unit 105 is used.

【0024】次に、かすれパタン復元部140におい
て、かすれパタンを構成する各ストロ−ク成分に対し
て、入力文字パタンの平均線幅までの太め処理を行い、
かすれた部分を復元する。このかすれパタン復元部14
0における処理の一実施例を表わすブロック図を図7に
示した。図7において、点線で囲まれた部分が、かすれ
パタン復元部140を示しており、701は、セグメン
ト検出部、702はセグメント1メモリ、703はセグ
メント2メモリ、704はセグメントNメモリ、705
は輪郭点抽出部、706は輪郭黒画素追加部、707は
線幅判定部、708は合成部である。
Next, in the blurred pattern restoring unit 140, the stroke components constituting the blurred pattern are thickened to the average line width of the input character pattern,
Restore the faded part. This faint pattern restoration unit 14
FIG. 7 is a block diagram showing an example of the processing in 0. In FIG. 7, a portion surrounded by a dotted line indicates the blurred pattern restoration unit 140, 701 is a segment detection unit, 702 is a segment 1 memory, 703 is a segment 2 memory, 704 is a segment N memory, and 705.
Is a contour point extraction unit, 706 is a contour black pixel addition unit, 707 is a line width determination unit, and 708 is a synthesis unit.

【0025】かすれパタンメモリ115に格納されたか
すれパタン(微小セグメントを除く)を構成するストロ
−ク成分は、先ず、セグメント検出部701において、
一つのセグメントまたは互いに接していない複数のセグ
メント1,2,..,Nとして識別される。そして、各
々のセグメント1,2,..,Nを構成する黒画素は、
かすれパタンメモリ115上のアドレス列に変換され、
それぞれセグメント1メモリ702,セグメント2メモ
リ703,..,セグメントNメモリ704に格納され
る。但し、Nはかすれパタンのセグメント数を示してい
る(N≧1)。
The stroke components constituting the blur pattern (excluding minute segments) stored in the blur pattern memory 115 are first detected by the segment detector 701.
One segment or a plurality of segments 1, 2 ,. . , N. Then, each of the segments 1, 2 ,. . , N are the black pixels
Converted to an address string on the faint pattern memory 115,
Segment 1 memory 702, segment 2 memory 703 ,. . , Segment N memory 704. However, N indicates the number of segments of the blur pattern (N ≧ 1).

【0026】次に輪郭点抽出部705において、各セグ
メント1,2,..,Nの輪郭部を構成する黒画素全て
が検出され、各々かすれパタンメモリ115上のアドレ
ス列に変換された後、輪郭点テ−ブル1,2,..,N
として次の輪郭黒画素追加部706に出力される。
Next, in the contour point extraction unit 705, each segment 1, 2 ,. . , N, all the black pixels forming the contour portion are detected and converted into address strings on the blur pattern memory 115, respectively, and then the contour point tables 1, 2 ,. . , N
Is output to the next contour black pixel adding unit 706.

【0027】輪郭黒画素追加部706では、セグメント
1,2,..,Nの各々に対し、輪郭点テ−ブル及びか
すれパタンメモリ115の内容を参照しながら、輪郭点
系列の外側に隣接する黒画素を追加する。この時、追加
された黒画素も各セグメントを構成する要素となったた
め、それに応じて、セグメント1,2,..,Nメモリ
702、703、704の内容は更新される。輪郭点系
列を一周してその外側に隣接する画素全てが黒画素に変
換されると、再び輪郭黒画素追加部706は、新たに追
加された黒画素を輪郭点系列として、さらにその外側に
黒画素を追加し、セグメント1,2,..,Nメモリ7
02、703、704の内容を更新していく。この処理
は、いわば各セグメントの外周に一皮ずつ追加していく
方法である。同様の処理は、線幅判定部707の判定結
果により中止の指示が出力されるまで繰り返される。
In the contour black pixel adding section 706, the segments 1, 2 ,. . , N, with reference to the contents of the contour point table and the blur pattern memory 115, black pixels adjacent to the outside of the contour point series are added. At this time, the added black pixel is also an element constituting each segment, and accordingly, the segments 1, 2 ,. . , N memories 702, 703, 704 are updated. When all the pixels adjacent to the outer side of the contour point series are converted into black pixels, the contour black pixel adding unit 706 again uses the newly added black pixel as the contour point series to further black the outside. Pixels are added and segments 1, 2 ,. . , N memory 7
The contents of 02, 703, and 704 are updated. This processing is, so to speak, a method of adding one skin to the outer circumference of each segment. The same process is repeated until a stop instruction is output according to the determination result of the line width determination unit 707.

【0028】この隣接した画素を黒画素に変換する方法
は、例えば次のように行われる。即ち、図8のような3
×3のマスクを用意し、着目する輪郭点を中心の升目8
01に置く時、801以外の8個の升目802、80
3、804、805、806、807、808、809
の中で、白画素があった場合、それらを全て黒画素に変
換するという方法である。
The method of converting the adjacent pixels into black pixels is performed as follows, for example. That is, 3 as shown in FIG.
Prepare a mask of × 3, and square 8 with the contour point of interest as the center.
When placed on 01, 8 squares 802, 80 other than 801
3, 804, 805, 806, 807, 808, 809
Among them, if there are white pixels, all of them are converted into black pixels.

【0029】線幅判定部707では、常時、輪郭黒画素
追加部706で追加された黒画素を含めたかすれパタン
の増大する線幅値を計算しており、その線幅値が、文字
パタン線幅計算部105で計算された入力文字パタンの
平均線幅に達した時、輪郭黒画素追加部706に黒画素
追加の中止の指示を、さらに合成部708に合成開始の
指示を出力する。
The line width determining unit 707 always calculates a line width value that increases the blur pattern including the black pixels added by the contour black pixel adding unit 706, and the line width value is the character pattern line. When the average line width of the input character pattern calculated by the width calculation unit 105 is reached, a contour black pixel addition unit 706 outputs an instruction to stop adding black pixels, and a synthesis unit 708 outputs a synthesis start instruction.

【0030】合成開始の指示を受けた合成部708は、
セグメント1,2,..,Nメモリ702、703、7
04の更新された黒画素のアドレス情報及びかすれパタ
ンメモリ115の内容に基づいて、かすれ復元パタンメ
モリ141上に線幅の太め処理を施したかすれ復元パタ
ンを合成出力する。尚、この時、線幅を太くすることに
よって、外接枠領域をはみ出した黒画素は除去される。
The synthesizing unit 708, which has received the instruction to start synthesizing,
Segments 1, 2 ,. . , N memories 702, 703, 7
On the basis of the updated address information of the black pixels 04 and the contents of the blur pattern memory 115, the blur restoration pattern with the thickened line width is synthetically output on the blur restoration pattern memory 141. At this time, by increasing the line width, black pixels protruding from the circumscribing frame region are removed.

【0031】次に図1のかすれ復元パタンメモリ141
内のかすれ復元パタンに対して、水平方向走査部11
7、垂直方向走査部119、右斜め方向走査部121及
び左斜め方向走査部123によって、それぞれ水平、垂
直、右斜め、左斜め方向に走査され、所定の閾値を超え
て連続した黒画素がストロ−クとして検出されていく。
その結果、今度はかすれ復元パタンのサブパタン、即
ち、かすれ復元サブパタンが抽出され、それぞれ水平か
すれサブパタンメモリ118、垂直かすれサブパタンメ
モリ120、右斜めかすれサブパタンメモリ122及び
左斜めかすれサブパタンメモリ124に格納される。
尚、ここで、サブパタンを構成するストロ−ク成分であ
るための条件は、式(2)で与えられる。
Next, the blur restoration pattern memory 141 shown in FIG.
The horizontal scanning unit 11 with respect to the blur restoration pattern inside
7. The vertical scanning unit 119, the right diagonal direction scanning unit 121, and the left diagonal direction scanning unit 123 scan horizontally, vertically, diagonally rightward, and diagonally leftward, respectively, and black pixels consecutively exceeding a predetermined threshold are strobed. -It is detected as ku.
As a result, the sub-patterns of the blurring restoration pattern, that is, the blurring restoration sub-patterns are extracted this time, and the horizontal blurring sub pattern memory 118, the vertical blurring sub pattern memory 120, the right diagonal blurring sub pattern memory 122, and the left diagonal blurring sub pattern memory 124, respectively. Stored in.
Here, the condition for being the stroke component forming the sub-pattern is given by the equation (2).

【0032】ここでの処理を図6を例にとって説明する
と、先ず、「因」の字からかすれパタンとして抽出され
た部分パタン「大」は図6(f)に、このかすれパタン
を平均線幅値まで復元したかすれ復元パタンは図6
(o)に示されている。このかすれ復元パタンに対し
て、水平、垂直、右斜め、左斜め方向に走査して得られ
たかすれ復元サブパタンが、それぞれ、図6(g)、
(h)、(i)、(j)に示されている。前述したよう
に、当該サブパタン抽出処理における閾値は、図6
(a)の原2値画像「因」の平均線幅である。図6
(a)の原2値画像の走査時では、平均線幅値が大きか
ったため抽出されなかった「大」の字のサブパタンが、
平均線幅値まで太らせる処理によって、適切に抽出され
ていることがわかる。
The process here will be described with reference to FIG. 6 as an example. First, the partial pattern “large” extracted as a blur pattern from the character “factor” is shown in FIG. Fig. 6 shows the fading restoration pattern restored to the value.
It is shown in (o). The blur restoration sub-patterns obtained by scanning the blur restoration pattern horizontally, vertically, diagonally to the right, and diagonally to the left are shown in FIG.
It is shown in (h), (i) and (j). As described above, the threshold in the sub pattern extraction processing is
It is the average line width of the original binary image "cause" in (a). Figure 6
At the time of scanning the original binary image in (a), the sub-pattern of the "large" character that was not extracted because the average line width value was large,
It can be seen that the extraction is appropriately performed by the process of thickening the average line width value.

【0033】次に、原2値画像に対する走査によって抽
出された水平サブパタン1、垂直サブパタン1、右斜め
サブパタン1、左斜めサブパタン1と、かすれ復元パタ
ンに対する走査によって抽出された水平かすれ復元サブ
パタン、垂直かすれ復元サブパタン、右斜めかすれ復元
サブパタン、左斜めかすれ復元サブパタンとをそれぞれ
合成する処理を行う。この合成処理は、各方向のサブパ
タンに対して、それぞれ独立に水平サブパタン合成部1
25、垂直サブパタン合成部127、右斜めサブパタン
合成部129、左斜めサブパタン合成部131によって
実行される。合成されたパタンは、それぞれ水平サブパ
タン2、垂直サブパタン2、右斜めサブパタン2、左斜
めサブパタン2として、各々、水平サブパタン2メモリ
126、垂直サブパタン2メモリ128、右斜めサブパ
タン2メモリ130、左斜めサブパタンメモリ132に
格納される。
Next, the horizontal sub-pattern 1, vertical sub-pattern 1, right diagonal sub-pattern 1, left diagonal sub-pattern 1 extracted by scanning the original binary image, and the horizontal blurring restoration sub-pattern, vertical extracted by scanning for the blurring restoration pattern. A process is performed to combine the blur restoration sub-pattern, the right diagonal blur restoration sub-pattern, and the left diagonal blur restoration sub-pattern. This synthesizing process is performed by the horizontal sub-pattern synthesizing unit 1 independently for each sub-pattern in each direction.
25, the vertical sub-pattern combining unit 127, the right oblique sub-pattern combining unit 129, and the left oblique sub-pattern combining unit 131. The combined patterns are the horizontal sub-pattern 2, the vertical sub-pattern 2, the right diagonal sub-pattern 2 and the left diagonal sub-pattern 2, respectively, and the horizontal sub-pattern 2 memory 126, the vertical sub-pattern 2 memory 128, the right diagonal sub-pattern 2 memory 130, and the left diagonal sub-pattern 2, respectively. It is stored in the pattern memory 132.

【0034】ここで前記合成部におけるパタンの合成
は、例えば、2つのサブパタンの個々の画素についてO
R演算を行う方法等が用いられる。つまり、2つの2値
パタンを合成する場合、各々を構成する個々の画素にお
いて、少なくともどちらかが、画素値1、即ち、黒画素
であれば画素値1を出力し、両者ともに画素値0、即
ち、白画素であったときに画素値0を出力するという方
法で合成パタンを作成する。図6の場合では、原2値画
像のサブパタンとして、それぞれ、図6(b)、
(c)、(d)、(e)が与えられ、かすれ復元パタン
のサブパタンとしてはそれぞれ図6(g)、(h)、
(i)、(j)が与えられているときに前記合成部によ
って、合成されたサブパタン2は、各々図6(k)、
(l)、(m)、(n)となる。これらの合成されたサ
ブパタン2は、原2値画像のサブパタンと比較して、局
所的なスケ−ルの小さい部分が正確に反映され、しかも
平均線幅値まで復元されているので、そのサブパタンに
基づいて計算される特徴マトリクスにも当然それが反映
され、従って、従来のサブパタン抽出にともなう情報損
失による誤読等が防止できる。
Here, the synthesizing of the patterns in the synthesizing section is performed by, for example, O for each pixel of the two sub patterns.
A method of performing R calculation or the like is used. That is, in the case of combining two binary patterns, at least one of the individual pixels forming each outputs the pixel value 1, that is, the pixel value 1 if it is a black pixel, and both output the pixel value 0, That is, a composite pattern is created by a method of outputting a pixel value of 0 when it is a white pixel. In the case of FIG. 6, as the sub-pattern of the original binary image, FIG.
(C), (d), and (e) are given, and the sub patterns of the blur restoration pattern are shown in FIGS. 6 (g), 6 (h), and 6 (h), respectively.
When (i) and (j) are given, the sub-pattern 2 synthesized by the synthesizing unit is as shown in FIG.
(L), (m), and (n). Compared with the sub-pattern of the original binary image, these combined sub-patterns 2 accurately reflect the small local scale portion and are restored to the average line width value. This is naturally reflected in the feature matrix calculated based on the above, and therefore, misreading due to information loss due to conventional sub-pattern extraction can be prevented.

【0035】上述の方法により作成されたサブパタン
は、特徴抽出部135においてさらに圧縮された特徴に
変換されるわけであるが、本実施例では、出力制御部1
33を設けて、特徴抽出部135に入力させるサブパタ
ンを選択できるようにしている。この出力制御部133
は、前記微小セグメント除去部139においてかすれパ
タンを構成する各セグメントが全て微小であると判定さ
れた場合に、かすれパタンの復元及びかすれ復元パタン
に対する走査を中止させ、原2値画像に対する走査によ
って得られた各方向のサブパタン1をそれぞれのメモリ
107、109、111、113から読取り、特徴抽出
部135に出力する。また、前記かすれパタン線幅計算
部116で計算されたかすれパタンの線幅は、常時、線
幅判定部134で判定されており、前記線幅が所定の閾
値以下であると判定された場合、その判定結果は出力制
御部133に伝達される。この時、前記線幅に対する閾
値としては、例えば、次式が与えられる。 Ws < δ × Wr (5) 0 < δ 《 1 (6) 但し、Wsはかすれパタンの線幅、Wrは原2値画像の
線幅であって、式(5)及び式(6)の条件が満たされ
る時は、WsがWrに比べて極端に小さいことを意味し
ている。
The sub-pattern created by the above-mentioned method is converted into a further compressed feature in the feature extraction unit 135, but in the present embodiment, the output control unit 1 is used.
33 is provided so that the sub pattern to be input to the feature extraction unit 135 can be selected. This output control unit 133
Is obtained by scanning the original binary image by stopping the restoration of the blurring pattern and the scanning for the blurring restoration pattern when the fine segment removing unit 139 determines that all the segments forming the blurring pattern are all minute. The obtained sub-pattern 1 in each direction is read from each of the memories 107, 109, 111, 113 and output to the feature extraction unit 135. Further, the line width of the blur pattern calculated by the blur pattern line width calculation unit 116 is always determined by the line width determination unit 134, and when the line width is determined to be equal to or less than a predetermined threshold value, The determination result is transmitted to the output control unit 133. At this time, for example, the following equation is given as the threshold for the line width. Ws <δ × Wr (5) 0 <δ << 1 (6) where Ws is the line width of the blurred pattern, Wr is the line width of the original binary image, and the conditions of formulas (5) and (6) are satisfied. When is satisfied, it means that Ws is extremely smaller than Wr.

【0036】さて、前記線幅判定部134からWsがW
rに比べて極端に小さいという判定結果を受けた出力制
御部133は上述した場合と同様にかすれパタンに対す
る走査を中止させ、原2値画像に対する走査によって得
られた各方向のサブパタン1をそれぞれのメモリ10
7、109、111、113から読取り、特徴抽出部1
35に出力する。以上の出力制御部133の処理は、以
下に述べる問題点に鑑みてなされたものである。
Now, from the line width determination unit 134, Ws is W
The output control unit 133, which has received the determination result that it is extremely smaller than r, stops scanning for the blur pattern in the same manner as described above, and sets the sub-pattern 1 in each direction obtained by scanning the original binary image for each. Memory 10
7, 109, 111, 113, and feature extraction unit 1
To 35. The above processing of the output control unit 133 is performed in view of the problems described below.

【0037】かすれ復元サブパタンを原2値画像の走査
によって得られたサブパタン1に合成することは、除去
された重要な情報を回復させる一方で、その文字パタン
の非本質的なストロ−ク成分をもつけ加えてしまうおそ
れがある。従って本実施例では、非本質的なストロ−ク
成分の除去を目指すために、前述したように先ず、微小
セグメント除去部139において復元される前のかすれ
パタンの微小セグメントを除去し、また当然のことなが
ら全てのセグメントが微小と判定された場合には、原2
値画像に対する走査によって得られたサブパタン1だけ
を特徴抽出部135に出力するようにしたのである。さ
らに線幅判定部134を設け、かすれパタンの線幅が所
定の閾値に達しない場合にも当該かすれパタンは、認識
上、非本質的であると判定することにして、かかる場合
にかすれパタンの復元及び走査を実行せず、サブパタン
1のみを特徴抽出部135に出力するようにしたもので
ある。このようにすることで、非本質的なストロ−ク成
分はサブパタンから除去され、それによる誤読等を未然
に防止することが可能となる。
Combining the blur-restoring sub-pattern into sub-pattern 1 obtained by scanning the original binary image restores the important information that was removed, while eliminating the non-essential stroke component of that character pattern. There is a risk of adding more. Therefore, in this embodiment, in order to remove the extrinsic stroke component, first, as described above, the minute segment of the blurred pattern before being restored in the minute segment removing unit 139 is removed, and naturally. If all the segments are judged to be very small, the original 2
Only the sub-pattern 1 obtained by scanning the value image is output to the feature extraction unit 135. Further, a line width determination unit 134 is provided, and even if the line width of the fading pattern does not reach a predetermined threshold, the fading pattern is determined to be extrinsic for recognition, and in such a case, the fading pattern is determined. Only the sub-pattern 1 is output to the feature extraction unit 135 without performing restoration and scanning. By doing so, the extrinsic stroke component is removed from the sub-pattern, and it is possible to prevent erroneous reading and the like due to it.

【0038】特徴抽出部135では、入力された原2値
画像のサブパタンあるいは合成されたサブパタン4種に
基づいた特徴抽出を行うが、この特徴抽出を行う前に、
外接枠分割部144において、予め前記パタンレジスタ
103の外接枠内の文字パタンに対して、各分割領域内
の黒画素数が同数になるように垂直方向、水平方向に格
子状となるN×M個の部分領域に非線形分割するステッ
プがある。例えば、図9(a)に示された「土」という
文字は、その外接枠901を垂直、水平方向にそれぞれ
4分割ずつ計16個の部分領域に分割された例である。
先ず、水平方向の分割線を決める際、図9(b)に示さ
れたようにY軸に投影された周辺分布ヒストグラムを求
める。この周辺分布ヒストグラムとは、X軸に平行な走
査線上に存在する黒画素数をY=0からY=Ye(外接
枠Y座標の最大値)の各々についてカウントして得られ
たヒストグラムのことであり、横軸は走査線のY座標、
縦軸は黒画素数として表されている。
The feature extraction unit 135 performs feature extraction based on the sub-pattern of the input original binary image or four types of synthesized sub-patterns. Before performing this feature extraction,
In the circumscribing frame dividing unit 144, N × M is arranged in the vertical and horizontal directions in advance so that the number of black pixels in each divided region is the same as that of the character pattern in the circumscribing frame of the pattern register 103 in advance. There is a step of non-linear division into a number of sub-regions. For example, the character “Soil” shown in FIG. 9A is an example in which the circumscribing frame 901 is divided into four partial regions in each of the vertical and horizontal directions, for a total of 16 partial regions.
First, when determining a horizontal dividing line, a marginal distribution histogram projected on the Y axis as shown in FIG. 9B is obtained. The marginal distribution histogram is a histogram obtained by counting the number of black pixels existing on a scanning line parallel to the X axis for each of Y = 0 to Y = Ye (the maximum value of the Y coordinate of the circumscribing frame). Yes, the horizontal axis is the Y coordinate of the scan line,
The vertical axis represents the number of black pixels.

【0039】ここで、X軸に平行な分割線によって区分
けされた各領域の黒画素数が同数になるように分割線の
位置を決めるために、次のような処理を行う。即ち周辺
分布ヒストグラムの探索をY=0から開始してY=1、
Y=2と順次探索し、各々の度数である黒画素数を足し
合わせていく。そしてそのヒストグラムの累積値が、2
値画像の総黒画素数を分割数で割った値に達した時、そ
の時点における走査線をもって分割線とする。図9
(b)では、最初に分割線908が見いだされる。同様
に分割線908の次の走査線から始まり、新たに累積値
が求められていき、当該累積値が前述した所定の閾値に
達した走査線909が第2の分割線として検出される。
この例では4分割が採用されているので第3の分割線9
10が検出された段階で水平方向の分割は終了する。図
9(a)では、これらの分割線908、909、910
はそれぞれ902、903、904に対応している。以
上のようにして、分割線902、903、904によっ
て、2値画像は水平方向に各々等しい黒画素数をもった
領域に4分割される。
Here, in order to determine the position of the dividing line so that the number of black pixels in each area divided by the dividing line parallel to the X axis is the same, the following processing is performed. That is, the search for the marginal distribution histogram is started from Y = 0 and Y = 1,
Y = 2 is sequentially searched, and the number of black pixels, which is each frequency, is added. And the cumulative value of the histogram is 2
When a value obtained by dividing the total number of black pixels of the value image by the number of divisions is reached, the scanning line at that time is set as a division line. Figure 9
In (b), the dividing line 908 is first found. Similarly, starting from the scanning line next to the dividing line 908, the cumulative value is newly obtained, and the scanning line 909 in which the cumulative value reaches the above-described predetermined threshold value is detected as the second dividing line.
In this example, four divisions are adopted, so the third division line 9
When 10 is detected, the horizontal division ends. In FIG. 9A, these dividing lines 908, 909, and 910.
Correspond to 902, 903, and 904, respectively. As described above, the dividing lines 902, 903, and 904 divide the binary image into four regions each having the same number of black pixels in the horizontal direction.

【0040】この分割例を見てわかるように、黒画素が
密集した領域、即ち、周辺分布ヒストグラムの極大付近
では、分割領域の幅が狭く、黒画素があまり多くない領
域では、分割領域の幅が広い。つまり、分割領域は2値
画像の黒画素の分布状態に敏感に依存している。このよ
うに分割することによって、文字パタンの様々な黒画素
分布の片寄りが緩和され、単なる外接枠の等分割よりも
遥かに正確に文字パタンの特徴を反映したマトリクスが
算出される。
As can be seen from this division example, the width of the division area is narrow in the area where the black pixels are dense, that is, in the vicinity of the maximum of the peripheral distribution histogram, and in the area where the number of black pixels is not so large. Is wide. That is, the divided area is sensitively dependent on the distribution state of the black pixels of the binary image. By dividing in this way, the deviation of the various black pixel distributions of the character pattern is alleviated, and a matrix that reflects the characteristics of the character pattern is calculated much more accurately than simple division of the circumscribing frame.

【0041】全く同様の方法により、図9(c)に示さ
れたX軸に投影された周辺分布ヒストグラムに基づい
て、垂直方向の分割線911、912、913が検出さ
れ、各々等しい黒画素数をもつ領域に4分割される。但
し、この垂直方向の分割線911、912、913は、
図9(a)における905、906、907に対応して
いる。
By the same method, vertical dividing lines 911, 912, 913 are detected based on the peripheral distribution histogram projected on the X axis shown in FIG. 9C, and the number of black pixels is equal to each other. Is divided into four areas. However, the dividing lines 911, 912, 913 in the vertical direction are
It corresponds to 905, 906, and 907 in FIG.

【0042】以上のようにして、図9(a)の2値画像
は、水平方向の分割線902、903、904及び垂直
方向の分割線905、906、907によって16個の
部分領域に分割されることになる。
As described above, the binary image of FIG. 9A is divided into 16 partial areas by the horizontal dividing lines 902, 903 and 904 and the vertical dividing lines 905, 906 and 907. Will be.

【0043】図9(a)に例として示した文字パタン
は、かすれた部分がない通常のパタンであるため、かす
れパタンとして抽出される部分が存在しないかまたは、
微小セグメント除去部139において、微小セグメント
として全て除去され、かすれパタンなしと判定され、第
1の走査によるサブパタンのみに基づく特徴抽出が実行
されることになる。従って、かすれパタン復元部140
による復元処理をうけることもないため、従来の分割方
法を踏襲した原2値画像の周辺分布から求められた分割
線は、対象とする2値画像の全ての黒画素の分布を正確
に反映するものとなっている。
The character pattern shown as an example in FIG. 9 (a) is a normal pattern having no fading portion, so there is no portion to be extracted as a fading pattern, or
In the minute segment removing unit 139, all minute segments are removed, it is determined that there is no blur pattern, and feature extraction based on only the sub-pattern by the first scan is executed. Therefore, the blurred pattern restoration unit 140
Since it is not subjected to the restoration processing by, the dividing line obtained from the peripheral distribution of the original binary image that follows the conventional dividing method accurately reflects the distribution of all black pixels of the target binary image. It has become a thing.

【0044】しかし、一部がかすれパタンとして抽出さ
れ、さらにそこが復元された文字パタンに対して、従来
の分割方法をそのまま原2値画像に適用すると問題点が
発生する。例えば、図9(a)の「土」という文字にお
いて、垂直方向のストロ−ク成分がかすれてしまった図
10(a)のような文字パタンを考える。図10(a)
の2値画像におけるY軸、X軸に投影された周辺分布ヒ
ストグラムは、それぞれ図10(b)及び図10(c)
に示されており、前述した方法によって得られた水平方
向の分割線は、1008、1009、1010、垂直方
向の分割線は、1011、1012、1013で与えら
れている。但しこれらの分割線は図10(a)におい
て、それぞれ1002、1003、1004、100
5、1006、1007に対応している。この時、これ
らの分割線は、垂直方向のストロ−クがかすれて黒画素
数が少なくなったことにより、それがかすれていない場
合とは微妙に異なる位置に設定される。
However, if a conventional division method is applied to the original binary image as it is with respect to a character pattern that is partially extracted as a blurred pattern and is then restored, there arises a problem. For example, consider a character pattern as shown in FIG. 10A in which the stroke component in the vertical direction is faint in the character "soil" in FIG. 9A. Figure 10 (a)
10B and 10C are marginal distribution histograms projected on the Y axis and the X axis of the binary image of FIG.
The horizontal dividing lines obtained by the method described above are given by 1008, 1009, 1010, and the vertical dividing lines are given by 1011, 1012, 1013. However, these dividing lines are 1002, 1003, 1004, and 100 in FIG.
5, 1006, 1007. At this time, these dividing lines are set to positions slightly different from the case where the dividing lines are not blurred because the vertical stroke is blurred and the number of black pixels is reduced.

【0045】例えば、図10(c)において1012と
1013の分割線で仕切られた領域の横幅は、垂直方向
のストロ−ク成分がかすれていない時よりも黒画素数を
稼ぐ必要から幅が広くなっている。従来の方法では、以
上のように原2値画像に対して求められた分割線100
2、1003、1004及び1005、1006、10
07によって、外接枠を分割し、それぞれの部分領域毎
に後述する特徴を求めていた。しかし、原2値画像に基
づいて決定された分割領域を用いて、復元された合成サ
ブパタンの特徴を計算すると、上述のように分割領域と
サブパタンとの対応関係にはずれがあるので、認識性能
が低下するという問題点が発生する。
For example, in FIG. 10 (c), the width of the area partitioned by the dividing lines 1012 and 1013 is wider because it is necessary to obtain more black pixels than when the vertical stroke component is not blurred. Has become. In the conventional method, the dividing line 100 obtained for the original binary image as described above is used.
2, 1003, 1004 and 1005, 1006, 10
The circumscribing frame is divided by 07, and the features described later are obtained for each partial area. However, when the characteristics of the restored combined sub-pattern are calculated using the divided areas determined based on the original binary image, the recognition performance is poor because the correspondence between the divided areas and the sub-patterns is different as described above. The problem of lowering occurs.

【0046】本発明では、上記の問題点を解決するため
に、原2値画像に対して外接枠を分割するのではなく、
原2値画像とかすれ復元パタンとを合成することによ
り、合成文字パタンを作成し、当該合成文字パタンの周
辺分布に基づいて外接枠を分割するようにしたので、分
割領域にも復元した効果が反映され、合成サブパタンと
分割領域との不一致がなくなり、認識性能の低下が防止
可能となっている。この点が本発明の一つの大きな特徴
である。
In the present invention, in order to solve the above problems, the circumscribed frame is not divided into the original binary image, but
The original binary image and the blur restoration pattern are combined to create a combined character pattern, and the circumscribing frame is divided based on the peripheral distribution of the combined character pattern. As a result, there is no discrepancy between the combined sub-pattern and the divided area, and it is possible to prevent the deterioration of recognition performance. This is one of the major features of the present invention.

【0047】上記方法を実現するために、実施例1では
図1のパタン合成部142、合成文字パタンメモリ14
3を設けている。先ずパタン合成部142において、パ
タンレジスタ103の外接枠内の原2値画像とかすれ復
元パタンメモリ141内のかすれ復元パタンとの合成を
行い、合成文字パタンとして合成文字パタンメモリ14
3に出力する。そして、この合成文字パタンに対して、
外接枠分割部144において前記分割処理を施し、分割
領域を得る。ここで、パタン合成部142における合成
とは、サブパタン合成部等で行われる処理と同様であ
る。
In order to realize the above method, in the first embodiment, the pattern synthesizing unit 142 and the synthetic character pattern memory 14 shown in FIG.
3 is provided. First, in the pattern synthesizing unit 142, the original binary image in the circumscribing frame of the pattern register 103 and the blur restoration pattern in the blur restoration pattern memory 141 are synthesized, and the synthesized character pattern memory 14 is used as a synthesized character pattern.
Output to 3. And for this composite character pattern,
The circumscribing frame dividing unit 144 performs the dividing process to obtain a divided area. Here, the composition in the pattern composition unit 142 is the same as the processing performed in the sub-pattern composition unit or the like.

【0048】例えば、図10(a)の垂直方向のストロ
−ク成分がかすれた「土」という文字に本発明を適用す
る例を考える。このかすれたストロ−ク成分を復元する
と、これらのストロ−クは、線幅が太くなるとともに連
結するので、その合成文字パタンは図9(a)に類似し
たパタンになる。ここで、仮に図9(a)を図10
(a)の合成文字パタンとすると、外接枠分割部144
によって得られる分割線は、従来は1002、100
3、1004、1005、1006、1007であった
ものが、902、903、904、905、906、9
07となり、これらの分割線の座標値が特徴抽出部13
5に出力される。尚、かすれパタンの復元処理及びサブ
パタン抽出処理がなされなかった時は、当然ながら合成
文字パタンは作成されず、従来通りにパタンレジスタ1
03の外接枠内の2値画像に対する分割線が検出され、
それらの座標値が特徴抽出部135に出力される。
For example, let us consider an example in which the present invention is applied to the character "earth" in which the stroke component in the vertical direction is faint in FIG. When this faint stroke component is restored, the strokes become thicker and connect, so that the composite character pattern becomes a pattern similar to that in FIG. 9 (a). Here, suppose that FIG.
Assuming the composite character pattern of (a), the circumscribing frame dividing unit 144
The dividing line obtained by
3, 1004, 1005, 1006, 1007 were replaced with 902, 903, 904, 905, 906, 9
07, and the coordinate values of these dividing lines are the feature extraction unit 13
5 is output. It should be noted that when the fading pattern restoration processing and the sub-pattern extraction processing are not performed, naturally, the synthetic character pattern is not created, and the pattern register 1
The dividing line for the binary image in the circumscribed frame of 03 is detected,
Those coordinate values are output to the feature extraction unit 135.

【0049】次に前記4種のサブパタン1または合成さ
れたサブパタン2のそれぞれについて、前記分割された
部分領域内における該サブパタンの黒画素数を計数し、
これを文字パタンの大きさで正規化することによって、
各方向における文字線の分布状態を反映するN×M×4
次元の特徴マトリクスを抽出し、識別部136に出力す
る。
Next, for each of the four types of sub-patterns 1 or the combined sub-pattern 2, the number of black pixels of the sub-pattern in the divided partial area is counted,
By normalizing this with the size of the character pattern,
N × M × 4 reflecting the distribution of character lines in each direction
The dimensional feature matrix is extracted and output to the identification unit 136.

【0050】識別部136では、前記特徴マトリクスと
辞書メモリ137に予め格納しておいた複数の標準文字
の特徴マトリクスとを照合し、最終的に一つに絞られた
候補カテゴリを該入力文字パタンの認識結果138とし
て出力する。
The identifying unit 136 collates the feature matrix with a feature matrix of a plurality of standard characters stored in advance in the dictionary memory 137, and finally, the candidate category narrowed down to one is selected as the input character pattern. Is output as the recognition result 138.

【0051】実施例1は、文字や図形を構成するストロ
−クの局所線幅が2つに分類できるときに極めて有効な
方法であった。しかし、通常の簡単な文字は、2種類の
線幅による走査でもサブパタンにほぼ反映できるとみな
せる一方、3種類以上のスケ−ルのストロ−クからなる
複雑な図形や漢字等では、2段階の走査でもとらえきれ
ないストロ−ク成分が存在し得る。実施例2は、このよ
うな問題点に鑑みて発明されたものであり、実施例1が
2段階の線幅による走査であったのに対し、実施例2
は、これをさらに一般化し、M段階(M≧2)の走査が
可能となっている。この実施例2について以下に説明す
る。
Example 1 was an extremely effective method when the local line widths of strokes forming characters and figures could be classified into two. However, it can be considered that ordinary simple characters can be almost reflected in the sub-pattern even when scanning with two kinds of line widths, while there are two steps for complicated figures and kanji, etc. consisting of strokes of three or more kinds of scales. There may be stroke components that cannot be captured by scanning. The second embodiment has been invented in view of such a problem, and the first embodiment is a scanning with a two-step line width, whereas the second embodiment is a scan.
Is further generalized to enable M stages (M ≧ 2) of scanning. The second embodiment will be described below.

【0052】図2は本発明による実施例2を示すブロッ
ク図である。ここで、201は光信号入力、202は光
電変換部、203はパタンレジスタ、204は外接枠検
出部、205はレジスタ、206は線幅計算部、207
は水平方向走査部、208は水平パタンメモリ、209
は垂直方向走査部、210は垂直パタン走査部、211
は右斜め方向走査部、212は右斜めパタンメモリ、2
13は左斜め方向走査部、214は左斜めパタンメモ
リ、215はかすれパタン抽出部、216は微小セグメ
ント除去部、217は線幅判定部、218は水平パタン
合成部、219は水平合成パタンメモリ、220は垂直
パタン合成部、221は垂直合成パタンメモリ、222
は右斜めパタン合成部、223は右斜め合成パタンメモ
リ、224は左斜めパタン合成部、225は左斜め合成
パタンメモリ、226はル−プカウンタ、227は出力
制御部、228は特徴抽出部、229は識別部、230
は辞書メモリ、231は認識結果、232はかすれパタ
ン復元部、233はパタン合成部、234は合成文字パ
タンメモリ、235は外接枠分割部である。
FIG. 2 is a block diagram showing a second embodiment according to the present invention. Here, 201 is an optical signal input, 202 is a photoelectric conversion unit, 203 is a pattern register, 204 is a circumscribing frame detection unit, 205 is a register, 206 is a line width calculation unit, and 207.
Is a horizontal scanning unit, 208 is a horizontal pattern memory, 209
Is a vertical scanning unit, 210 is a vertical pattern scanning unit, 211
Is a right diagonal scanning unit, 212 is a right diagonal pattern memory, 2
13 is a left oblique direction scanning unit, 214 is a left oblique pattern memory, 215 is a blurred pattern extraction unit, 216 is a minute segment removal unit, 217 is a line width determination unit, 218 is a horizontal pattern composition unit, 219 is a horizontal composition pattern memory, 220 is a vertical pattern composition unit, 221 is a vertical pattern pattern memory, 222
Is a right diagonal pattern synthesis unit, 223 is a right diagonal synthesis pattern memory, 224 is a left diagonal pattern synthesis unit, 225 is a left diagonal synthesis pattern memory, 226 is a loop counter, 227 is an output control unit, 228 is a feature extraction unit, 229 Is an identification unit, 230
Is a dictionary memory, 231 is a recognition result, 232 is a blurred pattern restoring unit, 233 is a pattern combining unit, 234 is a combined character pattern memory, and 235 is a circumscribing frame dividing unit.

【0053】ここでは、主として実施例1との相違点に
ついて説明する。先ず、201、202、203、20
4は実施例1に準じ、パタンレジスタ203の2値画像
のうち、外接枠内のデ−タだけが、レジスタ205に転
送される。後述するようにこのレジスタ205には、文
字パタンの2値デ−タだけでなく、かすれパタンも順
次、上書きされる。線幅計算部206はこのレジスタ2
05内のデ−タに対し、線幅の計算を行う。今は、文字
パタンの2値デ−タが格納されているので、文字パタン
の平均線幅が計算される。この線幅の算出も実施例1の
方法を準用する。
Here, differences from the first embodiment will be mainly described. First, 201, 202, 203, 20
In No. 4, according to the first embodiment, only the data within the circumscribing frame of the binary image of the pattern register 203 is transferred to the register 205. As will be described later, not only the binary data of the character pattern but also the blurred pattern are sequentially overwritten in the register 205. The line width calculation unit 206 uses this register 2
The line width is calculated for the data in 05. Since the binary data of the character pattern is currently stored, the average line width of the character pattern is calculated. The method of Example 1 is also applied to the calculation of the line width.

【0054】次に、実施例1と同様に、このレジスタ2
05内の2値デ−タに対して、水平方向走査部207、
垂直方向走査部209、右斜め方向走査部211、左斜
め方向走査部213により、それぞれ水平、垂直、右斜
め、左斜め方向に走査し、前記線幅を閾値として、サブ
パタンを抽出し、各々、水平パタンメモリ208、垂直
パタンメモリ210、右斜めパタンメモリ212、左斜
めパタンメモリ214に格納する。
Next, as in the first embodiment, this register 2
For the binary data in 05, the horizontal scanning section 207,
The vertical scanning unit 209, the right diagonal scanning unit 211, and the left diagonal scanning unit 213 scan horizontally, vertically, diagonally to the right, and diagonally to the left, respectively, and the subpatterns are extracted with the line width as a threshold. The data is stored in the horizontal pattern memory 208, the vertical pattern memory 210, the right diagonal pattern memory 212, and the left diagonal pattern memory 214.

【0055】次に、かすれパタン抽出部215におい
て、レジスタ205の文字パタンの2値デ−タとメモリ
208、210、212、214に格納されたサブパタ
ンより、かすれパタンを抽出し、レジスタ205に転送
する。この時、かすれパタンの抽出は、実施例1の図3
に示したかすれパタン抽出の処理によって行い、このか
すれパタンを便宜上、かすれパタン1としておく。そし
て、微小セグメント除去部216でかすれパタン1の微
小セグメントの除去を行い、残ったセグメント数等をチ
ェックした後、線幅計算部206においてかすれパタン
1の線幅の計算を行い、さらに線幅判定部217で、前
記線幅値に基づいてかすれパタン1の走査を行うか否か
を判定する。但し、微小セグメント除去部216または
線幅判定部217の判定は、実施例1に準用する。
Next, the blur pattern extracting unit 215 extracts the blur pattern from the binary data of the character pattern of the register 205 and the sub patterns stored in the memories 208, 210, 212 and 214 and transfers it to the register 205. To do. At this time, the extraction of the faint pattern is performed as shown in FIG.
The fading pattern extraction processing shown in FIG. 2 is performed, and this fading pattern is referred to as a fading pattern 1 for convenience. Then, the minute segment removing unit 216 removes the minute segment of the blurred pattern 1, and after checking the number of remaining segments, the line width calculating unit 206 calculates the line width of the blurred pattern 1 and further determines the line width. The unit 217 determines whether to scan the fading pattern 1 based on the line width value. However, the determination by the minute segment removal unit 216 or the line width determination unit 217 is applied to the first embodiment.

【0056】ここでかすれパタン1について、走査をす
る必要はないと判定されると、メモリ208、210、
212、214に格納されたサブパタンは、出力制御部
227を通じて特徴抽出部228に出力され、また走査
する必要ありと判定された場合には、各々、水平合成パ
タンメモリ219、垂直合成パタンメモリ221、右斜
め合成パタンメモリ223、左斜め合成パタンメモリ2
25に転送される。尚、図3において、メモリ107、
109、111、113は、図2におけるメモリ20
8、210、212、214に相当し、文字パタンメモ
リ304は、レジスタ205に置き換えるものとする
If it is determined that the blur pattern 1 does not need to be scanned, the memories 208, 210,
The sub patterns stored in 212 and 214 are output to the feature extraction unit 228 through the output control unit 227, and when it is determined that scanning is necessary, the horizontal composition pattern memory 219 and the vertical composition pattern memory 221, respectively. Right diagonal composition pattern memory 223, left diagonal composition pattern memory 2
25. In FIG. 3, the memory 107,
109, 111, and 113 are the memory 20 in FIG.
8, 210, 212, and 214, and the character pattern memory 304 is replaced with the register 205.

【0057】次に実施例1と同様に、レジスタ205内
のかすれパタン1に対して、かすれパタン復元部232
においてかすれ復元パタン1が生成される。そして、こ
のかすれ復元パタン1は各方向の走査部207、20
9、211、213により再度走査され、平均線幅に基
づいて、かすれ復元パタン1のサブパタン、即ち、かす
れ復元サブパタン1が抽出され、各々、メモリ208、
210、212、214に格納される。
Next, in the same manner as in the first embodiment, for the blur pattern 1 in the register 205, the blur pattern restoring unit 232 is executed.
At, a blur restoration pattern 1 is generated. The blur restoration pattern 1 is used for the scanning units 207, 20 in each direction.
9, 211, and 213 are again scanned, and the sub-pattern of the blurring restoration pattern 1, that is, the blurring restoration sub-pattern 1, is extracted based on the average line width, and the memory 208, respectively.
210, 212, and 214 are stored.

【0058】次に水平パタン合成部218、垂直パタン
合成部220、右斜めパタン合成部222、左斜めパタ
ン合成部224において、メモリ208、210、21
2、214に格納されたかすれ復元サブパタン1とメモ
リ219、221、223、225に格納されたサブパ
タンとが合成され、合成サブパタン1として、再び、メ
モリ219、221、223、225に出力される。前
記合成サブパタン1は、実施例1において、2度のサブ
パタン抽出の結果合成されたものと同一のものである。
しかし実施例2では、再度パタンレジスタ203の外接
枠内文字パタンをレジスタ205に転送し、かすれパタ
ン抽出部215において、この文字パタンの2値デ−タ
と合成されたサブパタン1とを用いて、2度目の走査に
よっても検出されなかったストロ−ク成分を抽出し、こ
れをかすれパタン2としてレジスタ205に格納するこ
とが可能となっている。ここで、図3におけるメモリ1
07、109、111、113は、図2における合成パ
タンメモリ219、221、223、225に相当し、
文字パタンメモリ304は、レジスタ205に置き換え
るものとする。
Next, in the horizontal pattern synthesizing unit 218, the vertical pattern synthesizing unit 220, the right diagonal pattern synthesizing unit 222, and the left diagonal pattern synthesizing unit 224, the memories 208, 210, 21.
The blur restoration sub-pattern 1 stored in 2, 214 and the sub-patterns stored in the memories 219, 221, 223, 225 are combined, and the combined sub-pattern 1 is output to the memories 219, 221, 223, 225 again. The synthetic sub-pattern 1 is the same as that synthesized as a result of extracting the sub-patterns twice in the first embodiment.
However, in the second embodiment, the character pattern in the circumscribing frame of the pattern register 203 is transferred to the register 205 again, and the blur pattern extracting unit 215 uses the binary data of this character pattern and the sub pattern 1 synthesized, It is possible to extract the stroke component that has not been detected by the second scan and store it in the register 205 as the blur pattern 2. Here, the memory 1 in FIG.
07, 109, 111 and 113 correspond to the synthetic pattern memories 219, 221, 223 and 225 in FIG.
The character pattern memory 304 is replaced with the register 205.

【0059】次にかすれパタン2に対しても、かすれパ
タン復元部232で平均線幅までの復元処理を行い、か
すれ復元パタンを作成し、平均線幅を閾値とした走査に
よってかすれ復元サブパタン2を求め、合成部218、
220、222、224において、メモリ219、22
1、223、225に格納された合成サブパタン1との
合成を行い、再びメモリ219、221、223、22
5に合成サブパタン2として出力する。全く同様にし
て、かすれパタンKに対して、かすれ復元パタンKを作
成し、平均線幅を閾値とした走査によってかすれ復元サ
ブパタンKを求め、合成部218、220、222、2
24において、メモリ219、221、223、225
に格納された合成サブパタンK−1との合成を行い、再
びメモリ219、221、223、225に合成サブパ
タンKとして出力する。
Next, with respect to the blur pattern 2, the blur pattern restoring unit 232 performs restoration processing up to the average line width to create a blur restoration pattern, and the blur restoration sub-pattern 2 is set by scanning with the average line width as a threshold. The synthesizing unit 218,
In 220, 222, 224, the memories 219, 22
1, 223, 225 are combined with the combined sub-pattern 1, and the memories 219, 221, 223, 22 are again combined.
It outputs to 5 as synthetic sub-pattern 2. In exactly the same manner, the blur restoration pattern K is created for the blur pattern K, the blur restoration sub-pattern K is obtained by scanning with the average line width as a threshold, and the combining units 218, 220, 222, and 2 are performed.
24, memories 219, 221, 223, 225
The synthesized sub-pattern K-1 stored in the memory is stored in the memory 219, and the synthesized sub-pattern K-1 is output again to the memories 219, 221, 223 and 225.

【0060】ル−プカウンタ226は、サブパタンの合
成回数Kをカウントし、Kが所定の閾値Mに達した場
合、出力制御部227にそのことを通知する。その時、
出力制御部227では、メモリ219、221、22
3、225に格納されていた合成サブパタンMを特徴抽
出部228に転送する。尚、合成回数KがMに達しない
場合でも、微小セグメント除去部216または線幅判定
部217において、かすれパタンKの復元及び走査の必
要がないと判定された場合は、その時点の合成サブパタ
ンKが特徴抽出部228に転送される。
The loop counter 226 counts the number of times K of sub-pattern combination, and when K reaches a predetermined threshold M, notifies the output control section 227 of this. At that time,
In the output control unit 227, the memories 219, 221, 22
The combined sub-pattern M stored in Nos. 3 and 225 is transferred to the feature extraction unit 228. Even when the number of times of composition K does not reach M, if the minute segment removal unit 216 or the line width determination unit 217 determines that there is no need to restore and scan the fading pattern K, the composition sub-pattern K at that point in time. Is transferred to the feature extraction unit 228.

【0061】また、パタン合成部233では、パタンレ
ジスタ203の外接枠内の2値画像を基にしてレジスタ
205に出力されたかすれ復元パタン1,2,..,K
を順次合成し、合成文字パタンとしてメモリ234に出
力する。出力制御部227が、合成サブパタンMを特徴
抽出部228に出力する時、外接枠分割部235は、メ
モリ234に格納されている原2値画像とかすれ復元パ
タン1,2,..,Mの合成である合成文字パタンの周
辺分布に基づく外接枠分割を行い、分割座標を特徴抽出
部228に通知する。
Further, in the pattern synthesizing unit 233, the blur restoration patterns 1, 2, ..., Which are output to the register 205 based on the binary image in the circumscribing frame of the pattern register 203. . , K
Are sequentially combined and output to the memory 234 as a combined character pattern. When the output control unit 227 outputs the combined sub-pattern M to the feature extracting unit 228, the circumscribing frame dividing unit 235 causes the circumscribing frame dividing unit 235 to store the original binary image and the blur restoration patterns 1, 2 ,. . , M, the circumscribing frame division is performed based on the peripheral distribution of the combined character pattern, and the division coordinates are notified to the feature extraction unit 228.

【0062】特徴抽出部228、識別部229、辞書メ
モリ230、認識結果231は、全て実施例1と同様で
あるので説明を省略する。
The feature extraction unit 228, the identification unit 229, the dictionary memory 230, and the recognition result 231 are all the same as those in the first embodiment, and therefore their explanations are omitted.

【0063】以上、実施例2によれば、M回の走査によ
って、それぞれ線幅の異なるM種のストロ−ク成分を反
映したサブパタンが作成でき、従って、M種の線幅のス
トロ−クからなる複雑な漢字や図形等に対しても高精度
な認識性能を安定に維持できる。また、実施例1は、実
施例2においてM=1としたものと同等であり、実施例
2の特殊な場合に相当している。
As described above, according to the second embodiment, by scanning M times, it is possible to create a sub-pattern that reflects M kinds of stroke components having different line widths. Highly accurate recognition performance can be stably maintained even for complicated Chinese characters and figures. Further, the first embodiment is equivalent to the case where M = 1 in the second embodiment, and corresponds to the special case of the second embodiment.

【0064】尚、実施例1及び実施例2は、上述した例
のみに限定されるものではない。例えば、かすれパタン
抽出部114または215におけるかすれパタン抽出手
段は図3に示された方法だけでなく、OR、NOR、A
ND,NAND、NOT回路等を組み合わせることによ
って、同一の結果を出力する方法がいくつか考えられる
が、如何なる方法であっても本実施例で定義されたかす
れパタンを抽出できれば、それらは全て本発明に属す
る。
The first and second embodiments are not limited to the above examples. For example, the blur pattern extracting means in the blur pattern extracting unit 114 or 215 is not limited to the method shown in FIG.
There are several possible methods of outputting the same result by combining ND, NAND, NOT circuits, etc., but if any of the methods can extract the blur pattern defined in the present embodiment, all of them can be used in the present invention. Belong to.

【0065】また図7において、かすれパタンのストロ
−クを平均線幅まで太らせる処理として、輪郭点系列の
外側に順次、黒画素を追加する手段を講じたが、線幅を
増大させる処理であれば、特に本方法に限定する必要は
なく、任意に設定可能である。
In FIG. 7, as a process for thickening the stroke of the fading pattern to the average line width, a means for sequentially adding black pixels to the outside of the contour point series has been taken. If so, there is no particular need to limit to this method, and it can be set arbitrarily.

【0066】また非本質的なストロ−ク成分を除去する
方法として、微小セグメントの除去や線幅による判定等
を用いたが、これらの条件式及び閾値の設定等は、本発
明の範囲内で任意に変更できる。
Further, as a method of removing the extrinsic stroke component, the removal of the minute segment, the judgment by the line width, etc. were used, but the conditional expressions and the setting of the threshold value, etc. are within the scope of the present invention. It can be changed arbitrarily.

【0067】また線幅の計算方法、特徴マトリクスの抽
出方法、外接枠分割方法等も本発明の範囲内で適宜変更
可能である。さらに図1、図2、図7のブロック図にお
いて、パタンレジスタや各メモリの構成、各構成部分に
分担された処理や動作、入出力信号の流れ、設置個数、
位置その他の条件も任意好適に変更可能である。
The line width calculation method, the feature matrix extraction method, the circumscribing frame division method, etc. can be appropriately changed within the scope of the present invention. Further, in the block diagrams of FIG. 1, FIG. 2, and FIG. 7, the configuration of the pattern register and each memory, the processing and operation shared by each component, the flow of input / output signals, the number of installed units,
The position and other conditions can be arbitrarily changed.

【0068】[0068]

【発明の効果】以上、詳細に説明したように、本発明に
よれば、入力文字パタンを量子化された2値画像に変換
し、2値画像の外接枠を検出し、外接枠内の2値画像の
線幅を計算し、外接枠内の2値画像に対して、水平、垂
直、右斜め、左斜め方向に走査して、前記線幅の2倍を
超えるストロ−クの分布状態を反映する4種類のサブパ
タンを抽出し、前記外接枠内の2値画像及びサブパタン
4種とを用いて、サブパタンとして抽出されなかったか
すれパタンを検出し、かすれパタンの線幅を計算し、か
すれパタンを構成する一つまたは複数の互いに接触して
いないセグメントの外側に順次黒画素を追加することに
よって、かすれパタンの線幅を前記入力文字パタンの平
均線幅まで太らせることによって、かすれ復元パタンを
作成し、さらにかすれ復元パタンに対して、前記平均線
幅に基づいて設定された閾値を用いて、水平、垂直、右
斜め、左斜め方向に走査し、検出されたストロ−クの分
布状態を反映する4種類のかすれ復元サブパタンを抽出
し、前記サブパタン及び前記かすれ復元サブパタンとを
それぞれの種類毎に合成することによって、合成サブパ
タンを作成し、さらに前記外接枠内の2値画像とかすれ
復元パタンとを合成して合成文字パタンとし、当該合成
文字パタンに基づいて外接枠を分割し、前記合成サブパ
タン及び前記外接枠の分割情報に基づいて特徴マトリク
スを抽出し、前記特徴マトリクスと辞書とを照合した結
果より、認識結果を出力するようにしたので、文字パタ
ンを構成するストロ−クであって、認識に本質的な役割
を果たすものの一部が、他の部分との局所線幅と比較し
て小さくなった場合でも、サブパタンの一部として抽出
され、しかも平均線幅をもつまで復元され、さらに分割
領域にも復元の効果が反映されるので、ストロ−ク成分
の損失に伴う認識性能の低下が防止できる。従って、局
所線幅に大きな相違のある品質の悪い文字パタンや様々
なスケ−ルのストロ−クから構成される複雑な漢字文字
や図形等に対しても高精度な認識性能を安定に維持でき
る文字認識装置が実現可能となる。
As described above in detail, according to the present invention, the input character pattern is converted into a quantized binary image, the circumscribing frame of the binary image is detected, and the circumscribing frame is detected. The line width of the value image is calculated, and the binary image in the circumscribing frame is scanned horizontally, vertically, diagonally to the right, and diagonally to the left to determine the distribution state of strokes exceeding twice the line width. Four types of sub-patterns to be reflected are extracted, the binary image in the circumscribing frame and the four types of sub-patterns are used to detect the fading patterns not extracted as sub-patterns, the line width of the fading patterns is calculated, and the fading patterns are calculated. The line width of the blur pattern is increased to the average line width of the input character pattern by sequentially adding black pixels to the outside of one or a plurality of segments that do not contact each other to form a blur restoration pattern. Create and do more 4 types that reflect the detected stroke distribution state by scanning horizontally, vertically, diagonally to the right, and diagonally to the left by using a threshold value set based on the average line width for the restoration pattern. The subtle restoration sub-pattern of is extracted, and the sub-pattern and the sub-restoration sub-pattern are synthesized for each type to create a synthetic sub-pattern, and further, the binary image in the circumscribing frame and the blur restoration sub-pattern are synthesized. As a composite character pattern, the circumscribing frame is divided based on the composite character pattern, the feature matrix is extracted based on the division information of the synthesizing sub-pattern and the circumscribing frame, and as a result of collating the feature matrix with the dictionary, Since the recognition result is output, a part of the stroke that constitutes the character pattern and plays an essential part in the recognition is different from the other parts. Even if it becomes smaller than the local line width, it is extracted as a part of the sub-pattern and is restored until it has the average line width, and the restoration effect is reflected in the divided areas as well. It is possible to prevent deterioration of recognition performance due to loss. Therefore, it is possible to stably maintain high-precision recognition performance even for complicated Kanji characters and figures composed of poor quality character patterns with large differences in local line widths and strokes of various scales. A character recognition device can be realized.

【図面の簡単な説明】[Brief description of drawings]

【図1】文字認識装置の実施例1を示すブロック図であ
る。
FIG. 1 is a block diagram showing a first embodiment of a character recognition device.

【図2】文字認識装置の実施例2を示すブロック図であ
る。
FIG. 2 is a block diagram showing a second embodiment of the character recognition device.

【図3】かすれパタン抽出部の構成を示すブロック図で
ある。
FIG. 3 is a block diagram showing a configuration of a blur pattern extracting unit.

【図4】かすれ部分の存在するパタンの一例を示す図で
ある。
FIG. 4 is a diagram showing an example of a pattern in which a blurred portion exists.

【図5】つぶれによりサブパタンとして抽出されない部
分があるパタンの一例を示す図である。
FIG. 5 is a diagram showing an example of a pattern that has a portion that is not extracted as a sub-pattern due to crushing.

【図6】本発明の適用例を示す図である。FIG. 6 is a diagram showing an application example of the present invention.

【図7】かすれパタン復元部の一構成例を示すブロック
図である。
FIG. 7 is a block diagram showing a configuration example of a blur pattern restoration unit.

【図8】3×3マスクを示す図である。FIG. 8 is a diagram showing a 3 × 3 mask.

【図9】文字枠分割の例を示す図である。FIG. 9 is a diagram showing an example of character frame division.

【図10】文字枠分割の例を示す図である。FIG. 10 is a diagram showing an example of character frame division.

【符号の説明】[Explanation of symbols]

101 光信号 102 光電変換部 103 パタンレジスタ 104 外接枠検出部 105 文字パタン線幅計算部 106 水平方向走査部 107 水平サブパタン1メモリ 108 垂直方向走査部 109 垂直サブパタン1メモリ 110 右斜め方向走査部 111 右斜めサブパタン1メモリ 112 左斜め方向走査部 113 左斜めサブパタン1メモリ 114 かすれパタン抽出部 115 かすれパタンメモリ 116 かすれパタン線幅計算部 117 水平方向走査部 118 水平かすれサブパタンメモリ 119 垂直方向走査部 120 垂直かすれサブパタンメモリ 121 右斜め方向走査部 122 右斜めかすれサブパタンメモリ 123 左斜め方向走査部 124 左斜めかすれサブパタンメモリ 125 水平サブパタン合成部 126 水平サブパタン2メモリ 127 垂直サブパタン合成部 128 垂直サブパタン2メモリ 129 右斜めサブパタン合成部 130 右斜めサブパタン2メモリ 131 左斜めサブパタン合成部 132 左斜めサブパタン2メモリ 133 出力制御部 134 線幅判定部 135 特徴抽出部 136 識別部 137 辞書メモリ 138 認識結果 139 微小セグメント除去部 140 かすれパタン復元部 141 かすれ復元パタンメモリ 142 パタン合成部 143 合成文字パタンメモリ 144 外接枠分割部 101 optical signal 102 photoelectric conversion unit 103 pattern register 104 circumscribing frame detection unit 105 character pattern line width calculation unit 106 horizontal direction scanning unit 107 horizontal sub pattern 1 memory 108 vertical direction scanning unit 109 vertical sub pattern 1 memory 110 right diagonal direction scanning unit 111 right Diagonal sub-pattern 1 memory 112 Left diagonal sub-pattern scanning unit 113 Left diagonal sub-pattern 1 memory 114 Blurred pattern extraction unit 115 Blurred pattern memory 116 Blurred pattern line width calculation unit 117 Horizontal scanning unit 118 Horizontal blur sub-pattern memory 119 Vertical scanning unit 120 Vertical Faint sub-pattern memory 121 Right diagonal scan section 122 Right diagonal sub-pattern memory 123 Left diagonal scan section 124 Left diagonal sub-pattern memory 125 Horizontal sub-pattern combining section 126 Horizontal sub-pattern 2 Memory 127 Vertical sub-pattern combining unit 128 Vertical sub-pattern 2 memory 129 Right oblique sub-pattern combining unit 130 Right oblique sub-pattern 2 memory 131 Left oblique sub-pattern combining unit 132 Left oblique sub-pattern 2 memory 133 Output control unit 134 Line width determination unit 135 Feature extraction unit 136 Identification Part 137 Dictionary memory 138 Recognition result 139 Small segment removal part 140 Blurred pattern restoration part 141 Blurred restoration pattern memory 142 Pattern composition part 143 Composite character pattern memory 144 Encircling frame division part

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】 帳票等に記入された文字パタンを光学的
に走査して、量子化された電気信号である2値画像に変
換する光電変換部と、 前記2値画像に変換された文字パタンを格納するパタン
レジスタと、 前記パタンレジスタ内の文字パタンの外接枠を検出する
外接枠検出部と、 前記パタンレジスタの外接枠内の文字パタンの線幅を算
出する線幅計算部と、 前記パタンレジスタの外接枠内の文字パタンに対して、
水平、垂直、右斜め、左斜めの各方向に走査し、走査線
上の黒画素の連続数が前記線幅に基づいて定められた閾
値を超えた場合にストロ−クとして検出し、これらのス
トロ−クの分布を表わすサブパタンを各方向毎に4種類
抽出するサブパタン抽出部と、 前記パタンレジスタの外接枠内の2値画像及び前記4種
類のサブパタンより、文字パタンを構成する黒画素の中
で、4種類のサブパタンのいずれにも属さない黒画素の
集合をかすれパタンとして抽出するかすれパタン抽出部
と、 前記かすれパタンを構成する各々独立したセグメントの
うち、微小セグメントを除去する微小セグメント除去部
と、 前記かすれパタンの線幅を算出するかすれパタン線幅計
算部と、 微小セグメントを除去したかすれパタンについて復元パ
タン作成の必要有りと判定された場合に、当該かすれパ
タンを構成する各々のセグメントに対して、線幅を前記
平均線幅まで太める処理を行うことによって、かすれ復
元パタンを作成するかすれパタン復元部と、 前記かすれ復元パタンに対して、水平、垂直、右斜め、
左斜めの各方向に走査し、走査線上の黒画素の連続数が
前平均線幅に基づいて定められた閾値を超えた場合にス
トロ−クとして検出し、これらのストロ−クの分布を表
わすかすれ復元サブパタンを各方向毎に4種類抽出する
かすれ復元サブパタン抽出部と、 前記サブパタンと前記かすれ復元サブパタンとをそれぞ
れの種類毎に合成するサブパタン合成部と、 前記サブパタンまたは合成サブパタンの何れか一方のサ
ブパタンを特徴抽出部に出力する制御部と、 前記パタンレジスタの外接枠内の2値画像及び前記かす
れ復元パタンとを合成し、合成文字パタンを作成するパ
タン合成部と、 前記パタンレジスタの外接枠内の2値画像または前記合
成文字パタンの周辺分布に基づいて、外接枠を水平方向
及び垂直方向に格子状となる部分領域に分割する外接枠
分割部と、 前記サブパタンまたは前記合成サブパタンについて前記
分割された部分領域の特徴値を算出し、特徴マトリクス
を作成する特徴抽出部と、 前記特徴マトリクスと予め用意された辞書とを照合する
ことにより最終的な認識結果を出力する識別部とを有す
ることを特徴とする文字認識装置。
1. A photoelectric conversion unit for optically scanning a character pattern written on a form or the like to convert it into a binary image which is a quantized electric signal, and a character pattern converted into the binary image. , A circumscribing frame detecting unit that detects a circumscribing frame of the character pattern in the pattern register, a line width calculating unit that calculates a line width of the character pattern in the circumscribing frame of the pattern register, and the pattern. For the character pattern in the circumscribed frame of the register,
Scanning is performed in each of horizontal, vertical, right diagonal, and diagonal left directions, and when the number of consecutive black pixels on the scanning line exceeds a threshold value determined based on the line width, it is detected as a stroke, and these strokes are detected. -A sub-pattern extraction unit that extracts four types of sub-patterns representing the distribution of black and white in each direction, and a binary image in the circumscribed frame of the pattern register and the four types of sub-patterns among the black pixels that form a character pattern. A blur pattern extraction unit that extracts a set of black pixels that do not belong to any of the four types of sub patterns as a blur pattern, and a fine segment removal unit that removes a fine segment from each of the independent segments that form the blur pattern. , A blur pattern line width calculation unit that calculates the line width of the blur pattern, and a restoration pattern needs to be created for the blur pattern from which minute segments have been removed. When it is determined, for each segment that constitutes the faint pattern, a faint pattern restoring unit that creates a faint restored pattern by performing a process of thickening the line width to the average line width, and the faint restore Horizontal, vertical, diagonal to the right,
Scanning is performed in each diagonal left direction, and when the number of consecutive black pixels on the scanning line exceeds a threshold value determined based on the previous average line width, it is detected as a stroke, and the distribution of these strokes is represented. A shading restoration sub-pattern extraction unit that extracts four types of shading restoration sub-patterns for each direction, a sub-pattern synthesis unit that synthesizes the sub-pattern and the shading restoration sub-pattern for each type, and one of the sub-patterns or synthesis sub-patterns. A control unit that outputs a sub-pattern to a feature extraction unit, a pattern synthesizing unit that synthesizes a binary image in the circumscribing frame of the pattern register and the blurring restoration pattern, and a composite character pattern; and a circumscribing frame of the pattern register. The circumscribing frame is divided into grid-like partial regions in the horizontal and vertical directions based on the binary image in the image or the peripheral distribution of the composite character pattern. A circumscribing frame dividing unit, a feature extracting unit that calculates a feature value of the divided partial region for the sub-pattern or the composite sub-pattern, and creates a feature matrix, and collates the feature matrix with a dictionary prepared in advance. A character recognition device having a discriminating section for outputting a final recognition result.
JP5167908A 1993-07-07 1993-07-07 Character recognition device Pending JPH0728948A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5167908A JPH0728948A (en) 1993-07-07 1993-07-07 Character recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5167908A JPH0728948A (en) 1993-07-07 1993-07-07 Character recognition device

Publications (1)

Publication Number Publication Date
JPH0728948A true JPH0728948A (en) 1995-01-31

Family

ID=15858283

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5167908A Pending JPH0728948A (en) 1993-07-07 1993-07-07 Character recognition device

Country Status (1)

Country Link
JP (1) JPH0728948A (en)

Similar Documents

Publication Publication Date Title
US5410611A (en) Method for identifying word bounding boxes in text
US5321770A (en) Method for determining boundaries of words in text
CN110942074B (en) Character segmentation recognition method and device, electronic equipment and storage medium
JP2940496B2 (en) Pattern matching encoding apparatus and method
JP4232800B2 (en) Line noise elimination device, line noise elimination method, line noise elimination program
JP2000132690A (en) Image processing method and image processor using image division by making token
US20100054587A1 (en) Image processing apparatus and image processing method
US6694059B1 (en) Robustness enhancement and evaluation of image information extraction
JPH0728948A (en) Character recognition device
JP2902905B2 (en) Character recognition device
JPH02293989A (en) Character recognizing device
JP2902904B2 (en) Character recognition device
JPH076205A (en) Character recognition device
JP2902097B2 (en) Information processing device and character recognition device
JP3210224B2 (en) Character recognition device
JP3197464B2 (en) Character recognition method and character recognition device
JP3277977B2 (en) Character recognition method
JP2708604B2 (en) Character recognition method
JP3084833B2 (en) Feature extraction device
JP3687999B2 (en) Character recognition device
CN117710985A (en) Optical character recognition method and device and intelligent terminal
JPH03126188A (en) Character recognizing device
JP2805476B2 (en) Character recognition method
JPH02166583A (en) Character recognizing device
CN118153550A (en) Unstructured data analysis method based on artificial intelligence