JPH04104387A - Character recognizing means - Google Patents

Character recognizing means

Info

Publication number
JPH04104387A
JPH04104387A JP2221948A JP22194890A JPH04104387A JP H04104387 A JPH04104387 A JP H04104387A JP 2221948 A JP2221948 A JP 2221948A JP 22194890 A JP22194890 A JP 22194890A JP H04104387 A JPH04104387 A JP H04104387A
Authority
JP
Japan
Prior art keywords
character
area
frame
distribution
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2221948A
Other languages
Japanese (ja)
Inventor
Takahiro Kobayashi
高弘 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2221948A priority Critical patent/JPH04104387A/en
Publication of JPH04104387A publication Critical patent/JPH04104387A/en
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

PURPOSE:To recognize only the real character existing inside a frame by deciding character recognition area based on counted peripheral distribution. CONSTITUTION:The peripheral distribution of a character bit is counted, and frame distribution T1, T2, and t1, t2 and character area distribution Mm is detected by a decision reference value calculated by a prescribed expression. Next, when the character string area can be limited by deleting frame area T, t, each character is segmented from an original picture. Here, outline extraction upper/lower areas calculated by the prescribed expression are set, the character whose outline is extracted in the area can be judged as the real character, and the recognition of one character is terminated by the normalization of character and the matching with a pattern dictionary. Thus, accurate character recognition can be performed even when the frame component surrounding the character or vertical line noise exists.

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、光センサー等で読み取られた文字画像を文字
として認識する装置に関する。
DETAILED DESCRIPTION OF THE INVENTION (Field of Industrial Application) The present invention relates to an apparatus for recognizing character images read by an optical sensor or the like as characters.

(従来の技術) 従来の文字認識手法に於ては、読み取り画像中の真の文
字領域を囲むような枠が存在すると、文字切り出し時に
前記枠も文字として認識してしまい誤認識してしまった
(Prior art) In conventional character recognition methods, if there is a frame surrounding a true character area in a read image, the frame is also recognized as a character when character is extracted, resulting in erroneous recognition. .

また、特殊な方法として、特に、帳票文字認識装置に於
て採用される手法であるが、あらかじめ枠中に認識対象
文字を記入しておき、枠は画像読み取りのための原紙照
射光と同色の線成分とすることで、読み取られた文字画
像には枠成分は既に除去されているなどの方法が取られ
ていた。
In addition, as a special method, which is especially adopted in form character recognition devices, characters to be recognized are written in a frame in advance, and the frame is illuminated with light of the same color as the original paper irradiation light for image reading. By using line components, the frame components have already been removed from the read character image.

(発明が解決しようとする課題) しかし、この様な認識手段では、あらかじめ決定されて
いないフォーマットに記載された帳票などの英数字等を
文字認識する場合、誤認識してしまい、また、フォーマ
ットを指定する方法は汎用性に欠はコストアップの要因
となってしまった。
(Problem to be Solved by the Invention) However, with this type of recognition means, when recognizing characters such as alphanumeric characters on a form written in a format that is not determined in advance, it may be misrecognized, and the format may be incorrect. The method of specifying lacks versatility, which causes an increase in costs.

そこで本発明はこの様な問題に鑑みてなされたもので、
その目的とするところは枠の存在する原紙に記入された
文字に対しても、枠の書式フォーマットを指定せずにそ
の内側に存在する真の文字のみを認識することを可能に
して、必要なら枠が存在してかつ枠によって文字領域が
囲まれていることをも認識する手法を提供することにあ
る。
Therefore, the present invention was made in view of such problems.
The purpose of this is to make it possible to recognize only the true characters that exist inside the frame without specifying the format of the frame, even for characters written on the original paper that has a frame, and if necessary. It is an object of the present invention to provide a method for recognizing the existence of a frame and the fact that a character area is surrounded by the frame.

(課題を解決するための手段) 本発明の文字認識手段は、光センサー等により実現する
文字画像読み取り手段と、前記入力された文字領域を副
走査方向に文字かどうかを計数する手段と、前記計数す
る手段を主走査方向に繰り返す手段と、前記主走査方向
に計数された値によって主走査方向成分が縦線ノイズま
たは文字を囲むための枠であるかどうかを判断する手段
と、前記計数された周辺分布に基づいて文字認識を施す
領域を決定する手段と、文字を輪郭抽出することによっ
て切り出し正規化する手段と、前記輪郭抽出時に、前記
主走査方向に計数された周辺分布に基づいて決定された
画像中の輪郭抽出上限下限値により文字かどうかを判定
する手段と、文字を認識するためのパターン辞書または
周辺特徴辞書と、前記正規化された文字を前記認識辞書
と比較する手段を具備することを特徴とする文字認識手
段とからなる。
(Means for Solving the Problems) The character recognition means of the present invention includes a character image reading means realized by an optical sensor or the like, a means for counting whether the input character area is a character in the sub-scanning direction, and the means for repeating the counting means in the main scanning direction; means for determining whether the main scanning direction component is vertical line noise or a frame surrounding a character based on the counted value in the main scanning direction; a means for determining an area to perform character recognition based on the peripheral distribution obtained by the character recognition; a means for extracting and normalizing the character by extracting the outline thereof; means for determining whether the image is a character based on upper and lower limit values for contour extraction in the image; a pattern dictionary or peripheral feature dictionary for character recognition; and means for comparing the normalized character with the recognition dictionary. and a character recognition means characterized by:

(実施例) 以下に本発明の認識手段の詳細を図示した実施例に基づ
いて説明する。
(Example) The details of the recognition means of the present invention will be explained below based on the illustrated example.

第1図が、本発明の文字認識手段のフローチャートであ
る。第2図が、画像人力101によって得られた文字画
像の例及び周辺分布計数結果の例である。第3図が、画
像入力101によって得られた斜めに入力された文字画
像の例及び周辺分布計数結果の例である。第4図が、文
字枠が存在しない画像の例及び周辺分布の計数結果の例
である。
FIG. 1 is a flowchart of the character recognition means of the present invention. FIG. 2 shows an example of a character image and an example of the marginal distribution count results obtained by the image manual 101. FIG. 3 shows an example of a character image input diagonally and an example of marginal distribution counting results obtained by the image input 101. FIG. 4 shows an example of an image without a character frame and an example of the counting results of the peripheral distribution.

文字認識は、画像入力101によって文字画像を獲得す
ることによってスタートする。画像入力は光センサー等
で実現される読み取り装置によって獲得する。読み取り
装置は、自動で紙面上をスキャンするものと、手動によ
って紙面上をスキャンするものがあり、手動による場合
は、第3図の画像に示すように斜めに画像が入力される
場合がある。画像が斜めに入力された場合、画像の斜め
補正のために回転補正法を施す手法があるが、本編では
特にその手法には触れない。
Character recognition starts by acquiring a character image through image input 101. Image input is acquired by a reading device realized by an optical sensor or the like. There are two types of reading devices: one that scans the paper surface automatically and one that scans the paper surface manually.If the reading device is manual, the image may be input diagonally as shown in the image in FIG. When an image is input diagonally, there is a method of applying a rotation correction method to correct the skew of the image, but this article does not specifically discuss that method.

画像が得られると、その得られた画像に対して文字ビッ
トの副走査方向の周辺分布を計数102する。第2図2
01に枠が存在する画像の副走査方向の周辺分布の計数
結果を示す。枠が存在する画像の周辺分布は、枠分布T
1.T2と、文字領域分布Mが検出できる。文字認識は
、得られた画像の中央付近の文字列を認識する前提があ
る場合は、文字領域分布Mの領域が認識対象文字領域に
なる。得られた画像の全ての領域について文字認識する
場合は、画像中で文字領域Mが検出できた領域全てが認
識の対象領域となる。第4図401に枠が存在しない画
像の副走査方向における周辺分布の計数結果を示す。枠
が存在しない場合は、文字領域Mのみしか検出できない
ため、その領域について文字認識する。続いて、枠分布
Tと文字分布Mの判定方法103について述べる。文字
領域かどうかを判定する文字判定基準値Reflは、次
式により導かれる。
When an image is obtained, the peripheral distribution of character bits in the sub-scanning direction is counted 102 for the obtained image. Figure 2 2
01 shows the counting results of the peripheral distribution in the sub-scanning direction of an image in which a frame exists. The peripheral distribution of an image where a frame exists is the frame distribution T
1. T2 and character area distribution M can be detected. In character recognition, if there is a premise that a character string near the center of the obtained image is to be recognized, the area of the character area distribution M becomes the character area to be recognized. When character recognition is performed on all regions of the obtained image, all regions in which the character region M can be detected in the image become recognition target regions. FIG. 4 401 shows the counting results of the peripheral distribution in the sub-scanning direction of an image without a frame. If there is no frame, only the character area M can be detected, so characters are recognized for that area. Next, a method 103 for determining the frame distribution T and character distribution M will be described. The character determination reference value Refl for determining whether the area is a character area is derived from the following equation.

Refl=周辺分布度数の平均値/3;(式001) 周辺分布度数の平均値 一周辺分布の総度数/主走査方向ビット数;(式002
) Refl値以下の分布度数を保有する分布領域は、文字
領域でない領域となる。枠領域と文字領域の判定は、以
下に示す式により導くことが出来る。
Refl=average value of peripheral distribution frequency/3; (formula 001) average value of peripheral distribution frequency - total frequency of peripheral distribution/number of bits in main scanning direction; (formula 002
) A distribution area having a distribution frequency less than or equal to the Refl value is an area that is not a character area. The determination of a frame area and a character area can be derived from the equation shown below.

M>4XTi *分布連続領域の判定基準式 (式003) T h >Mh 十Mh/2 *分布度数の判定基準式 (式004) 以上の式を満たす文字領域Mを画像中より捜索して、画
像領域を確定する。ここで、上式を満たす枠T領域が検
出されると、枠領域を原画像中より消去104する。消
去は、判定されたT領域において8方向の連結成分を輪
郭抽出して輪郭抽出された内部を白ビットで塗りつぶす
ことで実現される。
M>4XTi * Criterion formula for continuous distribution area (Formula 003) T h > Mh 1 Mh/2 * Criterion formula for distribution frequency (Formula 004) Search the image for a character area M that satisfies the above formula, Define the image area. Here, when a frame T area satisfying the above formula is detected, the frame area is erased 104 from the original image. Erasing is achieved by extracting the contours of connected components in eight directions in the determined T area and filling the inside of the extracted contour with white bits.

続いて、文字ビットの主走査方向の周辺分布を計数10
5する。第2図203に枠が存在する画像の主走査方向
の周辺分布の計数結果を示す。分布計数は、先に求めら
た文字行領域の枠と枠に囲まれた領域または、枠領域が
存在しない場合は文字領域行について計数される。枠が
存在する画像の周辺分布は、枠骨布t1.t2と、文字
領域分布mが検出できる。第4図402に枠が存在しな
い画像の主走査方向における周辺分布の計数結果を示す
。枠が存在しない場合は、文字領域mのみしか検出でき
ないため、その領域について文字認識する。続いて、枠
骨布tと文字分布mの判定方法106について述べる。
Next, the peripheral distribution of character bits in the main scanning direction is counted 10
Do 5. FIG. 2 203 shows the counting results of the peripheral distribution in the main scanning direction of an image in which a frame exists. The distribution count is calculated for the frame of the previously determined character line area and the area surrounded by the frame, or for the character area line if the frame area does not exist. The peripheral distribution of the image where the frame exists is the frame cloth t1. t2 and character area distribution m can be detected. FIG. 4 402 shows the counting results of the peripheral distribution in the main scanning direction of an image without a frame. If there is no frame, only character area m can be detected, and therefore characters are recognized for that area. Next, a method 106 for determining the frame cloth t and the character distribution m will be described.

文字領域かどうかを判定する文字判定基準値Ref2は
、次式により導かれる。
The character determination reference value Ref2 for determining whether or not it is a character area is derived from the following equation.

Ref2=周辺分布度数の平均値/8;(式005) 周辺分布度数の平均値 二周辺分布の総度数/副走査方向ピット数;(式006
) Ref2値以下の分布度数を保有する分布領域は、文字
領域でない領域となる。枠領域と文字領域の判定は、以
下に示す式により導くことが出来る。
Ref2=average value of peripheral distribution frequency/8; (formula 005) average value of peripheral distribution frequency 2 total frequency of peripheral distribution/number of pits in sub-scanning direction; (formula 006
) A distribution area having a distribution frequency less than or equal to the Ref2 value is an area that is not a character area. The determination of a frame area and a character area can be derived from the equation shown below.

m > 4. X t ; *分布連続領域の判定基準式 (式007) 上式を満たしたm領域及びt領域において下式を満たす
真のm領域及びt領域を捜索する。
m > 4. X t ; *Judgment criterion formula for continuous distribution region (formula 007) Search for true m-regions and t-regions that satisfy the following formulas in the m-regions and t-regions that satisfy the above formulas.

t h > m h + m h/ 2*分布度数の判
定基準式 (式008) 以上の式を満たす文字領域mを画像中より捜索して、画
像領域を確定する。ここで、上式を満たす枠を領域が検
出されると、枠領域を原画像中より消去107する。消
去は、判定されたt領域において8方向の連結成分を輪
郭抽出して輪郭抽出された内部を白ビットで塗りつぶす
ことで実現される。
t h > m h + m h/2*Distribution frequency judgment criterion formula (formula 008) The image region is determined by searching the image for a character region m that satisfies the above formula. Here, when a frame area satisfying the above formula is detected, the frame area is erased 107 from the original image. Erasing is achieved by extracting the contours of connected components in eight directions in the determined t-area and filling the inside of the extracted contour with white bits.

以上の手法を用いることで枠成分は基本的には除去する
ことが可能となるが、第3図に示すように読み取られた
画像が斜めに入力された場合、以上の手法をもっても枠
を除去することが出来る可能性が低くなる。その理由は
、周辺分布計数時のTh及びthの度数が小さくなって
しまうため、前記判別式では枠が判定できなくなる。そ
こで、以下に示す手法により2段階の画像除去手法を採
用する。
By using the above method, it is basically possible to remove the frame component, but if the read image is input diagonally as shown in Figure 3, the frame can be removed even with the above method. less likely to be able to do so. The reason for this is that the frequencies of Th and th during marginal distribution counting become small, making it impossible to determine the frame using the above discriminant. Therefore, a two-step image removal method is adopted using the method described below.

前記に説明した通りの手法で文字認識するための文字列
領域が限定できると、文字認識メインルーチンがスター
トする。先ず文字認識は、原画像より各文字を切り出す
作業を実行する。文字の切り出しは、各文字画像の8方
向の連結成分を輪郭抽出することによって行われる。こ
こで、文字の輪郭成分を抽出する前に輪郭抽出上限領域
及び輪郭抽出下限領域を設定108する。輪郭抽出上限
領域は、前記副走査方向の周辺分布計数時に求められた
文字領域性の上限副走査ラインを基準に求められる。そ
の値は、 輪郭抽出上限領域= 文字領域行上限ラインー文字行領域長/3または、 画像入力副走査線スタートライン: (式009) とする。また、輪郭抽出下限領域は、前記副走査方向の
周辺分布計数時に求められた文字領域性の=11− 下限副走査ラインを基準に求められる。その値は、輪郭
抽出下限領域 文字領域性下限ライン十文字行領域長/3または、 画像入力副走査線エンドライン; (式010) とする109゜上式で求められる限度領域を越えて8方
向の輪郭抽出を実行111しようとした場合は、その輪
郭抽出している文字画像は、文字ではない抽出画像、つ
まり画像における枠成分または、縦線ノイズであると判
断でき(文字判定基準値よりも大きい文字であるため)
、その文字に対する輪郭抽出は判定基準ラインにアクセ
スした時点で打ち切られて、次文字の輪郭抽出112に
移る。判定基準ラインにアクセスすることなしに8方向
の輪郭抽出が成功した場合は、その輪郭抽出された文字
は真の文字であると判断でき、文字の正規化113、パ
ターン辞書とのマツチング114によって、一つの文字
認識を終了して次の文字の認識に移る115゜認識文字
領域の全ての領域について以上の文字認識処理を繰り返
して文字列認識を終了する。
When the character string area for character recognition can be limited using the method described above, the character recognition main routine starts. First, character recognition involves cutting out each character from the original image. Character cutting is performed by extracting outlines of connected components in eight directions of each character image. Here, before extracting the contour components of characters, an upper limit region for contour extraction and a lower limit region for contour extraction are set 108. The outline extraction upper limit area is determined based on the upper limit sub-scanning line of the character area obtained when counting the peripheral distribution in the sub-scanning direction. Its value is: contour extraction upper limit area=character area line upper limit line−character line area length/3 or image input sub-scanning line start line: (Formula 009). Further, the lower limit area for outline extraction is determined based on the =11-lower limit sub-scanning line of the character area characteristic obtained when counting the peripheral distribution in the sub-scanning direction. The value is 109 degrees in 8 directions beyond the limit area calculated by the above formula. If you attempt to perform outline extraction (111), it can be determined that the character image whose outline is being extracted is not a character, that is, a frame component in the image, or vertical line noise (a value larger than the character determination standard value). (because it is a character)
, contour extraction for that character is terminated at the moment the determination reference line is accessed, and the process moves on to contour extraction 112 for the next character. If contour extraction in eight directions is successful without accessing the judgment reference line, it can be determined that the contour-extracted character is a true character, and by character normalization 113 and matching with the pattern dictionary 114, Ending one character recognition and proceeding to recognition of the next character.The above character recognition process is repeated for all areas of the 115° recognized character area to end character string recognition.

示す図、第4図は、入力された文字画像の一例及びその
画像に対して計数された周辺分布計数の分布例を示す図
である。
FIG. 4 is a diagram showing an example of an input character image and an example of the distribution of marginal distribution coefficients counted for the image.

(発明の効果) 以上、説明したように本発明によれば、フォーマットの
確定できない原紙において、その認識対象となる紙面上
に、文字を囲むような枠成分または、縦線ノイズが存在
していても正確な文字認識が可能となる。
(Effects of the Invention) As described above, according to the present invention, in a base paper whose format cannot be determined, frame components surrounding characters or vertical line noise are present on the paper surface to be recognized. It also enables accurate character recognition.

以上 出願人 セイコーエプソン株式会社 代理人 弁理士 鈴木喜三部他1名that's all Applicant: Seiko Epson Corporation Agent: Patent attorney Kizobe Suzuki and 1 other person

【図面の簡単な説明】[Brief explanation of drawings]

第1図は、本発明によるフローチャート構成の一例を示
す図、第2図は、枠の存在する原紙より入力された文字
画像の一例及びその画像に対して計数された周辺分布計
数の分布例を示す図、第3図は、斜めに入力された文字
画像の一例及びその画像に対して計数された周辺分布計
数の分布例を(α (c)
FIG. 1 is a diagram showing an example of a flowchart configuration according to the present invention, and FIG. 2 is a diagram showing an example of a character image input from a base paper with a frame and an example of the distribution of marginal distribution coefficients counted for that image. Figure 3 shows an example of a character image input diagonally and an example of the distribution of marginal distribution coefficients counted for that image (α (c)

Claims (1)

【特許請求の範囲】 (a)、光センサー等により実現する文字画像読み取り
手段と、 (b)、前記入力された文字領域を副走査方向に文字か
どうかを計数する手段と、 (c)、前記計数する手段を主走査方向に繰り返す手段
と、 (d)、前記主走査方向に計数された値によって主走査
方向成分が縦線ノイズまたは文字を囲むための枠である
かどうかを判断する手段と、 (e)前記計数された周辺分布に基づいて文字認識を施
す領域を決定する手段と、 (f)文字を輪郭抽出することによって切り出し正規化
する手段と、 (g)前記輪郭抽出時に、前記主走査方向に計数された
周辺分布に基づいて決定された画像中の輪郭抽出上限下
限値により文字かどうかを判定する手段と (h)文字を認識するためのパターン辞書または周辺特
徴辞書と、 (i)、前記正規化された文字を前記認識辞書と比較す
る手段を具備することを特徴とする文字認識手段。
[Scope of Claims] (a) Character image reading means realized by an optical sensor or the like; (b) Means for counting whether the input character area is a character in the sub-scanning direction; (c) means for repeating the counting means in the main scanning direction; and (d) means for determining whether the main scanning direction component is vertical line noise or a frame surrounding a character based on the counted value in the main scanning direction. (e) means for determining an area for character recognition based on the counted marginal distribution; (f) means for extracting and normalizing characters by extracting their outlines; (g) at the time of extracting the outlines; (h) a pattern dictionary or a peripheral feature dictionary for recognizing characters; (i) Character recognition means, comprising means for comparing the normalized characters with the recognition dictionary.
JP2221948A 1990-08-23 1990-08-23 Character recognizing means Pending JPH04104387A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2221948A JPH04104387A (en) 1990-08-23 1990-08-23 Character recognizing means

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2221948A JPH04104387A (en) 1990-08-23 1990-08-23 Character recognizing means

Publications (1)

Publication Number Publication Date
JPH04104387A true JPH04104387A (en) 1992-04-06

Family

ID=16774667

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2221948A Pending JPH04104387A (en) 1990-08-23 1990-08-23 Character recognizing means

Country Status (1)

Country Link
JP (1) JPH04104387A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008097589A (en) * 2006-09-13 2008-04-24 Keyence Corp Character excising apparatus, method, and program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008097589A (en) * 2006-09-13 2008-04-24 Keyence Corp Character excising apparatus, method, and program

Similar Documents

Publication Publication Date Title
KR920002928B1 (en) Finger print recognition method
JP6080259B2 (en) Character cutting device and character cutting method
JPH096957A (en) Binarization method for density image and image binarization device
CN108009538A (en) A kind of automobile engine cylinder-body sequence number intelligent identification Method
JPH0546591B2 (en)
CN104102907B (en) It is a kind of to eliminate the even LBP face identification methods of uneven illumination
CN108038482A (en) A kind of automobile engine cylinder-body sequence number Visual intelligent identifying system
JP2776340B2 (en) Fingerprint feature extraction device
JPS61141087A (en) Method and device for processing picture
JPH04104387A (en) Character recognizing means
JP2871590B2 (en) Image extraction method
JP2000357287A (en) Method and device for number plate recognition
JPH0373915B2 (en)
JP3281469B2 (en) Document image inclination detecting method and apparatus
JP3645403B2 (en) Character reading apparatus and character reading method
JP2998443B2 (en) Character recognition method and device therefor
JP2894111B2 (en) Comprehensive judgment method of recognition result in optical type character recognition device
JPS6451586A (en) Binarization threshold calculating device for picture
JP3190794B2 (en) Character segmentation device
US7551757B2 (en) Method for determining the bearing surface in skin print images
JP3381803B2 (en) Tilt angle detector
JPH0143351B2 (en)
JP2832035B2 (en) Character recognition device
JP2963807B2 (en) Postal code frame detector
JPH02166583A (en) Character recognizing device