JP2982221B2 - Character reader - Google Patents

Character reader

Info

Publication number
JP2982221B2
JP2982221B2 JP2155982A JP15598290A JP2982221B2 JP 2982221 B2 JP2982221 B2 JP 2982221B2 JP 2155982 A JP2155982 A JP 2155982A JP 15598290 A JP15598290 A JP 15598290A JP 2982221 B2 JP2982221 B2 JP 2982221B2
Authority
JP
Japan
Prior art keywords
character
pattern
unit
character pattern
cutout position
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2155982A
Other languages
Japanese (ja)
Other versions
JPH0452782A (en
Inventor
靖幸 西岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2155982A priority Critical patent/JP2982221B2/en
Publication of JPH0452782A publication Critical patent/JPH0452782A/en
Application granted granted Critical
Publication of JP2982221B2 publication Critical patent/JP2982221B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、ワードプロセッサーや電子組版システムに
用いられる情報入力装置のとくに光学式の文字読み取り
装置に関する。
Description: BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an information input device used for a word processor or an electronic typesetting system, particularly to an optical character reading device.

従来の技術 近年、ワードプロセッサーや電子組版システムが普及
し、情報量の増大による入力の負担増が叫ばれ、入力の
効率化が要望されている。また、文書情報の有効利用を
図るために文書処理をコンピュータにより支援し、文書
の蓄積、検索を効率化したいとするニーズが高まってい
る。その要望に応えるためには、文書形式、文書書体な
どに依存しない印刷文書を入力できる光学式文字読み取
り装置が必要である。従来の光学式文字読み取り装置
は、文字切り出しで黒画素連結成分情報による文字の切
り出し方法や1文字ごとの文字幅の平均より文字の切り
出しを行う方法が行われている。
2. Description of the Related Art In recent years, word processors and electronic typesetting systems have become widespread, and the burden of input due to an increase in the amount of information has been called out, and there has been a demand for more efficient input. In addition, there is an increasing need to support document processing by a computer in order to effectively use document information and to efficiently store and search documents. In order to meet the demand, an optical character reading device capable of inputting a printed document independent of a document format, a document typeface, and the like is required. 2. Description of the Related Art In a conventional optical character reading apparatus, a method of extracting characters based on black pixel connected component information and a method of extracting characters from an average of character widths for each character are used in character extraction.

以下に従来の文字切り出し方法の動作を第5図を用い
て説明する。黒画素連結成分情報による文字切り出し方
法では、黒画素501の8方向(第5図(a))に接する
黒画素は、同じ1つの文字パターンであるという規則に
基づき区別する。たとえば、第5図(b)のように502
で1つの文字パターン、503で1つの文字パターンとな
る。このように、従来の方法は上記黒画素連結成分より
求めた外接矩形枠幅の平均を1文字の幅と仮定して文字
切り出しを行う方法であった。
The operation of the conventional character segmentation method will be described below with reference to FIG. In the character segmentation method based on the black pixel connected component information, black pixels that are in contact with the black pixel 501 in eight directions (FIG. 5A) are distinguished based on the rule that they are the same single character pattern. For example, as shown in FIG.
Indicates one character pattern, and 503 indicates one character pattern. As described above, the conventional method is a method of extracting characters by assuming that the average of the widths of the circumscribed rectangular frames obtained from the black pixel connected components is the width of one character.

発明が解決しようとする課題 しかしながら上記従来の方法では、黒画素に接する8
方向の黒画素を同じ1つの文字パターンと見なすため、
接触している文字を1つの文字と見なしてしまう。この
ため、文字と文字の接触および、複雑な文字に対して正
しい文字切り出しが行えないという問題点を有してい
た。
However, in the above-described conventional method, however, the 8
Since the black pixels in the directions are regarded as the same one character pattern,
The touching character is regarded as one character. For this reason, there has been a problem that characters cannot be contacted with each other and a correct character cannot be cut out from a complicated character.

本発明は、上記問題に留意し、簡単な構成で精度の良
い文字切り出しが行える文字読み取り装置を提供するこ
とを目的とする。
SUMMARY OF THE INVENTION An object of the present invention is to provide a character reading device capable of performing accurate character segmentation with a simple configuration while keeping the above problems in mind.

課題を解決するための手段 本発明の上記目的を達成するため、文字パターンの左
側面の形状を求める形状検出部と、形状より文字の推測
を行う文字推測部と、文字の推測に基づき文字の切り出
し位置を求める文字切り出し位置検出部を備え文字推測
部により推測した文字パターンを、文字切り出し位置決
定部により決定した位置で切り出して文字認識を行う、
文字読み取り装置である。
Means for Solving the Problems In order to achieve the above object of the present invention, a shape detection unit that determines the shape of the left side of a character pattern, a character estimation unit that estimates a character from the shape, A character pattern guessed by a character guessing unit comprising a character cutout position detecting unit for obtaining a cutout position is cut out at a position determined by a character cutout position determining unit, and character recognition is performed.
It is a character reading device.

作用 上記構成の本発明の文字読み取り装置は、形状検出部
で、認識しようとする文字パターンを左から右にセンサ
を走査し、順次下側に移動させて一面の走査を行い、こ
の文字パターンを検出するまでの左から右への走査の距
離でその特徴を検出し、この検出された左側面形状か
ら、文字推測部に記憶されている辞書データより文字パ
ターンを推測するものである。この推測された文字パタ
ーンから文字切り出し位置決定部により、切り出す位置
を決定し、他の文字と切り離して認識するものである。
これにより文字パターンが接触した場合や、文字の外形
が複雑な文字パターンであっても正しい文字切り出し位
置を求めることが可能となる。
In the character reading device of the present invention having the above-described configuration, the shape detection unit scans the character pattern to be recognized from left to right with the sensor, sequentially moves the character pattern downward, and scans one surface. The feature is detected by the scanning distance from left to right until the detection, and a character pattern is estimated from dictionary data stored in the character estimation unit based on the detected left side shape. The character extraction position determination unit determines the extraction position from the inferred character pattern and recognizes it separately from other characters.
This makes it possible to obtain a correct character cut-out position even when the character pattern touches or the character pattern has a complicated outer shape.

実施例 第1図は、本発明の一実施例の文字読み取り装置の構
成を示すブロック図である。第1図に示すように構成要
素として、100は文字パターン入力部であり、文字切り
出し処理を行うパターンを入力する。101は文字パター
ン入力部100より入力された文字パターンに外接する矩
形枠を求ける外接矩形検出部、102は上記外接矩形内の
文字数を検出する矩形内文字数検出部、103は入力文字
パターンの左側面形状を検出する形状検出部、104は形
状検出部103で求めた形状より文字を推測する文字推測
部、105は文字推測部104で推測した文字から切り出し位
置を求める文字切り出し位置決定部、106は文字の切り
出し位置を表示する表示部、107は文字推測を行うため
の辞書で構成されている。
Embodiment FIG. 1 is a block diagram showing a configuration of a character reading device according to an embodiment of the present invention. As shown in FIG. 1, reference numeral 100 denotes a character pattern input unit, which inputs a pattern for performing a character cutout process. Reference numeral 101 denotes a circumscribed rectangle detection unit that obtains a rectangular frame circumscribing the character pattern input from the character pattern input unit 100, 102 denotes a number-of-characters-in-rectangle detection unit that detects the number of characters in the circumscribed rectangle, and 103 denotes a left side of the input character pattern. A shape detection unit 104 for detecting a surface shape, a character estimation unit 104 for estimating a character from the shape obtained by the shape detection unit 103, a character extraction position determination unit 105 for obtaining an extraction position from the character estimated by the character estimation unit 104, 106 Is a display unit for displaying the cutout position of characters, and 107 is a dictionary for performing character estimation.

以下に第1図のブロック図および、第4図(a)の切
り出し例題文字パターン「fi」を用いて、本実施例の動
作について説明を行う。
Hereinafter, the operation of this embodiment will be described using the block diagram of FIG. 1 and the cut-out example character pattern “fi” of FIG. 4A.

まず、2値パターン「fi」は文字パターン入力部100
で、入力される。
First, the binary pattern “fi” is input to the character pattern input unit 100.
Is entered.

つぎに外接矩形検出部101で、上記2値パターンにラ
ベリング処理を行い、同一ラベルの画素を検出し、当該
画素に外接する矩形を検出する。文字パターン「fi」の
外接矩形を第4図(a)に示す。
Next, the circumscribed rectangle detection unit 101 performs a labeling process on the binary pattern, detects a pixel having the same label, and detects a rectangle circumscribed to the pixel. FIG. 4A shows a circumscribed rectangle of the character pattern "fi".

この外接矩形の矩形内文字数検出部102は、矩形内の
文字が1文字であるかどうかすなわち、文字同士が接触
していないか、または文字同士が複雑に入り組んでいな
いかを検出する。検出の方法として入力文字パターン幅
が他の文字パターン外接矩形幅の平均値の2倍より小さ
いときは1文字と見なし、等しいかそれ以上のときは2
文字以上と見なす。2文字以上と見なされる入力文字パ
ターンは以下の処理を行い、1文字と見なされる文字
は、以下形状検出部103、文字推測部104、および文字切
り出し位置決定部105の処理を行わず、表示部106へ処理
を移す。
The number-of-characters-in-rectangle detection unit 102 of the circumscribed rectangle detects whether or not the characters in the rectangle are one character, that is, whether the characters are not in contact with each other or whether the characters are not complicated. As a detection method, when the input character pattern width is smaller than twice the average of the widths of the circumscribed rectangles of other character patterns, it is regarded as one character.
Assume at least characters. The following processing is performed on an input character pattern regarded as two or more characters, and a character regarded as one character is not processed by the shape detection unit 103, the character estimation unit 104, and the character cutout position determination unit 105. Move the processing to 106.

形状検出部103は、上記外接矩形の左辺の左上端を起
点として、左から右へ走査して最初に文字パターンとぶ
つかったところまでの距離を1次特徴とする(第4図
(b))。文字パターンとぶつからないときは、外接矩
形の幅を第1次特徴とする。同様に、外接矩形の左辺よ
り走査して、二度目に文字パターンとぶつかったところ
までの距離を2次特徴として用いる(第4図(c))。
文字パターンとぶつからないときは、外接矩形の幅を第
2次特徴とする。これを、外接矩形の底辺まで繰り返し
行う。
The shape detection unit 103 scans from left to right starting from the upper left end of the left side of the circumscribed rectangle, and has a primary characteristic as a distance to a position where the character pattern first meets the character pattern (FIG. 4B). . If it does not collide with the character pattern, the width of the circumscribed rectangle is taken as the primary feature. Similarly, scanning is performed from the left side of the circumscribed rectangle, and the distance to the second collision with the character pattern is used as a secondary feature (FIG. 4C).
If it does not collide with the character pattern, the width of the circumscribed rectangle is taken as the secondary feature. This is repeated up to the bottom of the circumscribed rectangle.

辞書107には、上記1次特徴、2次特徴とそれに対応
する横/縦比を記憶させておく。横/縦比は、予め標準
文字パターンの外接矩形の横/縦の比より求めた値であ
る。
The dictionary 107 stores the primary features, the secondary features, and the corresponding aspect ratios. The aspect ratio is a value previously obtained from the aspect ratio of the circumscribed rectangle of the standard character pattern.

つぎに文字推測部104で、入力文字パターンから求め
ら特徴量と予め標準パターンより作成した辞書107とを
比較して、もっとも特徴量の近い文字を捜し出す。入力
文字パターン「fi」の場合は、“1"という文字が得られ
る。
Next, the character estimating unit 104 compares the characteristic amount obtained from the input character pattern with the dictionary 107 created in advance from the standard pattern, and searches for a character having the closest characteristic amount. In the case of the input character pattern "fi", the character "1" is obtained.

文字切り出し位置決定部105では、前記文字推測部よ
り求められた文字の標準パターンの横/縦比に入力文字
パターンの高さ(第4図(d)の,ポイント400からポ
イント401)を掛けた値を計算し、入力パターンの左端
から当該値だけ右側の値を文字切り出し位置とする(第
4図(d)のポイント402からポイント403)。入力文字
パターン「fi」の場合は、“f"という文字を推測したこ
とより“f"の標準文字パターンの横/縦比に入力文字パ
ターン「fi」の高さを掛けた値を計算し、入力パターン
の左端から当該値だけ右側の位置になる。この位置より
外接矩形の右辺までが後ろの文字“i"の文字パターンと
なる。
The character cutout position determining unit 105 multiplies the horizontal / vertical ratio of the standard pattern of the character obtained by the character estimating unit by the height of the input character pattern (points 400 to 401 in FIG. 4D). A value is calculated, and a value on the right side of the input pattern from the left end by the value is set as a character cutout position (from point 402 to point 403 in FIG. 4D). In the case of the input character pattern "fi", a value obtained by multiplying the height / width of the input character pattern "fi" by the width / aspect ratio of the standard character pattern of "f" is calculated by guessing the character "f", The position is on the right side by the value from the left end of the input pattern. From this position to the right side of the circumscribed rectangle is the character pattern of the subsequent character "i".

つぎに、第2図および第3図に示すフローチャートに
基づいて本実施例の処理の流れを詳細に説明する。ステ
ップS200では、2値化された文字パターンが入力され
る。ステップS201においては、黒画素連結成分によって
文字パターンに外接する矩形枠を求める。ステップS202
においては、上記外接矩形内の文字数を検出する。ステ
ップS203においては、外接矩形内の文字の数が1つであ
るか判断する。正しい場合はステップS205へ、異なる場
合はステップS204へ処理を移す。ステップS204は、文字
の分離サブルーチンである。ステップS205では、全ての
外接矩形について処理を終了したか判断する。終了した
場合はステップS206へ、そうでない場合はステップS202
へ処理を移す。ステップS206は終了である。
Next, the processing flow of the present embodiment will be described in detail based on the flowcharts shown in FIGS. In step S200, a binarized character pattern is input. In step S201, a rectangular frame circumscribing a character pattern is determined by a black pixel connected component. Step S202
In, the number of characters in the circumscribed rectangle is detected. In step S203, it is determined whether the number of characters in the circumscribed rectangle is one. If it is correct, the process proceeds to step S205; otherwise, the process proceeds to step S204. Step S204 is a character separation subroutine. In step S205, it is determined whether the process has been completed for all circumscribed rectangles. If the process has been completed, the process proceeds to step S206; otherwise, the process proceeds to step S202.
Move the process to Step S206 ends.

文字の分離サブルーチンについて第3図のフローチャ
ートに示し、以下に説明する。ステップS301では、2文
字以上と判断された文字パターンが入力される。ステッ
プS302で水平文字パターンの第1次特徴および第2次特
徴を求める。つぎにステップS303において、文字の推測
を行う。ステップS304において、文字推測の決定により
文字切り出し位置を決める。
The character separation subroutine is shown in the flowchart of FIG. 3 and will be described below. In step S301, a character pattern determined to be two or more characters is input. In step S302, primary and secondary features of the horizontal character pattern are obtained. Next, in step S303, characters are estimated. In step S304, the character cutout position is determined by determining the character guess.

以上説明したように、本実施例においては切り出し位
置を文字の推測を行ってから決定するので精度の良い切
り出しが可能である。
As described above, in the present embodiment, the cutout position is determined after estimating the character, so that accurate cutout is possible.

発明の効果 本発明は、左側面形状を検出する形状検出部と文字推
測部により、まず入力文字パターンの文字推測を行うこ
とにより、入力文字パターンが接触していたり、文字の
外形が複雑な入力文字パターンであっても正しい文字切
り出しを行うことができ、さらに文字の推測をしたこと
により、光学式文字読み取りの認識率向上という効果を
得ることができることを特徴とした文字読み取り装置で
ある。
Advantageous Effects of the Invention The present invention provides a character detecting unit and a character estimating unit that detect the shape of a left side surface. First, character estimation of an input character pattern is performed. A character reading apparatus characterized in that correct character segmentation can be performed even for a character pattern, and that the effect of improving the recognition rate of optical character reading can be obtained by estimating characters.

【図面の簡単な説明】[Brief description of the drawings]

第1図は本発明の一実施例の文字読み取り装置の構成を
示すブロック図、第2図,第3図は同実施例のフローチ
ャート、第4図は同実施例により切り出し位置が決定さ
れるまでの説明のための文字パターン図、第5図は従来
例の説明のための文字パターン図である。 100……文字パターン入力部、101……外接矩形検出部、
102……矩形内文字数検出部、103……形状検出部、104
……文字推測部、105……文字切り出し位置決定部。
FIG. 1 is a block diagram showing the configuration of a character reading apparatus according to an embodiment of the present invention, FIGS. 2 and 3 are flowcharts of the embodiment, and FIG. 4 is a diagram until a cutout position is determined by the embodiment. FIG. 5 is a character pattern diagram for explaining a conventional example. 100: character pattern input unit, 101: circumscribed rectangle detection unit
102: Detecting unit for the number of characters in a rectangle 103: Detecting unit 104
... Character guessing section, 105... Character cutout position determining section.

Claims (3)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】認識対象文字パターンの左側面形状を検出
する形状検出部と、 前記形状検出部により検出された前記認識対象文字パタ
ーンの左側面形状より文字パターンを推測する文字推測
部と、 前記文字推測部により推測した文字パターンより文字の
切り出し位置を決定する文字切り出し位置決定部とを具
備し、 前記文字切り出し位置決定部により決められた切り出し
位置で1文字ごとに分離し文字抽出を行うようにしてな
る文字読み取り装置。
A shape detection unit configured to detect a left side shape of the recognition target character pattern; a character estimation unit configured to estimate a character pattern from a left side shape of the recognition target character pattern detected by the shape detection unit; A character cutout position determining unit that determines a character cutout position from the character pattern guessed by the character guessing unit, and performs character extraction by separating each character at the cutout position determined by the character cutout position determining unit. Character reading device.
【請求項2】文字切り出し位置決定部が、文字推測部に
より推測した文字パターンの標準パターンの横/縦比よ
り、文字切り出し位置を決定する請求項1記載の文字読
み取り装置。
2. The character reading device according to claim 1, wherein the character cutout position determining unit determines the character cutout position based on the horizontal / aspect ratio of the standard pattern of the character pattern estimated by the character estimating unit.
【請求項3】文字推測部が、文字パターンの左側面形状
と、横/縦比のデータを含む標準文字パターンが記憶さ
れた辞書を有する請求項1記載の文字読み取り装置。
3. The character reading device according to claim 1, wherein the character estimating unit has a dictionary in which a standard character pattern including data of a left side shape of the character pattern and data of an aspect ratio is stored.
JP2155982A 1990-06-14 1990-06-14 Character reader Expired - Fee Related JP2982221B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2155982A JP2982221B2 (en) 1990-06-14 1990-06-14 Character reader

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2155982A JP2982221B2 (en) 1990-06-14 1990-06-14 Character reader

Publications (2)

Publication Number Publication Date
JPH0452782A JPH0452782A (en) 1992-02-20
JP2982221B2 true JP2982221B2 (en) 1999-11-22

Family

ID=15617770

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2155982A Expired - Fee Related JP2982221B2 (en) 1990-06-14 1990-06-14 Character reader

Country Status (1)

Country Link
JP (1) JP2982221B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3346064B2 (en) * 1993-12-28 2002-11-18 セイコーエプソン株式会社 Inkjet cartridge

Also Published As

Publication number Publication date
JPH0452782A (en) 1992-02-20

Similar Documents

Publication Publication Date Title
US7580571B2 (en) Method and apparatus for detecting an orientation of characters in a document image
JP5600723B2 (en) Method and system for splitting characters in a text line having various character widths
US7146047B2 (en) Image processing apparatus and method generating binary image from a multilevel image
JP2982221B2 (en) Character reader
JPH0410087A (en) Base line extracting method
JP3276555B2 (en) Format recognition device and character reader
JPH04352295A (en) System and device for identifing character string direction
JP4136257B2 (en) Character recognition device, character recognition method, and storage medium
JPH04112283A (en) Character separating system
JP3411795B2 (en) Character recognition device
JP3095470B2 (en) Character recognition device
JP3457094B2 (en) Character recognition device and character recognition method
JPH07160810A (en) Character recognizing device
JP2630261B2 (en) Character recognition device
JP3000480B2 (en) Character area break detection method
JP3711186B2 (en) Size identification method and apparatus
JP4580520B2 (en) Character recognition method and character recognition apparatus
JP2715930B2 (en) Line detection method
JPH10162104A (en) Character recognition device
JPH07168911A (en) Document recognition device
JP2576080B2 (en) Character extraction method
JP3190794B2 (en) Character segmentation device
JP3071479B2 (en) Line spacing detection method
JP3276554B2 (en) Format recognition device and character reader
JPH06150062A (en) Character recognizing device

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees