JPH096915A - Character segmenting method - Google Patents

Character segmenting method

Info

Publication number
JPH096915A
JPH096915A JP8136478A JP13647896A JPH096915A JP H096915 A JPH096915 A JP H096915A JP 8136478 A JP8136478 A JP 8136478A JP 13647896 A JP13647896 A JP 13647896A JP H096915 A JPH096915 A JP H096915A
Authority
JP
Japan
Prior art keywords
character
standard
width
characters
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8136478A
Other languages
Japanese (ja)
Other versions
JP2728085B2 (en
Inventor
Mikio Aoki
三喜男 青木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP8136478A priority Critical patent/JP2728085B2/en
Publication of JPH096915A publication Critical patent/JPH096915A/en
Application granted granted Critical
Publication of JP2728085B2 publication Critical patent/JP2728085B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a character segmenting method which accuracy segment a character image wherein adjacent characters touch each other into the characters, one by one. SOLUTION: When connection components are extracted from a character image consisting of characters connected by whisker parts like 'milli' in (A), characters are extracted as one character. For the purpose, a peripheral distribution in a line direction is found in advance, standard character height is estimated, and 1/16 of it is found as line width to be disregarded. In the figure, (B) shows a peripheral distribution perpendicular to the line direction and in an area of >=508 in line width to be regarded, characters at character positions 511-517 in (C) and the intermediate points 521-526 of the characters are found from the peripheral distribution to obtain segmentation candidate positions, thereby estimating standard character width.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、紙面上に書かれた
文宇を画像として入力することにより、文字画像から文
字領域を捜し出し、コード番号に変換する文字認識装置
に用いられる文字切り出し方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character slicing method used in a character recognizing device for locating a character area in a character image and converting it into a code number by inputting a sentence written on a paper as an image. .

【0002】[0002]

【従来の技術】近年、文字認識装置の急激なる進歩によ
り、さまざまな文書画像から文字領域を自動的に抽出
し、さらに1つ1つの文字を切り出し、認識し、自動的
に文字ファイルが作成できるようになってきており、文
字の切り出し方法はさまざまな方法が考え出されてきて
いる。
2. Description of the Related Art In recent years, due to the rapid progress of character recognition devices, character areas can be automatically extracted from various document images, and individual characters can be cut out and recognized to automatically create character files. As a result, various methods have been devised for extracting characters.

【0003】例えば、一般に多く用いられている方法に
抽出文字行の行方向と垂直な方向の周辺分布を計数する
方法がある。
For example, a commonly used method is to count the peripheral distribution of the extracted character line in the direction perpendicular to the line direction.

【0004】例えば、図4(A)に示すような抽出文字
行の行方向と垂直な方向の周辺分布を計数する。この計
数において、計数値があった否か、すなわち、文字画像
が存在するか否かのみを図に示すと、図4(B)に示す
ような周辺分布が得られ、この周辺分布の値により、文
字の存在位置を知ることが可能となり、一文字一文字の
文字の切り出しを行なうことができる。しかしながら、
抽出文字行が図4(C)に示すように、周辺分布の重な
った文字においては、「Y]と「o」のように、重なっ
た文字の部分は文字幅が大きくなる。そこで、複数文字
と判断した場合には、文字ピッチにより文字の切れ目を
推定して、強制的に文字の切り出しを行なっていた。
For example, the peripheral distribution in the direction perpendicular to the line direction of extracted character lines as shown in FIG. 4A is counted. In this count, if only the presence or absence of a count value, that is, the presence or absence of a character image is shown in the figure, a marginal distribution as shown in FIG. 4B is obtained. , It becomes possible to know the existing position of the character, and the character can be cut out one by one. However,
As shown in FIG. 4C, in the case where the extracted character lines have overlapping peripheral distributions, the overlapping character portions have a large character width such as “Y” and “o”. Therefore, when it is determined that there are a plurality of characters, the character break is estimated based on the character pitch, and the character is forcibly cut out.

【0005】[0005]

【発明が解決しようとする課題】しかしながら、このよ
うな方法で文字の切り出しを行なう場合、対象文字画像
が、図4(A)に示すような定ピッチの文字画像におい
ては、正確に文字の切り出しが可能であるが、図4
(C)に示した様な文字画像、図5(A)に示したよう
な文字画像、図l1(A)に示したような文字画像にお
いては、正確な文字の切り出しは不可能である。図4
(C)の文字画像、図5(A)の文字画像、図l1
(A)の文字画像は、どれも文字ピッチ不定のプロポー
シヨナル文字である。したがって、従来の方法のよう
に、単に行方向と垂直な方向の周辺分布によるだけで
は、文字位置および文字ピッチを推定することができな
い。
However, when characters are cut out by such a method, when the target character image is a constant pitch character image as shown in FIG. 4 (A), the characters are accurately cut out. Is possible, but Fig. 4
In the character image as shown in FIG. 5C, the character image as shown in FIG. 5A, and the character image as shown in FIG. FIG.
(C) character image, FIG. 5 (A) character image, FIG.
Each of the character images in (A) is a proportional character whose character pitch is indefinite. Therefore, unlike the conventional method, it is not possible to estimate the character position and the character pitch simply by using the peripheral distribution in the direction perpendicular to the row direction.

【0006】図4(C)のような文字について、従来の
方法にて文字の切り出しを行なう場合について述べる。
図4(C)は、図4(A)と同ーのフォントの文字画像
である。図4(A)が文字ピッチがー定であるのに対
し、図4(C)は文字ピッチ不定のプロポーショナル文
字である。図4(C)の文字画像の行方向と垂直な方向
の周辺分布を示した図4(D)に着目すると、ほとんど
の部分で図4(A)の周辺分布である図4(B)とほぼ
同じであるが、「Yo」の周辺分布に相当する部分が異
なる。図4(D)は、「Y」の周辺分布と「o」の周辺
分布が重なってしまっている。したがってこのような周
辺分布からは、「Y」と「o」を1つの文字として判断
してしまうか、あるいは、実際と異った場所で切り離し
てしまう。今、仮に2つの文字と判断して強制的に2つ
の文字に分けようとした場合、文字ピッチに着目する
と、図12に示す1201で文字画像を分離し、周辺分
布の形状に着目すると、1202で文字画像を分離して
しまう。1201,1202のどちらの位置で文字画像
を分離しても、「Y」か「o」の文字の途中で切れ、別
の文字と一緒に抽出されてしまい、正確な文字の抽出は
不可能である。
A case will be described in which a character as shown in FIG. 4C is cut out by a conventional method.
FIG. 4C is a character image of the same font as FIG. 4 (A) has a constant character pitch, FIG. 4 (C) shows a proportional character with an indeterminate character pitch. Focusing on FIG. 4D showing the peripheral distribution in the direction perpendicular to the row direction of the character image of FIG. 4C, the peripheral distribution of FIG. 4A is almost the same as that of FIG. 4B. Although they are almost the same, the part corresponding to the peripheral distribution of “Yo” is different. In FIG. 4D, the peripheral distribution of “Y” and the peripheral distribution of “o” overlap each other. Therefore, from such a peripheral distribution, "Y" and "o" are judged as one character, or they are separated at a place different from the actual one. Now, if it is decided that two characters are forcibly divided into two characters and the character pitch is focused, the character images are separated at 1201 shown in FIG. 12, and if the shape of the peripheral distribution is focused, 1202 Will separate character images. No matter which position 1201 or 1202 the character image is separated from, the character "Y" or "o" will be cut off in the middle and will be extracted together with another character, making it impossible to accurately extract the character. is there.

【0007】次に、図5(A)に示した文字画像より、
従来の方法により文字の切り出しを行なう場合について
述べる。図5(A)は「million」という7つの
文字により構成される単語である。この単語の行方向と
垂直な方向の周辺分布を計数して計数値を図示すると図
5(B)に示すように、「m」,「i」,「l」,
「l」,「i」の5つの文字の周辺分布501,50
2,503,504,505は連なって一つの周辺分布
の固まりとなっている。したがって、この周辺分布から
は簡単に文字の切れ目を推定することは不可能である。
文字ピッチにより文字の切り離しを行なうようにする
と、「i」,「l」等の文字は標準文字幅の半分の大き
さであるので、2つの文字で1つの文字と判断してしま
い、一緒に切り出される可能性が大きい。また、周辺分
布の形状で判断して切り離すと、「i」,「l」等の文
字はうまく切り離せるかもしれないが、「m」を分解す
る可能性が大であり、文字の切り出しの信頼性が極めて
小さい。
Next, from the character image shown in FIG.
A case where a character is cut out by a conventional method will be described. FIG. 5 (A) is a word composed of seven characters "million". When the peripheral distribution of this word in the direction perpendicular to the line direction is counted and the count value is illustrated, as shown in FIG. 5B, “m”, “i”, “l”,
Peripheral distributions 501 and 50 of five characters "l" and "i"
2, 503, 504, and 505 are linked to form a single peripheral distribution block. Therefore, it is impossible to easily estimate character breaks from this marginal distribution.
If the characters are separated by the character pitch, the characters such as "i" and "l" are half the standard character width, so two characters are judged as one character, and It is likely to be cut out. In addition, if you judge by the shape of the marginal distribution and separate it, you may be able to separate the characters such as "i" and "l" well, but there is a high possibility that "m" will be decomposed, and the reliability of character cutting The sex is extremely small.

【0008】また、図11(A)に示した文字画像の場
合も、図5の場合と同様に周辺分布の形状のみからは文
字の正確な切り出しは不可能である。
Also in the case of the character image shown in FIG. 11A, it is impossible to accurately cut out the character only from the shape of the peripheral distribution, as in the case of FIG.

【0009】本発明は、上述したような問題を解決する
もので、その目的とするところは、隣同士の文字が接触
した文字画像から1つ1つの文字を正確に切り出す方法
を提供することにある。
The present invention solves the above-mentioned problems, and an object of the present invention is to provide a method for accurately cutting out each character from a character image in which adjacent characters are in contact with each other. is there.

【0010】[0010]

【課題を解決するための手段】請求項1に記載の発明
は、光学的画像入力手段により紙面等に書かれた欧米文
字画像を読み取り、入力された画像データ中の文字を認
識する文字認識装置の文字切り出し方法において、行方
向の周辺分布より文字の標準文字高を推定するととも
に、該標準文字高に基づいて無視する線幅の値を決定
し、前記行方向と垂直な方向の周辺分布で、該周辺分布
の値が前記無視する線幅の値より大きい部分の統計をと
ることにより、標準文字幅を推定することを特徴とする
ものである。
According to a first aspect of the present invention, there is provided a character recognition device for reading a Western character image written on a paper surface or the like by an optical image input means and recognizing a character in the input image data. In the character cutout method, the standard character height of the character is estimated from the marginal distribution in the line direction, the value of the line width to be ignored is determined based on the standard character height, and the marginal distribution in the direction perpendicular to the line direction The standard character width is estimated by taking statistics of a portion where the value of the marginal distribution is larger than the value of the ignored line width.

【0011】請求項2に記載の発明は、請求項1に記載
の文字切り出し方法において、前記統計により、前記周
辺分布の値が前記標準文字高のほぼ半分より大きい領域
において、標準文字幅を推定することを特徴とするもの
である。
According to a second aspect of the present invention, in the character cutting method according to the first aspect, the standard character width is estimated by the statistics in a region where the value of the marginal distribution is larger than approximately half of the standard character height. It is characterized by doing.

【0012】請求項3に記載の発明は、請求項2に記載
の文字切り出し方法において、前記統計における固まり
の分布は、固まりと固まりとの距離が、前記標準文字高
に比例した所定の値以下であれば同一の固まりとみなす
ことを特徴とするものである。
The invention according to claim 3 is the character cutting method according to claim 2, wherein the distribution of the clusters in the statistics is such that the distance between clusters is less than or equal to a predetermined value proportional to the standard character height. If so, they are regarded as the same lump.

【0013】[0013]

【発明の実施の形態】以下、本発明について実施の形態
に基づいて詳細に説明する。
BEST MODE FOR CARRYING OUT THE INVENTION The present invention will be described in detail below based on embodiments.

【0014】文字切り出しの全体プロセスの概要の一例
は、光学的画像入力手段により紙面等に書かれた文字画
像を読み取り、入力された画像デー夕中の文字を認識し
てコード番号に置き換える文字認識装置に用いられるも
のであり、 行方向の周辺分布より文字の標準文字高を推定し、無
視する線の太さ決める。 行方向と垂直な方向の周辺
分布より、標準文字間隔、単語間隔および標準文字幅を
推定し、単語の抽出を行ない、 前記周辺分布より文字切り出し候補位置を推定し、 前記抽出単語中の文字の切り出しは文字の連結成分の
輪郭を抽出するとともに、文字高および文字幅を抽出
し、 文字幅が標準文字幅から許容できる大きさを越える場
合には、前記文字切り出し候補位置の範囲内にて再度輪
郭の抽出を行ない、 前記文字切り出し候補位置が存在しない場合いには、
行方向と垂直な方向の周辺分布により文字切り出しの範
囲を決め再度輪郭の抽出を行ない、 該輪郭に囲まれた領域の内側のみを抽出することによ
り文字の切り出しを行なう。
An example of the outline of the whole process of character extraction is a character recognition in which a character image written on a paper surface or the like is read by an optical image input means, a character in the input image data is recognized and replaced with a code number. It is used for the device, and the standard character height of characters is estimated from the peripheral distribution in the line direction, and the line thickness to be ignored is determined. From the peripheral distribution in the direction perpendicular to the line direction, the standard character interval, the word interval and the standard character width are estimated, the words are extracted, the character cutout candidate positions are estimated from the peripheral distribution, and the characters in the extracted words are extracted. Extraction is performed by extracting the contour of the connected component of the character, extracting the character height and the character width, and if the character width exceeds the allowable size from the standard character width, re-extracts within the range of the character extraction candidate position. When the outline is extracted and the character cutout candidate position does not exist,
The range of the character cutout is determined by the peripheral distribution in the direction perpendicular to the line direction, the contour is extracted again, and the character is cut out by extracting only the inside of the area surrounded by the contour.

【0015】文字の標準文字高は、行方向の周辺分布の
形に着目し、周辺分布が急激に変化して大きくなってい
る部の幅を標準文字高とし、該標準文字高の大きさよ
り、文字線の最低線幅を推定することができる。
Regarding the standard character height of a character, paying attention to the shape of the peripheral distribution in the line direction, the width of the portion where the peripheral distribution changes rapidly and becomes large is defined as the standard character height. The minimum line width of the character line can be estimated.

【0016】行方向と垂直な方向の周辺分布で文字の存
在しない部分の大きさの統計をとることにより、標準文
字間隔および単語間隔を推定することができる。
The standard character interval and the word interval can be estimated by taking the statistics of the size of the portion where no character exists in the peripheral distribution in the direction perpendicular to the line direction.

【0017】行方向と垂直な方向の周辺分布で、周辺分
布の値が前記最低線幅より大きい部分の大きさの統計を
とることにより、標準文字幅を推定することができる。
The standard character width can be estimated by taking statistics of the size of the peripheral distribution in the direction perpendicular to the line direction and the value of the peripheral distribution being larger than the minimum line width.

【0018】標準文字幅の惟定は、前記統計で、標準文
字高の75%よりも大きい領域において、標準文字高に
最も近い固まりの最大値とすることができる。
The standard character width can be determined as the maximum value of the cluster closest to the standard character height in the area larger than 75% of the standard character height in the above statistics.

【0019】前記統計中の固まりの分類は、固まりと固
まりとの距離が、標準文字高に比例したある値以下であ
れば同一の固まりとみなすことができる。
The classification of lumps in the above statistics can be regarded as the same lump if the distance between lumps is less than a certain value proportional to the standard character height.

【0020】前記標準文字間隔および単語間隔と、行方
向と垂直な方向の周辺分布とを比較することにより単語
の位置の抽出を行なうことができる。
By comparing the standard character spacing and the word spacing with the marginal distribution in the direction perpendicular to the line direction, the word position can be extracted.

【0021】行方向と垂直な方向の周辺分布で、周辺分
布の値が前記最低線幅より小さい部分の、各々の中心部
分を文字切り出し候補位置とすることができる。
In the peripheral distribution in the direction perpendicular to the row direction, the central portion of each of the peripheral distribution values smaller than the minimum line width can be used as character cutout candidate positions.

【0022】抽出文字幅より連結文字と判断した場合、
前記文字切り出し候補位置を優先に切り出すことができ
る。
When it is determined that the characters are connected characters based on the extracted character width,
The character cutout candidate position can be cut out preferentially.

【0023】周辺分布の値より文字切り出し位置を推定
する場合、1/2文字幅付近およびl文字幅付近で最も
周辺分布の値の小さいところを求めることができる。
When the character cut-out position is estimated from the value of the marginal distribution, it is possible to obtain the portion having the smallest value of the marginal distribution near the 1/2 character width and the l character width.

【0024】文字の輪郭に囲まれた領域の抽出は、原画
像と同じ大きさの画像領域を設け、該画像領域に文字の
輪郭を描き、輪郭の内側を塗りつぶした後に原画像との
共通部分をとることにより、対象文字のみを抽出するが
できる。
The extraction of the area surrounded by the outline of the character is performed by providing an image area of the same size as the original image, drawing the outline of the character in the image area, and filling the inside of the outline, and then the common part with the original image. By taking, it is possible to extract only the target character.

【0025】文字切り出し手段が構成要素となる文字認
識装置は、図1のブロック図に示すように、CPU10
1、画像入力装置102、認識文字表示装置103、R
OM104、RAM105により横成されている。
As shown in the block diagram of FIG. 1, a character recognition device having a character cutting means as a constituent element is a CPU 10
1, image input device 102, recognized character display device 103, R
It is composed of an OM 104 and a RAM 105.

【0026】以下、画像入力装置l02によりRAMl
05に読み込まれた文字画像中よリ1つ1つの文字を切
り出す文字切り出し方法を、図2に示すフローチャー卜
に基づいて詳細に説明する。
Thereafter, the RAM 1 is used by the image input device 102.
A character cutting method for cutting out each character from the character image read in 05 will be described in detail based on the flowchart shown in FIG.

【0027】画像入力装置102によりRAM105に
読み込まれた文字画像を図3(A)とする。まず最初
に、行方向の周辺分布を計数する。文字画像図3(A)
の行方向の周辺分布を計数すると、図3(B)の301
のような形状の周辺分布を得る。欧米文字は、図3
(A)の「d」に相当する文字高の大きな文字、「e」
に相当する文字高の小さな文字、「y」に相当する文字
高は大きいが文字位置が低い文字の3種類の文字から構
成されている。したがって、この3種類の文字から構成
されている文字画像の行方向の周辺分布を計数すると、
通常図3(B)に示す301の様な形状の周辺分布とな
る。周辺分布301は、311,312,3l3の3つ
の領域が合わさってできており、文字画像によっては、
312の領域あるいは313の領域が存在しない場合が
ある。しかしながら、311の領域は常に存在し、この
領域の上限302と下限303との間の幅304は、文
字高の小さな文字の高さ(以下、「標準文字高」と呼
ぶ。)に相当する。したがって、行方向の周辺分布の形
状に着目することにより、標準文字高を知ることが可能
となる。
A character image read into the RAM 105 by the image input device 102 is shown in FIG. First, the marginal distribution in the row direction is counted. Character image Figure 3 (A)
When the peripheral distribution in the row direction is counted, it is 301 in FIG.
The marginal distribution of the shape is obtained. Western characters are shown in Figure 3.
A character with a large character height corresponding to "d" in (A), "e"
It is composed of three types of characters: a character having a small character height corresponding to, and a character having a large character height corresponding to “y” but having a low character position. Therefore, when the peripheral distribution in the row direction of the character image composed of these three types of characters is counted,
Usually, the peripheral distribution has a shape like 301 shown in FIG. The marginal distribution 301 is made up of three regions 311, 312, and 3l3, and depending on the character image,
In some cases, the area 312 or the area 313 does not exist. However, the area 311 always exists, and the width 304 between the upper limit 302 and the lower limit 303 of this area corresponds to the height of a character having a small character height (hereinafter, referred to as “standard character height”). Therefore, it is possible to know the standard character height by paying attention to the shape of the peripheral distribution in the row direction.

【0028】また、印刷欧米活字は、標準文字高と文字
線の太さとの間に、通常、 標準文字高:文字線の太さ≧16:1 の関係が成り立つ。したがって、文字画像の垂直方向の
周辺分布に着目した場合、周辺分布の値が標準文字高の
1/16よりも低い値の部分は文字のひげ部分であり、
あるいは、文字が接触している部分であると判断でき
る。ここで、判断の基準となる標準文字高の1/16の
値を無視する線幅として求めておく。
In the case of printed Western characters, the standard character height and the character line thickness usually have a relationship of standard character height: character line thickness ≧ 16: 1. Therefore, when paying attention to the vertical marginal distribution of the character image, the portion where the marginal distribution value is lower than 1/16 of the standard character height is the whiskers of the character,
Alternatively, it can be determined that the characters are in contact with each other. Here, the value of 1/16 of the standard character height, which is the criterion for determination, is obtained as the line width to be ignored.

【0029】次の段階として、文字行の垂直方向の周辺
分布により標準文字間隔、単語間隔および標準文字幅を
求める。まず最初に、文字行と垂直な方向に投影した場
合、文字画像が存在するか否かのデータを求める。文字
画像を図4(A)とした場合、文字画像が存在するか否
かのデータすなわち文字画像と垂直の方向に投影したデ
ータは図4(B)である。領域401は文字画像が存在
する部分、領域402は文字画像が存在しない部分、す
なわち文字間隔に相当する部分である。文字が存在しな
い部分402の統計をとると、図6(A)のようにな
る。同様に、文字画像を図4(C)とした場合の投影し
たデータ図4(D)の文字画像が存在しない部分402
の統計をとると、図6(B)のようになる。図6
(A)、図6(B)の実線で示されたデータは、図4
(B)、図4(D)のデータをそれぞれ示すが、一般に
文字間隔のヒストグラムは、図6(A)、図6(B)に
示した点線で示される傾向になる。この2つのヒストグ
ラムは、それぞれ2つの固まりに分けることが可能であ
る。この固まりは、1つは文字間隔の固まり、もう1つ
は単語間隔の固まりと判断することができる。したがっ
て、文字間隔の統計により標準文字間隔および単語間隔
を推定することが可能となる。一般に文字間隔のヒスト
グラムは、図6のようなヒストグラムになるが、時とし
て図8のようなヒス卜グラムを得ることがある。ヒス卜
グラムには、データの固まりがいくつもある。このよう
に固まりが多く存在する場合には、次の方法にて固まり
を分類する。印刷欧米文字は通常規則正しく並んで印刷
されている。
In the next step, the standard character spacing, the word spacing, and the standard character width are obtained from the vertical distribution of the character lines. First, when the image is projected in the direction perpendicular to the character line, the data as to whether or not the character image exists is obtained. When the character image is shown in FIG. 4A, the data as to whether or not the character image exists, that is, the data projected in the direction perpendicular to the character image is shown in FIG. 4B. An area 401 is a portion where a character image exists, and an area 402 is a portion where no character image exists, that is, a portion corresponding to a character interval. The statistics of the portion 402 in which no character exists are as shown in FIG. 6 (A). Similarly, the projected data when the character image is shown in FIG. 4C. The portion 402 in FIG. 4D where the character image does not exist.
6B is obtained by taking the statistics of. Figure 6
The data shown by the solid lines in (A) and FIG.
The data in (B) and FIG. 4 (D) are shown respectively, but generally, the histogram of the character spacing tends to be indicated by the dotted line shown in FIGS. 6 (A) and 6 (B). Each of these two histograms can be divided into two chunks. One of these clusters can be determined as a cluster of character intervals, and the other can be determined as a cluster of word intervals. Therefore, it is possible to estimate the standard character spacing and the word spacing by the character spacing statistics. Generally, the histogram of the character spacing becomes a histogram as shown in FIG. 6, but sometimes a histogram as shown in FIG. 8 is obtained. The Histogram has many data chunks. If there are many lumps in this way, the lumps are classified by the following method. Printing Western characters are usually printed in regular rows.

【0030】したがって、文字間隔はほぼ等しい筈であ
るが、時として文字の形により文字間隔が異なる場合が
生じる。しかしながら、その問隔は、標準文字高に比例
したある値以上にちらばることはない。したがって、標
準文字高の1/16を固まりと固まりの距離のしきい値
805とした。しきい値805と、固まり811,81
2,813,814,815の間隔801,802,8
03,804とを比較することにより、固まり811と
8l2は同一の固まり、固まり813と814と8l5
は同一の固まりと判断でき、標準文字問隔および単語間
隔の推定が可能となる。
Therefore, although the character spacing should be almost the same, sometimes the character spacing varies depending on the character shape. However, the gap is not more than a certain value proportional to the standard character height. Therefore, 1/16 of the standard character height is set as the threshold value 805 for the distance between clusters. Threshold value 805 and lumps 811, 81
2,813,814,815 spacing 801,802,8
By comparing 03, 804, the lumps 811 and 8l2 are the same lumps, and the lumps 813, 814 and 8l5.
Can be judged to be the same block, and the standard character spacing and word spacing can be estimated.

【0031】次に、文字画像の標準文字幅を推定する。
標準文字幅を推定できれば、文字の切り出し時において
1文字か連結文字かの判断、および、切り出し候補位置
を推定する手掛りとなる。標準文字幅の推定は、標準文
字間隔および単語間隔の推定と同様に文字領域の統計を
とる。仮に、文字画像が図4(A)および図4(C)の
場合、文字幅の統計は図7(A)および図7(B)の実
線のようになり、一般的に点線で示した傾向のデー夕を
得る。図7(A)に示したデータは、固まりが1つであ
るため、この固まりの最大値を標準文字幅とすることが
できる。図7(B)に示したデータにおいては、固まり
702と固まり703の2つの固まりが存在する。通
常、印刷欧米文字は、標準文字幅が標準文字高に非常に
近い値であるので、標準文字高701の付近の固まり7
02の最大値を標準文字幅とすることが可能となる。ま
た、文字間隔の推定時と同様に、時としてヒス卜グラム
が多くの固まりからなる場合、図9においては、固まり
と固まりの距離901,902,903としきい値90
4とを比較することによって、固まり9ll,固まり9
12および固まり913は同一の固まりと判断すること
が可能である。さらに、固まりと固まりの間のしきい値
でもって多くの固まりを分類しても、図10の様な3つ
の固まりになることがある。統計の結果が図10のよう
になるのは、文字画像中に「i」や「l」等の文字が含
まれているからである。
Next, the standard character width of the character image is estimated.
If the standard character width can be estimated, it can be used as a clue for determining whether a character is a single character or a concatenated character when cutting out a character, and for estimating a cutout candidate position. The estimation of the standard character width takes statistics of the character area similarly to the estimation of the standard character spacing and the word spacing. If the character images are as shown in FIGS. 4A and 4C, the character width statistics are as shown by the solid lines in FIGS. 7A and 7B, which are generally indicated by dotted lines. Get a day evening. Since the data shown in FIG. 7A has only one lump, the maximum value of this lump can be set as the standard character width. In the data shown in FIG. 7B, there are two clusters, a cluster 702 and a cluster 703. Normally, the standard character width of printed Western characters is very close to the standard character height.
The maximum value of 02 can be set as the standard character width. In addition, as in the case of estimating the character spacing, when the Histogram sometimes consists of many lumps, in FIG. 9, the distances 901, 902 and 903 between the lumps and the lumps and the threshold 90
By comparing with 4, the mass 9ll, the mass 9
12 and the lump 913 can be determined to be the same lump. Furthermore, even if many lumps are classified by the threshold value between lumps, there may be three lumps as shown in FIG. The reason why the statistical result is as shown in FIG. 10 is that characters such as “i” and “l” are included in the character image.

【0032】そこで、「i」や「l」等の固まり100
1の最大値を標準文字幅と判断しないように、標準文字
幅の75%の位置1004よりも大きい領域において固
まりの最大値を探す。こうすることにより、標準文字幅
の約半分の幅の「i」や「l」の固まりを除外し、正確
に標準文字幅を推定することを可能にした。以上のよう
にして、通常の文字画像の文字幅の推定は可能となる
が、文字画像の中には図5(A)に示したような文字画
像が存在する。この文字画像は、「m」,「i」,
「l」,「l」,「i」,「o」,「n」の7つの文字
より横成されており、そのうち「m」,「i」,
「l」,「l」,「i」の5の文字が接触している。し
たがって、標準文字幅の推定のために行方向と垂直な方
向の周辺分布を計数しても、標準文字幅の推定は不可能
である。
Then, a mass 100 of "i", "l", etc.
In order not to judge the maximum value of 1 as the standard character width, the maximum value of the cluster is searched for in an area larger than the position 1004 which is 75% of the standard character width. By doing so, it is possible to accurately estimate the standard character width by excluding clusters of "i" and "l" having a width that is about half the standard character width. As described above, the character width of a normal character image can be estimated, but the character image has a character image as shown in FIG. 5 (A). This character image is "m", "i",
It is composed of seven characters, "l", "l", "i", "o", and "n", of which "m", "i",
The five letters "l", "l", and "i" are in contact. Therefore, even if the peripheral distribution in the direction perpendicular to the line direction is counted to estimate the standard character width, the standard character width cannot be estimated.

【0033】そこで本発明では、印刷欧米文字におい
て、文字線幅は標準文字高に比例したある値以上の太さ
を持ち、図5(A)に見られる底辺部のひげの部分は、
ある値よりも細い線であることに着目し、行方向と垂直
な方向の周辺分布図5(B)を計数した後、標準文字高
に比例したある値508でもって無視する線幅を決め
て、周辺分布を切り捨てる過程を設ける。この過程によ
り、ある値508よりも周辺分布の値が大きくなる部分
のみを文字領域と判断して、文字領域を表示すると、図
5(C)に示すようになる。511,512,513,
514,515,5l6,5l7はそれぞれ「m」,
「i」,「l」,「l」,「i」,「o」,「n」の文
字位置および文字幅を示す。5l1〜5l7の7つのデ
ータは、実際の文字幅よりも多少小さめではあるが、文
字として必要な情報の部分は必ず含んでおり、これらの
領域を文字領域と判断することが可能となる。したがっ
て、このデータ図5(C)の文字領域の統計をとること
により、標準文字幅の推定が可能となる。
Therefore, in the present invention, in the printed Western characters, the character line width has a thickness larger than a certain value in proportion to the standard character height, and the whisker part at the bottom shown in FIG.
Paying attention to the line being thinner than a certain value, after counting the peripheral distribution chart 5 (B) in the direction perpendicular to the line direction, the line width to be ignored is determined with a certain value 508 proportional to the standard character height. , The process of rounding down the marginal distribution is established. By this process, only the portion where the value of the peripheral distribution is larger than a certain value 508 is determined as the character region, and the character region is displayed, as shown in FIG. 5C. 511, 512, 513,
514, 515, 5l6 and 5l7 are respectively "m",
The character positions and character widths of "i", "l", "l", "i", "o", and "n" are shown. Although the seven data 511 to 517 are slightly smaller than the actual character width, they always include a portion of information required as a character, and these areas can be determined to be character areas. Therefore, the standard character width can be estimated by taking statistics of the character area of this data FIG. 5 (C).

【0034】次に、文字画像より単語の抽出を行なう。
単語の抽出は、前記標準文字間隔および単語間隔と、文
字行の垂直方向の周辺分布とを比較する。文字画像が図
4(A)の場合、周辺分布は図4(B)であることによ
り、その文字の存在していない部分の大きさから単語間
隔を見つけることが可能となり、文字画像中からの単語
の抽出が可能となる。
Next, words are extracted from the character image.
To extract words, the standard character spacing and word spacing are compared with the vertical marginal distribution of character lines. When the character image is as shown in FIG. 4 (A), the marginal distribution is as shown in FIG. 4 (B), which makes it possible to find the word interval from the size of the portion where the character does not exist. It becomes possible to extract words.

【0035】次に、抽出単語から1文字ごとの抽出を連
結成分を抽出することにより行なうわけであるが、ここ
でまた問題がある。今仮に、抽出単語が図5(A)のよ
うな文字画像であるとする。この場合、連結成分の抽出
を行なうと「milli」の5つの文字を1文字として
抽出してしまう。この抽出文字はその文字幅から連結文
字と判断し、途中で強制的に切り離さなければならな
い。切り離し位置は、通常、標準文字幅付近の周辺分布
の値の小さいところで行なわれる。ところが、図5
(A)の場合、「m」や「i」,「l」といった文字が
含まれている。このような文字においては、「i」や
「l」の文字は標準文字幅の半分の幅であるため、2文
字連なると1文字分の幅となり2文字が一緒に切り出さ
れてしまい、また「m」の場合、標準文字幅の付近にお
いて一度周辺分布の値がかなり小さくなっているため文
字の切れ目と判断され、途中で切り離されてしまう可能
性が非常に大きい。
Next, the extraction of each character from the extracted word is performed by extracting the connected component, but this also has a problem. Now, suppose that the extracted word is a character image as shown in FIG. In this case, when the connected components are extracted, the five characters "milli" are extracted as one character. This extracted character must be judged as a concatenated character based on its character width, and must be forcibly separated in the middle. The cut-off position is usually performed at a small peripheral distribution value near the standard character width. However, Figure 5
In the case of (A), characters such as "m", "i", and "l" are included. In such characters, since the characters "i" and "l" have a width half the standard character width, two characters in a row have a width of one character and two characters are cut out together. In the case of “m”, since the value of the marginal distribution is once small in the vicinity of the standard character width, it is judged to be a character break, and there is a high possibility that the character will be separated in the middle.

【0036】そこで、図5(B)の周辺分布で標準文字
高に比例したある値508以上の領域図5(C)の文字
位置511〜5l7の文字と文字の中間点521〜52
6を求めて切り出し候補位置とする。この切り出し候補
位置521〜526は図5からも明らかなように文字と
文字の境を表わしている。したがって、文字の切り出し
時において、文字の大きさが標準文字幅から許容できる
大きさよりも大きい場合にはこのような切り出し位置を
用いることにより文字の切り出しが可能となり、間違っ
た位置での文字の切り出しが極めて滅少する。
Therefore, in the marginal distribution of FIG. 5B, a region having a certain value 508 or more in proportion to the standard character height, the characters at the character positions 511 to 51 in FIG. 5C and the intermediate points 521 to 52 of the characters.
6 is obtained and set as a cutout candidate position. The cut-out candidate positions 521 to 526 represent boundaries between characters as is clear from FIG. Therefore, when cutting out a character, if the size of the character is larger than the allowable size from the standard character width, it is possible to cut out the character by using such a cutting position, and cutting out the character at the wrong position. Is extremely diminished.

【0037】次に、一文字一文字の文字の抽出を行な
う。文字の抽出は、連結成分を抽出することによって行
なっている。欧米文字は、殆どの文字が1つの連結成分
であり、連結成分が1つでない文字においても、主な連
結成分のみでたいていの文字は判断できるため、この方
法は効果的である。連結成分の抽出は、最初に連結成分
の輪郭を抽出する。輪郭を抽出することにより、文字の
位置および大きさの情報が得られる。輪郭の抽出が行な
われると、すでに求められた標準文字幅と、抽出した文
字幅とを比較する。
Next, each character is extracted. Extraction of characters is performed by extracting connected components. Most of Western characters have one connected component, and most of the characters can be judged only by the main connected component, even if the character does not have one connected component. Therefore, this method is effective. The extraction of the connected component first extracts the contour of the connected component. By extracting the contour, information on the position and size of the character can be obtained. When the contour is extracted, the already-obtained standard character width is compared with the extracted character width.

【0038】抽出した文字幅が標準文字幅より許容でき
る大きさである場合には、抽出した文字を1文字と判断
して1文字を抽出する。抽出した文字幅が標準文字幅よ
り許容できない大きさの場合には、先ず、抽出領域中に
切り出し候補位置が存在するか否かを調べる。もし、切
り出し候補位置が存在していれば、その位置において文
字を切り出すのが最も適切であるためその位置の範囲内
において再度連結成分の文字の輪郭の抽出を行なう。
If the extracted character width is larger than the standard character width, the extracted character is judged as one character and one character is extracted. When the extracted character width is larger than the standard character width, it is first checked whether or not a cutout candidate position exists in the extraction area. If the cutout candidate position exists, it is most appropriate to cut out the character at that position, and therefore the outline of the character of the connected component is extracted again within the range of that position.

【0039】また、文字画像が図11(A)のような文
字画像であった場合(この文字画像においては、標準文
字高に対する一定の大きさll10よりも周辺分布の小
さい領域の中問点は1121〜1125の5箇所しか存
在しない。しかしながら、文字は9文字存在する。)、
文字画像l152の輪郭抽出を行なうと、標準文字幅よ
り許容できない文字幅と判断される。そこで、切り出し
候補位置の存在を確認する。しかし文字画像1152の
周辺分布1142は無視する線幅1110よりも小さく
なる値を文字の途中にもっていないので切り出し候補位
置は存在しない。この場合、抽出文字の周辺分布l14
2の標準文字幅付近の値に着目する。それにより、文字
「a」と「r」の接触部分1131を探すことが可能と
なり、一文字一文字の文字の切り出しが可能となる。同
様に切り出しを繰り返して、図11においては、l12
1〜1l25の5箇所の切り出し候補位置の他に、11
31〜1133の3箇所の切り出し位置を抽出し、9つ
の文字を正確に切り出すことが可能となる。
Further, when the character image is a character image as shown in FIG. 11A (in this character image, the middle question point in the area where the peripheral distribution is smaller than the constant size 1110 with respect to the standard character height is There are only 5 positions 1121 to 1125. However, there are 9 characters.),
When the contour of the character image 1152 is extracted, it is determined that the character width is unacceptable than the standard character width. Therefore, the existence of the extraction candidate position is confirmed. However, since the marginal distribution 1142 of the character image 1152 does not have a value smaller than the ignored line width 1110 in the middle of the character, there is no cutout candidate position. In this case, the marginal distribution l14 of the extracted characters
Pay attention to the value near the standard character width of 2. Thereby, it is possible to search for the contact portion 1131 of the characters “a” and “r”, and it is possible to cut out each character. Similarly, the clipping is repeated, and in FIG.
In addition to the five cut-out candidate positions of 1-1125, 11
It is possible to accurately extract nine characters by extracting three cut-out positions 31 to 1133.

【0040】また、文字の連結成分の輪郭を抽出した
後、抽出した文字幅が1文字幅である場合には文字の抽
出を行なう方法であるので、例えば図l2(A)のよう
な文字画像においても何の問題も無く文字の抽出を行な
える。この文字画像は「Y」,「o」,「u」という3
つの無接触の文字である。しかしながら、周辺分布図1
2(B)においては、「Y」と「o」の周辺分布が重な
って1つの周辺分布1203を形成している。ここで従
来のように周辺分布l203の形状から文字を強制的に
切り離そうとすると、l202の位置で切り離すことに
なる。また、周辺分布の大きさにより切り離そうとする
と、l201の位置で切り離すことになってしまう。い
ずれの位置にせよ、文字を不適切な位置で切り離してし
まう結果になるが、この方法では、全く問題は生じな
い。
Further, after the contour of the connected component of the character is extracted, if the extracted character width is one character width, the character is extracted. Therefore, for example, a character image as shown in FIG. In, you can extract characters without any problems. This character image is called "Y", "o", "u".
It is one contactless character. However, the peripheral distribution map 1
In FIG. 2B, the peripheral distributions of “Y” and “o” are overlapped with each other to form one peripheral distribution 1203. If the character is forcibly separated from the shape of the peripheral distribution 1203 as in the conventional case, the character is separated at the position of 1202. Also, if an attempt is made to separate depending on the size of the peripheral distribution, the separation will occur at the position of l201. Either position will result in the character being cut off at an improper position, but this method does not cause any problems.

【0041】文字の連結成分の輪郭抽出が適当な大きさ
で行なわれた後は、文字の連結成分の抽出を行なう。文
字画像と同じ大きさの領域をもう1つ設けてある。図1
3(A)の文字画像1301より「P」という文字を抽
出するにあたって、先ず図13(A)の「P」という文
字の輪郭を別の領域1302に描く。次に、この輪郭に
よって囲まれた領域を塗りつぶし、図13(B)を得
る。この後、原画像図13(A)と抽出文字領域の画像
図13(B)との共通部分を抽出することにより、図1
3(C)に示した画像を得る。この画像図13(C)を
見てわかるように、位置的に重なっている「P」と
「e」の画像から、「P」の画像のみをきれいに抽出す
ることが可能となっている。
After the contour of the connected component of the character is extracted with an appropriate size, the connected component of the character is extracted. Another area of the same size as the character image is provided. FIG.
When extracting the character “P” from the character image 1301 of FIG. 3A, first, the outline of the character “P” of FIG. 13A is drawn in another area 1302. Next, the area surrounded by this contour is painted out to obtain FIG. After that, by extracting a common part between the original image FIG. 13A and the extracted character region image FIG.
The image shown in FIG. 3 (C) is obtained. As can be seen from this image FIG. 13C, it is possible to cleanly extract only the image of “P” from the images of “P” and “e” that are positionally overlapped.

【0042】以上述べたように、本発明によれば、行方
向の周辺分布により標準文字高および無視する線幅を求
め、この値を参考に標準字間隔および単語間隔、標準文
字幅を求めるので、正確な標準文字間隔および単語間
隔、標準文字幅が求まる。その結果、正確な単語切り出
しが可能となる。また、文字切り出し時においては、標
準文字幅と比較しながら、切り出し候補位置および周辺
分布を参考に文字の切り出しを行なうので、正確な位置
での文字の切り出しが可能となった。さらに、文字の切
り出しは、文字の連結成分の輪郭に囲まれた領域の画像
を抽出するので、周辺分布では重なって切り出し位置が
わからない文字画像からでも正確に1文字のみを抽出す
ることが可能となった。
As described above, according to the present invention, the standard character height and the line width to be ignored are obtained from the peripheral distribution in the line direction, and the standard character spacing, the word spacing, and the standard character width are determined with reference to these values. , Accurate standard character spacing and word spacing, standard character width can be obtained. As a result, accurate word segmentation is possible. Further, when cutting out characters, the characters are cut out with reference to the cutting-out candidate position and the peripheral distribution while comparing with the standard character width, so that the characters can be cut out at accurate positions. Further, since character extraction extracts an image of a region surrounded by the contours of the connected components of the character, it is possible to accurately extract only one character from a character image that overlaps in the peripheral distribution and the cutout position is unknown. became.

【0043】以上のように本発明により、今まで困難と
されていた一文字一文字の文字の切り出しをより正確に
行なうことを可能にしたので、この方法を構成要素に用
いる文字認識装置の信頼性を大幅に向上させることが可
能となった。
As described above, according to the present invention, it has become possible to more accurately cut out each character, which has been difficult until now. Therefore, the reliability of the character recognition device using this method as a constituent element can be improved. It has become possible to greatly improve.

【0044】また本発明は、標準文字高および文字の連
結成分の抽出を用いているので、特に印刷欧米文字等に
適したものである。
Further, since the present invention uses the standard character height and the connected component extraction of characters, it is particularly suitable for printing Western characters.

【0045】[0045]

【発明の効果】以上述べたように、本発明によれば、行
方向の周辺分布を計数し、該周辺分布の形状より標準文
字高を推定するとともに、無視する線幅を決定して、行
方向と垂直な方向の周辺分布で、該周辺分布の値が前記
無視する線幅の値より大きい部分の統計をとることによ
り、ひげ部分でつながった文字を分離して、標準文字幅
を推定することができる。
As described above, according to the present invention, the marginal distribution in the row direction is counted, the standard character height is estimated from the shape of the marginal distribution, and the line width to be ignored is determined to determine the line width. In the marginal distribution in the direction perpendicular to the direction, the characters connected by the whiskers are separated and the standard character width is estimated by taking statistics of the portion where the value of the marginal distribution is larger than the value of the line width to be ignored. be able to.

【0046】また、前記統計により、前記周辺分布の値
が前記標準文字高のほぼ半分より大きい領域において、
標準文字幅を推定することによって、より正確な位置で
の文字の切り離しが可能である。
Further, according to the statistics, in the area where the value of the marginal distribution is larger than approximately half of the standard character height,
By estimating the standard character width, it is possible to separate characters at more accurate positions.

【0047】さらに、前記統計における固まりの分布
は、固まりと固まりとの距離が、前記標準文字高に比例
した所定の値以下であれば同一の固まりとみなすことに
より、より確実な切り出しができる。
Further, regarding the distribution of the lumps in the above statistics, if the distance between the lumps is equal to or less than a predetermined value proportional to the standard character height, it is regarded as the same lump, and more reliable cutting can be performed.

【図面の簡単な説明】[Brief description of drawings]

【図1】 本発明の文字切り出し手段の用いられる文字
認識装置のブロック図である。
FIG. 1 is a block diagram of a character recognition device using a character cutout unit of the present invention.

【図2】 本発明の文字切り出し手段のフローチャート
を示す。
FIG. 2 shows a flow chart of a character cutting means of the present invention.

【図3】 (A),(B)は、本発明の標準文字高の抽
出方法を説明した図である。
FIGS. 3A and 3B are diagrams for explaining a standard character height extracting method according to the present invention.

【図4】 (A)〜(D)は、本発明の標準文字間隔お
よび単語間隔、標準文字幅、切り出し候補位置の推定の
様子を説明した図である。
FIGS. 4A to 4D are diagrams for explaining how to estimate the standard character spacing, the word spacing, the standard character width, and the cutout candidate position according to the present invention.

【図5】 (A)〜(C)は、本発明の標準文字間隔お
よび単語間隔、標準文字幅、切り出し候補位置の推定の
様子を説明した図である。
5 (A) to 5 (C) are diagrams for explaining how to estimate the standard character spacing, the word spacing, the standard character width, and the clipping candidate position according to the present invention.

【図6】 (A),(B)は、本発明の標準文字間隔お
よび単語間隔、標準文字幅、切り出し候補位置の推定の
様子を説明した図である。
6 (A) and 6 (B) are diagrams for explaining how the standard character spacing and word spacing, standard character width, and cutout candidate position are estimated according to the present invention.

【図7】 (A),(B)は、本発明の標準文字間隔お
よび単語間隔、標準文字幅、切り出し候補位置の推定の
様子を説明した図である。
7 (A) and 7 (B) are diagrams for explaining how to estimate the standard character spacing, the word spacing, the standard character width, and the cutout candidate position according to the present invention.

【図8】 本発明の標準文字間隔および単語間隔、標準
文字幅、切り出し候補位置の推定の様子を説明した図で
ある。
FIG. 8 is a diagram illustrating a state of estimating a standard character interval and a word interval, a standard character width, and a cutout candidate position according to the present invention.

【図9】 本発明の標準文字間隔および単語間隔、標準
文字幅、切り出し候補位置の推定の様子を説明した図で
ある。
FIG. 9 is a diagram illustrating a state of estimating a standard character interval and a word interval, a standard character width, and a cutout candidate position according to the present invention.

【図10】 本発明の標準文字間隔および単語間隔、標
準文字幅、切り出し候補位置の推定の様子を説明した図
である。
FIG. 10 is a diagram illustrating a state of estimating a standard character interval and a word interval, a standard character width, and a cutout candidate position according to the present invention.

【図11】 (A),(B)は、本発明の文字抽出の様
子を説明した図である。
11 (A) and 11 (B) are diagrams for explaining the state of character extraction according to the present invention.

【図12】 (A),(B)は、本発明の文字抽出の様
子を説明した図である。
12 (A) and 12 (B) are diagrams for explaining the state of character extraction according to the present invention.

【図13】 (A)〜(C)は、本発明の文字抽出の様
子を説明した図である。
13 (A) to (C) are diagrams for explaining the state of character extraction according to the present invention.

【符号の説明】[Explanation of symbols]

101…CPU、102…画像人力装置、103…認識
文字表示装置、104…ROM、l05…RAM、30
1…行方向周辺分布、304…標準文字高、401…文
字領域、402…文字間隔、50l〜507…文字周辺
分布、5l1〜517…文字領域、521〜526…文
字切り出し候補位置、508…最低文字線幅、70l…
標準文字高、80l〜804…固まりの間隔、805…
固まりの間隔のしきい値、90l〜903…固まりの問
隔、904…固まりの問隔のしきい値、1004…標準
文字高の75%、1l10…最低文字線幅、1131〜
1l33…文字切り出し位置、120l〜1202…文
字切り出し位置。
101 ... CPU, 102 ... Image human power device, 103 ... Recognition character display device, 104 ... ROM, 105 ... RAM, 30
1 ... Line direction peripheral distribution, 304 ... Standard character height, 401 ... Character area, 402 ... Character spacing, 50l-507 ... Character peripheral distribution, 51-517 ... Character area, 521-526 ... Character cutout candidate position, 508 ... Lowest Character line width, 70l ...
Standard character height, 80l to 804 ... lump interval, 805 ...
Lump interval threshold, 90l to 903 ... lump interval, 904 ... lump interval threshold, 1004 ... 75% of standard character height, 1l10 ... minimum character line width, 1131-
1133 ... Character cutting position, 120l to 1202 ... Character cutting position.

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】 光学的画像入力手段により紙面等に書か
れた欧米文字画像を読み取り、入力された画像データ中
の文字を認識する文字認識装置の文字切り出し方法にお
いて、行方向の周辺分布より文字の標準文字高を推定す
るとともに、該標準文字高に基づいて無視する線幅の値
を決定し、前記行方向と垂直な方向の周辺分布で、該周
辺分布の値が前記無視する線幅の値より大きい部分の統
計をとることにより、標準文字幅を推定することを特徴
とする文字切り出し方法。
1. A character slicing method of a character recognizing device for reading a Western character image written on a paper surface or the like by an optical image inputting means and recognizing a character in input image data. While estimating the standard character height of, the value of the line width to be ignored is determined based on the standard character height, and in the marginal distribution in the direction perpendicular to the line direction, the value of the marginal distribution is A character segmentation method characterized by estimating a standard character width by taking statistics of a portion larger than the value.
【請求項2】 前記統計により、前記周辺分布の値が前
記標準文字高のほぼ半分より大きい領域において、標準
文字幅を推定することを特徴とする請求項1に記載の文
字切り出し方法。
2. The character cutting method according to claim 1, wherein the standard character width is estimated in the region where the value of the marginal distribution is larger than approximately half of the standard character height by the statistics.
【請求項3】 前記統計における固まりの分布は、固ま
りと固まりとの距離が、前記標準文字高に比例した所定
の値以下であれば同一の固まりとみなすことを特徴とす
る請求項2に記載の文字切り出し方法。
3. The lump distribution in the statistics is considered to be the same lump if the distance between the lumps is equal to or less than a predetermined value proportional to the standard character height. Character cutting method.
JP8136478A 1988-04-28 1996-05-30 Character extraction method Expired - Lifetime JP2728085B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8136478A JP2728085B2 (en) 1988-04-28 1996-05-30 Character extraction method

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
JP10608688 1988-04-28
JP11191388 1988-05-09
JP63-106086 1988-12-27
JP63-329650 1988-12-27
JP32965088 1988-12-27
JP63-111913 1988-12-27
JP8136478A JP2728085B2 (en) 1988-04-28 1996-05-30 Character extraction method

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP1014416A Division JP2570415B2 (en) 1988-04-28 1989-01-24 Character extraction method

Publications (2)

Publication Number Publication Date
JPH096915A true JPH096915A (en) 1997-01-10
JP2728085B2 JP2728085B2 (en) 1998-03-18

Family

ID=27469394

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8136478A Expired - Lifetime JP2728085B2 (en) 1988-04-28 1996-05-30 Character extraction method

Country Status (1)

Country Link
JP (1) JP2728085B2 (en)

Also Published As

Publication number Publication date
JP2728085B2 (en) 1998-03-18

Similar Documents

Publication Publication Date Title
US6754385B2 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
CN113158808B (en) Method, medium and equipment for Chinese ancient book character recognition, paragraph grouping and layout reconstruction
EP1052593A2 (en) Form search apparatus and method
CN113095267A (en) Data extraction method of statistical chart, electronic device and storage medium
US20070041643A1 (en) Character recognition apparatus and character recognition method
Liang et al. Performance evaluation of document layout analysis algorithms on the UW data set
EP0496531A2 (en) Method and system for layout analysis of a document image
JP2565150B2 (en) Character cutting method
JPH096916A (en) Character segmenting method
JP3835652B2 (en) Method for determining Japanese / English of document image and recording medium
JPH096915A (en) Character segmenting method
JP2570415B2 (en) Character extraction method
JPH06180771A (en) English letter recognizing device
JP4079333B2 (en) Method for determining Japanese / English of document image and recording medium
JP3344062B2 (en) Katakana handwritten character extraction circuit
JP2630261B2 (en) Character recognition device
JPH10214308A (en) Character discrimination method
JP3220226B2 (en) Character string direction determination method
JP2001266070A (en) Device and method for recognizing character and storage medium
JPH05174185A (en) Japanese character recognizing device
JP2000207491A (en) Reading method and device for character string
JPH08293002A (en) Character recognition unit and method
JP2987462B2 (en) Character direction determining device and character direction determining method
JP3665435B2 (en) Character recognition device and character recognition method
JP2004246929A (en) Method and apparatus of dividing domains in document image

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081212

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081212

Year of fee payment: 11

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091212

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091212

Year of fee payment: 12