JP2576079B2 - Character extraction method - Google Patents

Character extraction method

Info

Publication number
JP2576079B2
JP2576079B2 JP4259501A JP25950192A JP2576079B2 JP 2576079 B2 JP2576079 B2 JP 2576079B2 JP 4259501 A JP4259501 A JP 4259501A JP 25950192 A JP25950192 A JP 25950192A JP 2576079 B2 JP2576079 B2 JP 2576079B2
Authority
JP
Japan
Prior art keywords
character
processing step
forced
character string
circumscribed rectangle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP4259501A
Other languages
Japanese (ja)
Other versions
JPH06111064A (en
Inventor
正臣 中嶋
敏之 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Corp
Original Assignee
NTT Data Communications Systems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Communications Systems Corp filed Critical NTT Data Communications Systems Corp
Priority to JP4259501A priority Critical patent/JP2576079B2/en
Publication of JPH06111064A publication Critical patent/JPH06111064A/en
Application granted granted Critical
Publication of JP2576079B2 publication Critical patent/JP2576079B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明は、光学式文字読取り装置
(以下、「OCR」ともいう)における文字切出し方法に関
するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an optical character reader.
(Hereinafter also referred to as “OCR”).

【0002】[0002]

【従来の技術】文字列から文字パタンを切出す場合、黒
画素連結成分の外接方形座標を求め、複数の外接方形を
統合した結果が、予め推定した文字サイズに等しくなる
ような統合パタンを切出す方式が一般的である。しかし
ながら、特に自由手書き文字列の場合は、複数の文字や
文字部位間での接触が生じるため、文字境界の検出結果
に基づき、外接方形を強制的に切断することが必要とな
る。この方法の一つに、文字列の方向と垂直の方向に文
字線数を計数した線密度を用いる方法がある。この方法
では、分割対象の方形の中央付近で、垂直方向の線密度
が極小となるところで方形を分割する。なお、これに関
しては、例えば、仲林等による「あいまい検索を用いた
高速枠なし手書き文字列読取り方式」(信学論(D-II),J
74-D-II,11,PP.1528-1537)の記載が参考になる。
2. Description of the Related Art In extracting a character pattern from a character string, a circumscribed rectangular coordinate of a black pixel connected component is obtained, and an integrated pattern in which a result of integrating a plurality of circumscribed rectangles is equal to a character size estimated in advance is cut. The method of issuing is common. However, in particular, in the case of a free handwritten character string, contact between a plurality of characters and character parts occurs, so that it is necessary to forcibly cut the circumscribed rectangle based on the detection result of the character boundary. As one of the methods, there is a method using a line density obtained by counting the number of character lines in a direction perpendicular to the direction of the character string. In this method, the rectangle is divided near the center of the rectangle to be divided where the linear density in the vertical direction becomes minimum. Regarding this, for example, Nakabayashi et al., “Fast-frame-free handwritten character string reading method using fuzzy search” (IEICE (D-II), J.
74-D-II, 11, PP.1528-1537) is helpful.

【0003】[0003]

【発明が解決しようとする課題】しかしながら、上記従
来技術は、文字形状の局所的な情報のみに着目したもの
であり、文字列内における文字の記入ピッチは等しくな
る傾向にあるといった文字列の周期性については特に考
慮されていない。また、図3における31のように、複
数の文字や文字の部位が接触している場合には、線密度
の探索範囲が必ずしも中央付近にはならないため、上記
従来技術では、正確に文字を切出すことができないとい
う問題があった。本発明は上記事情に鑑みてなされたも
ので、その目的とするところは、従来の技術における上
述の如き問題を解消し、文字列の周期性を考慮すること
で、複数文字や文字部位が接触して記入された自由手書
き文字列から文字を正確に切出すことが可能な文字切出
し方法を提供することにある。
However, the above-mentioned prior art focuses on only local information of the character shape, and the character string period in which the character entry pitches in the character string tend to be equal. Sex is not specifically considered. Further, when a plurality of characters or parts of the characters are in contact with each other as shown in FIG. 3, the search range of the line density is not always near the center. There was a problem that it could not be put out. The present invention has been made in view of the above circumstances, and an object of the present invention is to solve the above-described problem in the conventional technology and to consider the periodicity of a character string so that a plurality of characters or character portions may be contacted. It is an object of the present invention to provide a character extracting method capable of accurately extracting a character from a free handwritten character string written in the form.

【0004】[0004]

【課題を解決するための手段】本発明の上述の目的は、
文字列を光学的に走査することにより画像データを取得
するステップと、取得した画像データを文字列の方向に
直交する方向に走査して黒連結成分の外接方形の座標を
求める外接方形計算処理ステップと、該ステップと並行
して、文字列の方向に直交する方向に黒画素数を計数す
る周辺分布計算処理ステップと、前記外接方形を文字列
の方向に直交する方向に統合するか否かを判定するファ
ーストマージ処理ステップと、ファーストマージ後の外
接方形から文字サイズを推定する文字サイズ推定処理ス
テップと、外接方形の文字列方向の長さと推定された文
字サイズとの比から、強制切断を実施するか否かを判定
する強制切断判定処理ステップと、該ステップによる判
定結果に基づき、必要に応じて前記外接方形を分割する
強制切断処理ステップと、方形座標を文字列の方向に統
合するか否かを判定するセカンドマージ処理ステップを
有する文字切出し方法において、前記強制切断処理ステ
ップを、前記強制切断判定処理ステップにより強制切断
の対象となった外接方形領域内での周辺分布の結果を少
なくとも2段階のピッチで平滑化する平滑化処理ステッ
プと、該ステップによる前述の異なるピッチでの平滑化
処理の結果を比較して強制切断点を探索する範囲を求め
る強制切断探索範囲検出処理ステップとで構成し、前記
強制切断探索範囲検出処理ステップにより検出した強制
切断探索範囲の中から周辺分布が極小となる位置を求め
てこの位置で外接方形を分割することを特徴とする文字
切出し方法により達成される。
SUMMARY OF THE INVENTION The above objects of the present invention are as follows.
Obtain image data by optically scanning character strings
And the acquired image data in the direction of the character string.
Scan in the orthogonal direction to find the coordinates of the circumscribed rectangle of the black connected component
The circumscribed rectangle calculation processing step to be sought and the step
The number of black pixels in the direction orthogonal to the direction of the character string.
Marginal distribution calculation processing step, and the circumscribed rectangle is a character string
File to determine whether to integrate in the direction orthogonal to the
Last merge processing step and after the first merge
Character size estimation processing for estimating the character size from a rectangle
Step and sentence estimated to be the length of the bounding rectangle in the string direction
Determines whether to perform forced cutting based on the character size ratio
Forced disconnection determination processing step
Divide the circumscribed rectangle as necessary based on the fixed result
The forced cutting process step and the rectangular coordinates are integrated in the direction of the character string.
A second merge processing step to determine whether
In the character cutting method,
Is forcibly cut by the forcible cut determination processing step.
Marginal distribution within the circumscribed rectangular area
A smoothing processing step for smoothing at least two pitches
And smoothing at the different pitches by the step described above
Comparing the processing results to find the range to search for the forced cutting point
And a forced disconnection search range detection processing step
Forcing detected by the forced disconnection search range detection processing step
Find the position where the marginal distribution is minimum from the cutting search range
This is achieved by a character segmentation method characterized by dividing a circumscribed rectangle at a lever position .

【0005】[0005]

【作用】本発明に係る文字切出し方法においては、文字
の周辺分布を異なるピッチで平滑化(移動平均化)した
結果に着目している。すなわち、OCRでは、帳票等を
ラスタスキャンした画素データを処理対象とするが、周
辺分布は、このデータ中の文字列の方向と垂直の方向に
黒画素数を計数した値である。文字には、中央付近の黒
画素数が多くなる傾向があること、文字の記入ピッチは
文字列内においては等しくなる傾向にあること等の特性
があり、このことは、文字列の周期性としてとらえるこ
とができる。図2に、文字列の一例を示す。図2におけ
る21は文字の原パタン、22は周辺分布の取得結果、
23は予め推定した文字サイズの1/4をピッチとして
周辺分布に対して平滑化処理を2回施した後の黒画素
数、24は上述の黒画素数23の結果に対して更に文字
サイズをピッチとして平滑化処理を施した後の黒画素数
を示している。図2の黒画素数23および24からも明
らかなように、平滑化処理後の黒画素数は局所的な変動
が取り除かれ、文字列の周期的な変動傾向が反映された
ものとなっている。黒画素数の変動傾向を更に詳細に検
討すると、図2の黒画素数23では、各文字ごとに文字
のピークが顕著に現われている。また、図2の黒画素数
23のピークを検出した後の周辺分布の取得結果24
黒画素数23の交点と次の交点との間に文字の境界が存
在し、この境界は黒画素数が極小となる位置と一致する
ことが分かる。
In the character extracting method according to the present invention, attention is paid to the result of smoothing (moving averaging) the peripheral distribution of characters at different pitches. That is, in the OCR, pixel data obtained by raster-scanning a form or the like is processed, and the peripheral distribution is a value obtained by counting the number of black pixels in a direction perpendicular to the direction of a character string in the data. Characters have characteristics such as the tendency that the number of black pixels near the center tends to be large, and the pitch at which characters are written tend to be equal within a character string. Can be caught. FIG. 2 shows an example of a character string. In FIG. 2, 21 is the original pattern of the character, 22 is the acquisition result of the peripheral distribution,
Reference numeral 23 denotes the number of black pixels after performing a smoothing process twice on the marginal distribution with a pitch of 1/4 of the character size estimated in advance. The pitch indicates the number of black pixels after performing the smoothing process . As is clear from the numbers of black pixels 23 and 24 in FIG. 2, the number of black pixels after the smoothing process is such that the local fluctuation is removed and the periodic fluctuation tendency of the character string is reflected. . When the variation tendency of the number of black pixels is examined in more detail, a character peak appears remarkably for each character in the number of black pixels 23 in FIG. In addition, there is a character boundary between the intersection 24 of the peripheral distribution acquisition result 24 after detecting the peak of the black pixel number 23 in FIG. 2 and the black pixel number 23, and the boundary is the black pixel number 23. It can be understood that the position coincides with the position where the minimum value is obtained.

【0006】[0006]

【実施例】以下、本発明の実施例を図面に基づいて詳細
に説明する。図1は、本発明の一実施例に係る文字切出
し装置の構成を示すブロック図である。スキャナ等の画
像入力装置から読み込まれた画像データは、図1におけ
る画像メモリ1に格納される。黒連結成分外接方形計算
回路2では、画像メモリ1中の文字列を、文字列の方向
と直交する方向に走査して、黒連結成分外接方形を求め
る。求められた結果の一例を、図3(a)に示す。これ
と並行して、周辺分布計算回路3では、文字列の方向と
直交する方向に黒画素数を計数することにより、周辺分
布を求める。求めらた結果の一例を、図2の22に示
す。次に、ファーストマージ回路4では、黒連結成分外
接方形の文字列の方向と直交する方向への統合を行う。
すなわち、文字列の方行と平行な座標軸への写像の重な
り部分の長さが、重なる両外接方形の文字列方向の長さ
のうち短い方の値の1/2と比較して長い場合に統合を
行う。統合後の外接方形の一例を、図3(b)に示す。
なお、このファーストマージ処理については、前述の文
献(信学論(D−IIDにも、記載されている如く、当
業者にとって普通の処理である。
Embodiments of the present invention will be described below in detail with reference to the drawings. FIG. 1 is a block diagram showing a configuration of a character extracting device according to one embodiment of the present invention. Image data read from an image input device such as a scanner is stored in the image memory 1 in FIG. The black connected component circumscribed rectangle calculation circuit 2 scans a character string in the image memory 1 in a direction orthogonal to the direction of the character string to obtain a black connected component circumscribed rectangle. FIG. 3A shows an example of the obtained result. In parallel with this, the margin distribution calculation circuit 3 calculates the margin distribution by counting the number of black pixels in a direction orthogonal to the direction of the character string. An example of the results calculated et al was shown in 22 of FIG. Next, the first merge circuit 4 performs integration in a direction orthogonal to the direction of the character string of the black connected component circumscribed rectangle.
That is, if the length of the overlapping portion of the mapping to the coordinate axis parallel to the direction of the character string is longer than 1 / of the shorter value of the lengths of the overlapping circumscribed rectangles in the character string direction, Perform integration. An example of the circumscribed rectangle after the integration is shown in FIG.
Note that this first merge processing is described in the above sentence.
Contribution (Religion (D-IID, as described in
This is a normal process for a trader.

【0007】前述の如く、文字には、文字の幅と高さが
ほぼ等しくなるという特性があるため、文字の幅または
高さのいずれかが推定できれば、この値を文字サイズと
考えることができる。文字サイズ推定回路5では、文字
のこのような特性に基づき、ファーストマージ後の外接
方形の文字列の方向と直交する方向の長さの平均値また
は中央値を求めることにより、文字サイズを推定する。
次に、強制切断判定回路6では、ファーストマージ後の
外接方形の文字列方向の長さと、文字サイズ推定値との
比をとり、この値がしきい(閾)値以上である場合に、
当該外接方形を強制切断候補とする。なお、しきい値を
1.2とした場合、図3(b)における31が強制切断
候補となる。平滑化回路7では、強制切断候補となった
領域(図3(b)におえる31)内での周辺分布の平滑
化を実施する。平滑化は、1画素ずつの移動平均法によ
る。ここでは、文字のサイズの1/4をピッチとして2
回の平滑化を実施した。求められた結果の一例を、図2
の23(実際は、破線で囲んだ部分のみ)に示し、この
結果を更に文字幅をピッチとして平滑化した結果を、図
2の24に示す。このように、強制切断候補となった領
域(上記31)内でのみ、周辺分布の平滑化を実施する
ことにより、処理量の無用な増加を抑止することができ
る。
As described above, since a character has a characteristic that the width and height of the character are substantially equal, if either the width or the height of the character can be estimated, this value can be considered as the character size. . The character size estimating circuit 5 estimates the character size by obtaining the average or median of the lengths in the direction orthogonal to the direction of the circumscribed rectangular character string after the first merge, based on such characteristics of the character. .
Next, the forced disconnection judging circuit 6 calculates the ratio between the length of the circumscribed rectangle in the character string direction after the first merge and the character size estimated value, and when this value is equal to or larger than the threshold value,
The circumscribed rectangle is set as a forced disconnection candidate. If the threshold value is 1.2, 31 in FIG. 3B is a forced disconnection candidate. The smoothing circuit 7 performs smoothing of the marginal distribution in the region (31 in FIG. 3B) that has become the forced cutting candidate. The smoothing is based on a moving average method for each pixel . Here, 1/4 of the character size is used as the pitch and 2
Times smoothing was performed . An example of the obtained result is shown in FIG.
23 (actually, only the portion surrounded by a broken line) , and the result of further smoothing the result by using the character width as the pitch is shown in FIG. In this way, the region that became a forced disconnection candidate
Performs marginal distribution smoothing only within the area (31).
As a result, it is possible to suppress unnecessary increase in the processing amount.
You.

【0008】次に、強制切断探索範囲検出回路8では、
上述の平滑化結果を用いて、強制切断探索範囲を、図4
にその詳細を示す方法で決定する。これは、0005項
で述べた、図2の24と23の交点と次の交点との間に
存在する文字の境界の検出処理に相当する。 ステップ41:初期設定 平滑化結果の追跡開始位置を登録する。 ステップ42:フラグクリア flg_one(尾根を検出したことを示すフラグ),
flg_tani(谷を検出したことを示すフラグ),
flg_start(切断探索範囲の開始点とすること
を示すフラグ),flg_end(切断探索範囲の終了
点とすることを示すフラグ)をオフにする。 ステップ43:追跡位置での平滑化結果の取得 文字サイズの1/4をピッチとして、2回平滑化した削
果をa、aを更に文字サイズをピッチとして平滑化した
結果をbとする。 ステップ44:a−bしきい値より大きい場合 flg_oneをオンにする。
Next, in the forced cutting search range detecting circuit 8,
By using the above-described smoothing result, the forced cutting search range is set as shown in FIG.
Is determined by the method shown in FIG. This is 0005
Between the intersection of 24 and 23 in FIG. 2 and the next intersection
This is equivalent to the process of detecting the boundaries of existing characters. Step 41: Initial Setting The tracking start position of the smoothing result is registered. Step 42: clear flag flg_one (a flag indicating that a ridge has been detected),
flg_tani (flag indicating that a valley has been detected),
The flg_start (flag indicating the start point of the cutting search range) and the flg_end (the flag indicating the end point of the cutting search range) are turned off. Step 43: Acquisition of Smoothing Result at Tracking Position Using 1/4 of the character size as a pitch, abrasion results obtained by smoothing twice are set as a, and a as a result of further smoothing using a character size as a pitch is set as b. Step 44: a-b turns on the flg_one larger than a threshold value.

【0009】なお、flg_start,flg_endがオンの場合に
は、登録されている探索開始点,終了点を出力し、flg_
start,flg_end,flg_taniをオフにする。 ステップ45:flg_oneがオン、かつ、flg_start要オフ、
かつ、a≦bの場合 現在の追跡位置を探索開始点として登録する。flg_star
tをオンにする。 ステップ46:flg_startがオン、かつ、b−aがしきい
値より大きい場合 flg_taniをオンにする。 ステップ47:flg_taniがオン、かつ、flg_endがオフ、
かつ、a≧bの場合 現在点の追跡位置を探索終了点として登録する。flg_en
dをオンにする。flg_taniをオンにする。 ステップ48:追跡位置が対象領域内である場合はステッ
プ43に進み、領域外である場合は、終了する。
If flg_start and flg_end are on, the registered search start and end points are output, and flg_start and flg_end are output.
Turn off start, flg_end, and flg_tani. Step 45: flg_one is on and flg_start required off,
In the case of a ≦ b, the current tracking position is registered as a search start point. flg_star
Turn on t. Step 46: When flg_start is on and ba is larger than the threshold value flg_tani is turned on. Step 47: flg_tani is on, flg_end is off,
If a ≧ b, the tracking position of the current point is registered as the search end point. flg_en
Turn d on. Turn on flg_tani. Step 48: If the tracking position is within the target area, proceed to step 43; otherwise, end.

【0010】次に、強制切断回路9では、上で強制切断
探索範囲検出回路8により求めた強制切断探索範囲中の
周辺分布が極小となる位置で、外接方形を強制切断す
る。求められた結果の一例を、図3(c)に示す。セカ
ンドマージ回路10では、外接方形の文字列の方向での
統合を試み、統合後の外接方形の縦横比が1に近くなる
ように、外接方形を求める。求められた結果の一例を、
図3(d)に示す。これが、最終的な切出し結果とな
る。なお、このセカンドマージ処理についても、先に示
した文献(信学論(D−II))に記載されており、当
業者にとって普通の処理である。上記実施例によれば、
文字や文字の部位間での接触が発生する自由手書き文字
列からの文字の切出しにおいても、文ぱパタンを確度よ
く切出すことができるという効果が得られる。図5に、
上記実施例に示した文字切出し装置を応用したOCRの
構成を示す。図中、51はスキャナ等の画像入力装置、
52は本発明に係る文字切出し装置、53は文字の特徴
抽出部、54は文字識別部、55は識別結果の表示部を
示している。
Next, the forcible disconnection circuit 9 forcibly disconnects
In the forced disconnection search range obtained by the search range detection circuit 8,
Forcibly cut the circumscribed rectangle at the position where the marginal distribution is minimal . An example of the obtained result is shown in FIG. The second merge circuit 10 attempts integration in the direction of the character string of the circumscribed rectangle, and obtains a circumscribed rectangle so that the aspect ratio of the circumscribed rectangle after integration is close to 1. An example of the result obtained is
It is shown in FIG. This is the final cutout result. Note that this second merge processing is also described earlier.
Document (IEICE (D-II)).
This is a normal process for a trader. According to the above embodiment,
Even when extracting a character from a free handwritten character string in which contact between characters or parts of the character occurs, it is possible to obtain an effect that a sentence pattern can be accurately extracted. In FIG.
The configuration of an OCR to which the character cutout device shown in the above embodiment is applied is shown. In the figure, 51 is an image input device such as a scanner,
Reference numeral 52 denotes a character cutout device according to the present invention, 53 denotes a character feature extraction unit, 54 denotes a character identification unit, and 55 denotes a display unit of an identification result.

【0011】本装置の効果は、前述の文字切出し装置の
効果に基づき文字認識を行う結果、文字を精度よく認識
できる点にある。なお、上記実施例は本発明の一例を示
したものであり、本発明はこれに限定されるべきもので
ないことは言うまでもないことである。例えば、図1に
示した平滑化処理7は、必ずしも文字列すべてについて
行う必要はなく、文字や文字の部位間での接触が発生し
ている部分についてのみ行うようにしてもよい。
The effect of the present apparatus is that the character can be recognized with high accuracy as a result of performing the character recognition based on the effect of the character extracting apparatus described above. Note that the above embodiment is an example of the present invention, and it goes without saying that the present invention should not be limited to this. For example, the smoothing process 7 shown in FIG. 1 does not necessarily need to be performed on all character strings, but may be performed only on characters or portions where contact occurs between characters.

【0012】[0012]

【発明の効果】以上、詳細に説明した如く、本発明によ
れば、文字列の周期性を考慮することで、複数文字や文
字部位が接触して記入された自由手書き文字列から文字
を正確に切出すことが可能な文字切出し方法を実現でき
るという顕著な効果を奏するものである。
As described above in detail, according to the present invention, by taking into account the periodicity of a character string, a character can be accurately extracted from a free handwritten character string written by touching a plurality of characters or character parts. This has a remarkable effect that a character extracting method capable of extracting characters can be realized.

【0013】[0013]

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の一実施例に係る文字切出し装置の構成
を示すブロック図である。
FIG. 1 is a block diagram illustrating a configuration of a character extracting device according to an embodiment of the present invention.

【図2】周辺分布と前辺分布の平滑化結果を説明する図
である。
FIG. 2 is a diagram illustrating a smoothing result of a marginal distribution and a front-side distribution.

【図3】実施例に係る文字切出し装置の処理の流れを黒
連結外接方形により説明する図である。
FIG. 3 is a diagram illustrating a flow of processing of the character cutout device according to the embodiment using a black connected circumscribed rectangle.

【図4】強制切断探索範囲検出方法の処理の流れを示す
図である。
FIG. 4 is a diagram showing a processing flow of a forced disconnection search range detection method.

【図5】本発明に係る文字切出し方法を適用したOCR
のブロック構成図である。
FIG. 5 is an OCR to which the character extracting method according to the present invention is applied.
FIG. 3 is a block diagram of the configuration of FIG.

【符号の説明】[Explanation of symbols]

1:画像メモリ、2:黒連結成分外接方形計算回路、
3:周辺分布計算回路、4:ファーストマージ回路、
5:文字サイズ推定回路、6:強制切断判定回路、7:
平滑化回路、8:強制切断探索範囲検出回路、9:強制
切断回路、10:セカンドマージ回路、21:文字の原
パタン、22:周辺分布の取得結果、23:周辺分布を
平滑化処理した結果の黒画素数、24:黒画素数23を
更に平滑化処理した結果の黒画素数。
1: image memory, 2: black connected component circumscribed square calculation circuit,
3: marginal distribution calculation circuit, 4: first merge circuit,
5: character size estimation circuit, 6: forced disconnection determination circuit, 7:
Smoothing circuit, 8: forced cutting search range detection circuit, 9: forced cutting circuit, 10: second merge circuit, 21: original pattern of character, 22: acquisition result of peripheral distribution, 23: result of smoothing processing of peripheral distribution , 24: The number of black pixels as a result of further smoothing the number of black pixels 23.

Claims (1)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】文字列を光学的に走査することにより画像
データを取得するステップと、取得した画像データを文
字列の方向に直交する方向に走査して黒連結成分の外接
方形の座標を求める外接方形計算処理ステップと、該ス
テップと並行して、文字列の方向に直交する方向に黒画
素数を計数する周辺分布計算処理ステップと、前記外接
方形を文字列の方向に直交する方向に統合するか否かを
判定するファーストマージ処理ステップと、ファースト
マージ後の外接方形から文字サイズを推定する文字サイ
ズ推定処理ステップと、外接方形の文字列方向の長さと
推定された文字サイズとの比から、強制切断を実施する
か否かを判定する強制切断判定処理ステップと、該ステ
プブによる判定結果に基づき、必要に応じて前記外接方
形を分割する強制切断処理ステップと、方形座標を文字
列の方向に統合するか否かを判定するセカンドマージ処
理ステップを有する文字切出し方法において、前記強制
切断処理ステップを、前記強制切断判定処理ステップに
より強制切断の対象となった外接方形領域内での周辺分
布の結果を少なくとも2段階のピッチで平滑化する平滑
化処理ステップと、該ステップによる前述の異なるピッ
チでの平滑化処理の結果を比較して強制切断点を探索す
る範囲を求める強制切断探索範囲検出処理ステップとで
構成し、前記強制切断探索範囲検出処理ステップにより
検出した強制切断探索範囲の中から周辺分布が極小とな
る位置を求めてこの位置で外接方形を分割することを特
徴とする文字切出し方法。」
An image is obtained by optically scanning a character string.
Acquiring the data and writing the acquired image data
Scan in the direction perpendicular to the direction of the character string to circumscribe the black connected component
A circumscribed rectangle calculation processing step for obtaining coordinates of the rectangle;
In parallel with the step, black screen in the direction orthogonal to the direction of the character string
A marginal distribution calculation processing step of counting prime numbers;
Whether to combine rectangles in a direction orthogonal to the direction of the string
A first merge processing step for determining
Character size that estimates the character size from the circumscribed rectangle after merging
Size estimation step and the length of the circumscribed rectangle in the character string direction.
Force disconnection from the estimated character size ratio
A forced disconnection determination processing step for determining whether or not
If necessary, based on the result of the judgment by PUB,
Forced cutting step to split the shape
Second merge processing to determine whether to merge in the column direction
A character extracting method having a logical step.
The disconnection processing step is replaced with the forced disconnection determination processing step.
Peripheral area within the circumscribed rectangular area that was subject to more forced cutting
Smoothing to smooth the fabric result with at least two pitches
Processing step and the different pick
Search for the forced cutting point by comparing the results of the smoothing process
In the forced cutting search range detection processing step
And the forced disconnection search range detection processing step
The marginal distribution is minimized from the detected forced cut search range.
And extracting a circumscribed rectangle at this position . "
JP4259501A 1992-09-29 1992-09-29 Character extraction method Expired - Lifetime JP2576079B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4259501A JP2576079B2 (en) 1992-09-29 1992-09-29 Character extraction method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4259501A JP2576079B2 (en) 1992-09-29 1992-09-29 Character extraction method

Publications (2)

Publication Number Publication Date
JPH06111064A JPH06111064A (en) 1994-04-22
JP2576079B2 true JP2576079B2 (en) 1997-01-29

Family

ID=17334979

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4259501A Expired - Lifetime JP2576079B2 (en) 1992-09-29 1992-09-29 Character extraction method

Country Status (1)

Country Link
JP (1) JP2576079B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101354746B (en) * 2007-07-23 2011-08-31 夏普株式会社 Device and method for extracting character image

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59128678A (en) * 1983-01-12 1984-07-24 Nec Corp Separating device of character
JPS6015781A (en) * 1983-07-08 1985-01-26 Nippon Telegr & Teleph Corp <Ntt> Character segment device
JPH02277185A (en) * 1989-04-18 1990-11-13 Sharp Corp Extracting method for rectangle coordinates
JPH0417086A (en) * 1990-05-10 1992-01-21 Ricoh Co Ltd Method for segmenting character
JPH0415776A (en) * 1990-05-01 1992-01-21 Fuji Facom Corp Extracting method for character size information
JPH0484279A (en) * 1990-07-26 1992-03-17 Matsushita Electric Ind Co Ltd Picture editing device
JPH04130979A (en) * 1990-09-21 1992-05-01 Ricoh Co Ltd Character picture segmenting method
JPH04149685A (en) * 1990-10-09 1992-05-22 Nec Corp Contact character segmenting method

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59128678A (en) * 1983-01-12 1984-07-24 Nec Corp Separating device of character
JPS6015781A (en) * 1983-07-08 1985-01-26 Nippon Telegr & Teleph Corp <Ntt> Character segment device
JPH02277185A (en) * 1989-04-18 1990-11-13 Sharp Corp Extracting method for rectangle coordinates
JPH0415776A (en) * 1990-05-01 1992-01-21 Fuji Facom Corp Extracting method for character size information
JPH0417086A (en) * 1990-05-10 1992-01-21 Ricoh Co Ltd Method for segmenting character
JPH0484279A (en) * 1990-07-26 1992-03-17 Matsushita Electric Ind Co Ltd Picture editing device
JPH04130979A (en) * 1990-09-21 1992-05-01 Ricoh Co Ltd Character picture segmenting method
JPH04149685A (en) * 1990-10-09 1992-05-22 Nec Corp Contact character segmenting method

Also Published As

Publication number Publication date
JPH06111064A (en) 1994-04-22

Similar Documents

Publication Publication Date Title
US6072895A (en) System and method using minutiae pruning for fingerprint image processing
JP4208918B2 (en) Method and apparatus for extracting text from document image, computer program and storage medium thereof
US6674900B1 (en) Method for extracting titles from digital images
US6111978A (en) System and method for determining ridge counts in fingerprint image processing
US5539841A (en) Method for comparing image sections to determine similarity therebetween
JP6268023B2 (en) Character recognition device and character cutout method thereof
JPH07234915A (en) Image recognizing device
JP2002133426A (en) Ruled line extracting device for extracting ruled line from multiple image
WO2016086877A1 (en) Text detection method and device
JP3830998B2 (en) Ruled line removal method and character recognition apparatus using the same
JP3411472B2 (en) Pattern extraction device
JP2576079B2 (en) Character extraction method
JP3090342B2 (en) Character string direction discriminator
JP2868134B2 (en) Image processing method and apparatus
Parodi et al. Efficient and flexible text extraction from document pages
JPH02278104A (en) Detecting method for angle of inclination of document image
CN114332108B (en) Method for extracting virtual-real line local area in picture
JP2832928B2 (en) Character recognition method
JP3437296B2 (en) High-speed character string extraction device
JP3077929B2 (en) Character extraction method
JP3411795B2 (en) Character recognition device
JP2872757B2 (en) Line direction determination device
JP2580976B2 (en) Character extraction device
JP3193573B2 (en) Character recognition device with brackets
JP3190794B2 (en) Character segmentation device

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071107

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081107

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091107

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091107

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101107

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111107

Year of fee payment: 15

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121107

Year of fee payment: 16

EXPY Cancellation because of completion of term