JP2580976B2 - Character extraction device - Google Patents

Character extraction device

Info

Publication number
JP2580976B2
JP2580976B2 JP5243306A JP24330693A JP2580976B2 JP 2580976 B2 JP2580976 B2 JP 2580976B2 JP 5243306 A JP5243306 A JP 5243306A JP 24330693 A JP24330693 A JP 24330693A JP 2580976 B2 JP2580976 B2 JP 2580976B2
Authority
JP
Japan
Prior art keywords
character
block
circumscribed
image
projection distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP5243306A
Other languages
Japanese (ja)
Other versions
JPH0798747A (en
Inventor
一浩 太田
一郎 金子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP5243306A priority Critical patent/JP2580976B2/en
Publication of JPH0798747A publication Critical patent/JPH0798747A/en
Application granted granted Critical
Publication of JP2580976B2 publication Critical patent/JP2580976B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明は、文字認識装置における
文字切出し装置に関し、特に光学的に読み取った自由手
書き文字に対する文字切出し装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character extracting device for a character recognizing device, and more particularly to a character extracting device for optically read free handwritten characters.

【0002】[0002]

【従来の技術】従来、この種の文字切出し方法として
は、図9から図12に示すように、入力された画像がi
軸およびj軸という2つの座標で表される二次元空間上
に存在するものと考え、この画像にi軸に垂直な平行光
線を照射することによりi軸上に影I0と影I1とを得
ていた。
2. Description of the Related Art Conventionally, as a character extracting method of this kind, as shown in FIGS.
This image is considered to exist on a two-dimensional space represented by two coordinates, i.e., an axis and a j-axis. By irradiating this image with parallel rays perpendicular to the i-axis, shadows I0 and I1 are obtained on the i-axis. I was

【0003】これらの影I0及び影I1の端点のうち座
標原点に近い方をsとし、遠い方をlとして表すことに
すると、影I0および影I1の各端点がそれぞれIs
0、Il0およびIs1,Il1となる(図10参
照)。
[0003] Of the end points of the shadows I0 and I1, the one closer to the coordinate origin is denoted by s, and the far end is denoted by l. If the end points of the shadows I0 and I1 are Is, respectively.
0, I10 and Is1, I11 (see FIG. 10).

【0004】また、この画像に影I0及び影I1の端点
からj軸に垂直な平行光線を照射すると、図11のよう
に影J0とJ1とを得る。これらの影のうち、先と同様
に原点に近い方をs、遠い方をlで表すと影J0,J1
の各端点は、それぞれJs0、Jl0およびJs1、J
l1となる(図11参照)。
When the image is irradiated with parallel rays perpendicular to the j-axis from the end points of the shadows I0 and I1, shadows J0 and J1 are obtained as shown in FIG. Of these shadows, the one closer to the origin is denoted by s and the farther one is denoted by l, as in the previous case, the shadows J0 and J1
Are respectively Js0, J10 and Js1, Js
11 (see FIG. 11).

【0005】このようにして得られた(Is0,Js
0)、(Il0、Jl0)、(Is1、Js1)、(I
l1、Jl1)は、図12のようにそれぞれ各文字に外
接する長方形の対角座標を表しており、従来の技術とし
てはこのようにして各文字画像を文字列画像から切り出
すことが一般的であった。
[0005] The thus obtained (Is0, Js
0), (I10, J10), (Is1, Js1), (I
11 and Jl1) represent the diagonal coordinates of the rectangle circumscribing each character as shown in FIG. 12. As a conventional technique, it is general to cut out each character image from the character string image in this way. there were.

【0006】以下では、上述したような各座標軸に垂直
な平行光線を座標軸に対して照射し、その影から外接長
方形を求める手法を単純投影法と呼ぶ。
In the following, a method of irradiating the coordinate axes with parallel rays perpendicular to the respective coordinate axes as described above and obtaining a circumscribed rectangle from the shadow thereof is referred to as a simple projection method.

【0007】[0007]

【発明が解決しようとする課題】このような従来の文字
切出し装置では、投影分布が0となる領域(つまり、影
が表れない部分)を文字と文字との境界と考えて切り出
す単純投影法を基本としているために、文字同士が接触
していたり、文字が接触していない場合でも影が接触し
ていると正確な文字切出しが行えず、認識率の低下の一
因となっていた。
In such a conventional character extracting apparatus, a simple projection method for extracting an area having a projection distribution of 0 (that is, a portion where no shadow appears) as a boundary between characters is adopted. Because of the basics, even if the characters are in contact with each other or the characters are not in contact with each other, if the shadow is in contact, accurate character extraction cannot be performed, which causes a reduction in the recognition rate.

【0008】[0008]

【課題を解決するための手段】上記問題点を解決するた
めに、本発明による文字切出し装置は、紙葉類上の文字
列の各文字を光学的に読み取って識別する文字認識装置
における文字切出し装置において、画像入力装置から入
力された二値画像を記憶するイメージメモリと、前記イ
メージメモリに記憶された二値画素を投影処理し、得ら
れた投影データから各文字または文字列に外接するブロ
ックの情報(外接ブロック情報)を抽出する外接ブロッ
ク抽出部と、前記外接ブロック抽出部において抽出され
た外接ブロック情報からその二値画像における標準的な
文字ブロックサイズを算出する標準文字サイズ算出部
と、前記標準文字サイズ算出部において算出された標準
的な文字ブロックサイズと前記外接ブロック情報とを比
較して複数の文字画像が格納された続け字ブロックを検
出する続け字ブロック検出部と、前記イメージメモリに
記憶された一行分の文字列二値画像の投影分布およびそ
の投影分布に対する頻度分布を算出する投影分布算出部
と、前記投影分布算出部において算出された頻度分布よ
り前記続け字ブロック検出部で検出された続け字ブロッ
クを1文字サイズの外接ブロックに分離するのに最適な
最適しきい値を算出するしきい値算出部と、前記しきい
値算出部で算出された最適しきい値に基づいて、前記続
け字ブロックを1文字サイズの外接ブロックに分離する
分離点を決定する分離点決定部と、前記分離点決定部に
おいて決定された分離点座標に基づいて最終的な外接ブ
ロックのブロック情報を決定する最終ブロック決定部と
を有する。
In order to solve the above-mentioned problems, a character extracting apparatus according to the present invention provides a character extracting apparatus for optically reading and identifying each character of a character string on a paper sheet. In the device, an image memory for storing a binary image input from the image input device, and a block circumscribing each character or character string from the projection data obtained by projecting the binary pixels stored in the image memory. A circumscribing block extracting unit that extracts information (circumscribing block information), a standard character size calculating unit that calculates a standard character block size in the binary image from the circumscribing block information extracted by the circumscribing block extracting unit, By comparing the standard character block size calculated by the standard character size calculation unit with the circumscribed block information, a plurality of character image A continuation character block detection unit that detects a continuation character block in which is stored, a projection distribution calculation unit that calculates a projection distribution of a one-line character string binary image stored in the image memory and a frequency distribution with respect to the projection distribution. A threshold value for calculating an optimal threshold value for separating a continuous character block detected by the continuous character block detection unit into a circumscribed block of one character size from the frequency distribution calculated by the projection distribution calculation unit; A calculation unit; a separation point determination unit that determines a separation point for separating the continuous character block into a circumscribed block of one character size based on the optimal threshold value calculated by the threshold value calculation unit; A final block determining unit that determines final block information of the circumscribed block based on the separation point coordinates determined by the determining unit.

【0009】[0009]

【実施例】次に本発明の文字切出し装置を図面を参照し
て詳細に説明する。
BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 is a block diagram showing a character extracting apparatus according to the present invention.

【0010】図1は本発明の一実施例を示すブロック図
である。紙葉類上に記載された文字列は、二値画像入力
装置11により入力され、さらに、二値画像に変換さ
れ、イメージメモリ12に記憶される。記憶された二値
画像は、イメージバスを通じて外接ブロック抽出部1
3、投影分布算出部17および最終ブロック決定部21
から参照できる。外接ブロック抽出部13は、従来技術
の項で説明した単純投影法により、文字または文字列を
その枠の中に納めるように外接する長方形を求める。以
下、この外接する長方形を1次外接ブロックと呼び、こ
の1次外接ブロックの座標軸に対する対角位置座標およ
び、水平軸方向または垂直軸方向の長さを1次外接ブロ
ック情報と呼ぶこととする。そして、この1次外接ブロ
ック情報は外接ブロックメモリ14に記憶される。標準
文字サイズ算出部15は、1次外接ブロック情報に基づ
いてこの1次外接ブロックのサイズの相加平均値から標
準文字サイズを算出する。続け字ブロック検出部16
は、標準文字サイズおよび1次外接ブロック情報に基づ
いて複数の文字画像を包含していると考えられる1外接
ブロックを検出する。投影分布算出部17は、二値画像
を文字列方向に対し垂直方向に投影し投影分布を算出
し、その結果を投影分布メモリ18に記憶し、さらに、
この投影分布の頻度分布を算出する。しきい値算出部1
9は、頻度分布から線幅度数値を算出し、これにより、
最適しきい値を算出する。分離点決定部20は、最適し
きい値に基づき、続け字部分の1次外接ブロックを分離
する。最終ブロック決定部21は最終的に分離決定部2
0で分離された最終ブロック情報を最終ブロックメモリ
22に転送する。
FIG. 1 is a block diagram showing one embodiment of the present invention. The character string described on the paper sheet is input by the binary image input device 11, further converted into a binary image, and stored in the image memory 12. The stored binary image is passed through an image bus to a circumscribed block extraction unit 1.
3. Projection distribution calculation unit 17 and final block determination unit 21
Can be referenced from The circumscribed block extracting unit 13 obtains a circumscribed rectangle by using the simple projection method described in the section of the related art so that a character or a character string is accommodated in the frame. Hereinafter, the circumscribed rectangle is referred to as a primary circumscribed block, and the diagonal position coordinates of the primary circumscribed block with respect to the coordinate axes and the length in the horizontal axis direction or the vertical axis direction are referred to as primary circumscribed block information. The primary circumscribed block information is stored in the circumscribed block memory 14. The standard character size calculation unit 15 calculates the standard character size from the arithmetic mean of the size of the primary circumscribed block based on the primary circumscribed block information. Continuation character block detection unit 16
Detects one circumscribed block considered to include a plurality of character images based on the standard character size and the primary circumscribed block information. The projection distribution calculating unit 17 calculates the projection distribution by projecting the binary image in the direction perpendicular to the character string direction, and stores the result in the projection distribution memory 18.
The frequency distribution of this projection distribution is calculated. Threshold calculator 1
9 calculates a line width frequency value from the frequency distribution, and
Calculate the optimal threshold. The separation point determination unit 20 separates the primary circumscribing block of the continuous character portion based on the optimum threshold. The final block determination unit 21 finally determines the separation determination unit 2
The last block information separated by 0 is transferred to the last block memory 22.

【0011】次に本発明の動作について図1,図2,図
3,図4および図5を用いて説明する。
Next, the operation of the present invention will be described with reference to FIGS. 1, 2, 3, 4 and 5.

【0012】二値画像入力装置11において、紙葉類上
の文字等を光学的走査により入力し、得られた画像を二
値画像に変換し、イメージメモリ12に一次的に記憶す
る。
In the binary image input device 11, characters and the like on a paper sheet are input by optical scanning, the obtained image is converted into a binary image, and temporarily stored in the image memory 12.

【0013】次に、外接ブロック抽出部13において、
イメージメモリ12に記憶された1行分の二値画像に対
し、単純投影法により投影処理を行い、得られた投影デ
ータより各文字または文字列に外接する長方形(1次外
接ブロック)を求める。そして、この1次外接ブロック
情報は外接ブロックメモリ14に記憶される。得られた
1次外接ブロックの例を図2に示す。ここでは、BK7
のブロックが複数の文字を包含しており、正確な文字切
出しが行えなかったことがわかる。
Next, in the circumscribed block extraction unit 13,
One line of the binary image stored in the image memory 12 is subjected to projection processing by the simple projection method, and a rectangle (primary circumscribed block) circumscribing each character or character string is obtained from the obtained projection data. The primary circumscribed block information is stored in the circumscribed block memory 14. FIG. 2 shows an example of the obtained primary circumscribed block. Here, BK7
Block contains a plurality of characters, and it was found that accurate character extraction could not be performed.

【0014】次に、標準文字サイズ算出部15では、外
接ブロック抽出部で求められた図2における各1次外接
ブロックBKn(n=1、2、3…、8)について、i
軸方向の幅Hnおよびj軸方向の高さWnを求め、さら
に、HnおよびWnの相加平均を算出し、それにより、
平均的な1文字分のブロックサイズである標準文字サイ
ズを算出する。ここで、図2におけるBK1のような
“一”(いち)およびBK2のような“、”(読点)な
どを計算対象に含めると相加平均値が小さくなり、ま
た、BK7のような複数の文字を包含している1次外接
ブロックを計算対象に含めると相加平均値が大きくな
り、正確な標準文字サイズを算出することができないの
で、1行の行サイズから判断して不適当と思われるブロ
ックは計算対象からはずす。
Next, the standard character size calculator 15 calculates i for each of the primary circumscribed blocks BKn (n = 1, 2, 3,..., 8) in FIG.
The width Hn in the axial direction and the height Wn in the j-axis direction are obtained, and the arithmetic mean of Hn and Wn is calculated.
A standard character size, which is an average block size of one character, is calculated. Here, when "1" (one) like BK1 and "," (reading point) like BK2 in FIG. 2 are included in the calculation target, the arithmetic mean value becomes small, and a plurality of BK7 like BK7 If the primary circumscribing block containing the characters is included in the calculation target, the arithmetic mean value will increase, and it will not be possible to calculate an accurate standard character size. Blocks to be calculated are excluded from the calculation.

【0015】次に、標準文字サイズ算出部15で算出さ
れた標準文字サイズは続け字ブロック検出部16に転送
され、この続け字ブロック検出部16では、外接ブロッ
クメモリ14に記憶された1次外接ブロック情報とこの
標準文字サイズとを比較し、1次外接ブロック情報のう
ちで標準文字サイズよりも大きいブロックを複数の文字
画像を包含しているブロック(例えば、図2におけるB
K7)として特定する。
Next, the standard character size calculated by the standard character size calculation unit 15 is transferred to the continuation character block detection unit 16, and the continuation character block detection unit 16 stores the primary circumscription stored in the circumscription block memory 14. The block information is compared with the standard character size, and a block larger than the standard character size in the primary circumscribed block information is a block containing a plurality of character images (for example, B in FIG. 2).
K7).

【0016】次に、図2のように入力された二値画像を
p(i,j)とし、このp(i,j)を
Next, let the binary image input as shown in FIG. 2 be p (i, j), and p (i, j) be

【0017】 [0017]

【0018】と定義する。## EQU1 ##

【0019】投影分布算出部17では、イメージメモリ
12に記憶された二値画像p(i,j)を行方向に垂直
な方向に投影処理した投影分布h(i)を算出し、その
結果を投影分布メモリ18に記憶させる。ここで、投影
分布h(i)は、
The projection distribution calculation unit 17 calculates a projection distribution h (i) obtained by projecting the binary image p (i, j) stored in the image memory 12 in a direction perpendicular to the row direction. It is stored in the projection distribution memory 18. Here, the projection distribution h (i) is

【0020】 [0020]

【0021】と定義する。さらに、投影分布算出部17
は、算出した投影分布h(i)の頻度分布g(k)を算
出する。ここで、頻度分布g(k)は、
Is defined as Further, the projection distribution calculation unit 17
Calculates the frequency distribution g (k) of the calculated projection distribution h (i). Here, the frequency distribution g (k) is

【0022】 [0022]

【0023】と定義する。投影分布算出部17で算出さ
れた投影分布h(i)および頻度分布g(k)のグラフ
をそれぞれ図3および図4に示す。
Is defined as Graphs of the projection distribution h (i) and the frequency distribution g (k) calculated by the projection distribution calculation unit 17 are shown in FIGS. 3 and 4, respectively.

【0024】次に、しきい値算出部19では、投影分布
算出部17において算出された頻度分布g(k)の値が
最大値をとるときのkの値を算出する。ここで、今後、
そのkの値を線幅度数値mと呼ぶこととする。この線幅
度数値mは、文字ストロークの太さが一定であるなら
ば、投影分布上に文字の太さを高さとする平坦な領域が
あらわれ、投影分布上の平坦部分が頻度分布上では最大
値となってあらわれる性質を用いたものである。
Next, the threshold value calculating section 19 calculates the value of k when the value of the frequency distribution g (k) calculated by the projection distribution calculating section 17 has the maximum value. Here,
The value of k is referred to as a line width degree value m. If the thickness of the character stroke is constant, a flat region having the height of the character thickness appears on the projection distribution, and the flat portion on the projection distribution has the maximum value on the frequency distribution. It uses the property that appears.

【0025】次に、入力画像の投影分布に対し固有の最
適しきい値θsと線幅度数値mとが図5に示すような相
関関係があることを利用して、しきい値算出部19で
は、 θs=a・m+b(aおよびbは定数) という関係式により最適しきい値θsを求める。ここ
で、図5は鉛筆、ボールペン、フェルトペンおよび筆の
ような様々な筆記具で書かれた様々な太さの文字列の入
力画像に対して調査した最適しきい値θsと線幅度数値
mとの相関関係を示している。ここで、本実施例におい
ては、実際の入力画像を対象に調査した結果から、a=
0.4、b=4.1を用いている。ただし、定数aおよ
びbは適用する入力画像の解像度や文字の大きさの分
布、地域性や縦書き横書きといった要素により、最適値
が選ばれる。
Next, utilizing the fact that the inherent optimum threshold value θs and the line width degree value m have a correlation as shown in FIG. 5 with respect to the projection distribution of the input image, the threshold value calculating section 19 , Θs = a · m + b (a and b are constants) to find the optimum threshold value θs. Here, FIG. 5 shows the optimal threshold θs and the line width degree value m, which were investigated for input images of character strings of various thicknesses written with various writing tools such as a pencil, a ballpoint pen, a felt pen, and a brush. Shows the correlation. Here, in the present embodiment, a = a =
0.4 and b = 4.1 are used. However, the optimum values of the constants a and b are selected depending on factors such as the resolution of the input image to be applied, the distribution of the character size, the regionality, the vertical writing and the horizontal writing.

【0026】このようにして算出された最適しきい値θ
sに基づき、分離点決定部20は以下の処理を行う。 (1)投影分布の高さh(i)を最適しきい値θsで二
値化する。 (2)i軸方向にしたがって投影分布を見たとき、投影
分布の高さh(i)がθsよりも高い点からθsを下回
るように移行する変化点のi座標を切り出し候補位置と
する。 (3)投影分布の高さがθsを下回る領域が一定長以上
継続するかを調査し、一定長継続していなければ候補か
らはずす。 (4)i方向の切出し位置で切った結果得られる新しい
ブロック全てに対し、ブロック内をj軸方向に走査して
黒画像の有無を調べ、はじめて黒画像が見つかるまでj
方向のブロックサイズを小さくする。
The optimum threshold value θ thus calculated
Based on s, the separation point determination unit 20 performs the following processing. (1) The height h (i) of the projection distribution is binarized using the optimum threshold value θs. (2) When the projection distribution is viewed along the i-axis direction, the i-coordinate of a change point where the height h (i) of the projection distribution shifts from a point higher than θs to below θs is set as a cutout candidate position. (3) Investigate whether the area where the height of the projection distribution is less than θs continues for a certain length or more, and if it does not continue for a certain length, remove it from the candidates. (4) With respect to all new blocks obtained as a result of cutting at the cutout position in the i direction, the inside of the block is scanned in the j-axis direction to check for a black image, and j is checked until a black image is found for the first time.
Decrease the block size in the direction.

【0027】このようにして分離点決定部20により切
り出されたブロックの情報を最終ブロック情報と呼び、
最終ブロック決定部21は、この最終ブロック情報を最
終ブロックメモリ22へ転送する。ここで、本実施例の
入力画像である図2に対する最終ブロック情報の例を図
6に示す。
The information of the block cut out by the separation point determining unit 20 in this manner is called final block information.
The final block determining unit 21 transfers the final block information to the final block memory 22. Here, FIG. 6 shows an example of the last block information for FIG. 2 which is the input image of the present embodiment.

【0028】また、図7は接触文字、続け字に対する文
字切出し例であり、図8は細い文字に対する文字切出し
例であり、図9は太い文字に対する文字切出し例であ
る。
FIG. 7 is an example of character extraction for a contact character and a continuous character, FIG. 8 is an example of character extraction for a thin character, and FIG. 9 is an example of character extraction for a thick character.

【0029】[0029]

【発明の効果】以上説明したように、本発明による文字
切出し装置は、筆記具に制約の無い自由手書きで不特定
多数の人に記載された続け字や重なり文字を、文字スト
ロークの太さに応じた固有のしきい値を自動的に算出す
る機能を有することにより、高精度な切出しを行うこと
ができる。
As described above, the character extracting apparatus according to the present invention can be used for free-handwriting with no restriction on writing implements, and can be used to convert continuous characters and overlapping characters written by an unspecified number of people according to the thickness of a character stroke. By having the function of automatically calculating the unique threshold value, highly accurate extraction can be performed.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の一実施例を示すブロック図。FIG. 1 is a block diagram showing one embodiment of the present invention.

【図2】入力された二値画像およびその1次外接ブロッ
クを示す図。
FIG. 2 is a diagram showing an input binary image and its primary circumscribed block.

【図3】図2に示した二値画像に対する投影分布図。FIG. 3 is a projection distribution diagram for the binary image shown in FIG. 2;

【図4】図3に示した投影分布図に対する頻度分布図。FIG. 4 is a frequency distribution diagram for the projection distribution diagram shown in FIG. 3;

【図5】線幅度数値と最適しきい値との相関関係を示す
図。
FIG. 5 is a diagram showing a correlation between a line width degree numerical value and an optimum threshold value.

【図6】図2に示した二値画像に対する最終ブロックを
示す図。
FIG. 6 is a diagram showing a final block with respect to the binary image shown in FIG. 2;

【図7】接触文字および続け字に対する文字切出しの例
を示す図。
FIG. 7 is a diagram illustrating an example of character cutout for a contact character and a continuation character.

【図8】細い文字に対する文字切出しの例を示す図。FIG. 8 is a diagram showing an example of character extraction for a thin character.

【図9】太い文字に対する文字切出しの例を示す図。FIG. 9 is a diagram showing an example of character extraction for thick characters.

【図10】座標軸と二値画像の関係を示す図。FIG. 10 is a diagram illustrating a relationship between a coordinate axis and a binary image.

【図11】i軸方向への投影図。FIG. 11 is a projection view in the i-axis direction.

【図12】j軸方向への投影図。FIG. 12 is a projection view in the j-axis direction.

【図13】単純投影法による文字切出しの例を示す図。FIG. 13 is a diagram showing an example of character extraction by the simple projection method.

【符号の説明】[Explanation of symbols]

11 二値画像入力装置 12 イメージメモリ 13 外接ブロック抽出部 14 外接ブロックメモリ 15 標準文字サイズ算出部 16 続け字ブロック検出部 17 投影分布算出部 18 投影分布メモリ 19 しきい値算出部 20 分離点決定部 21 最終ブロック決定部 22 最終ブロックメモリ Reference Signs List 11 binary image input device 12 image memory 13 circumscribed block extraction unit 14 circumscribed block memory 15 standard character size calculation unit 16 continuous character block detection unit 17 projection distribution calculation unit 18 projection distribution memory 19 threshold value calculation unit 20 separation point determination unit 21 last block determination unit 22 last block memory

Claims (3)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 紙葉類上の文字列の各文字を光学的に読
み取って識別する文字認識装置における文字切出し装置
において、 画像入力装置から入力された二値画像を記憶するイメー
ジメモリと、 前記イメージメモリに記憶された二値画素を投影処理
し、得られた投影データから各文字または文字列に外接
するブロックの情報(外接ブロック情報)を抽出する外
接ブロック抽出部と、 前記外接ブロック抽出部において抽出された外接ブロッ
ク情報からその二値画像における標準的な文字ブロック
サイズを算出する標準文字サイズ算出部と、 前記標準文字サイズ算出部において算出された標準的な
文字ブロックサイズと前記外接ブロック情報とを比較し
て複数の文字画像が格納された続け字ブロックを検出す
る続け字ブロック検出部と、 前記イメージメモリに記憶された一行分の文字列二値画
像の投影分布およびその投影分布に対する頻度分布を算
出する投影分布算出部と、 前記投影分布算出部において算出された頻度分布より前
記続け字ブロック検出部で検出された続け字ブロックを
1文字サイズの外接ブロックに分離するのに最適な最適
しきい値を算出するしきい値算出部と、 前記しきい値算出部で算出された最適しきい値に基づい
て、前記続け字ブロックを1文字サイズの外接ブロック
に分離する分離点を決定する分離点決定部と、 前記分離点決定部において決定された分離点座標に基づ
いて最終的な外接ブロックのブロック情報を決定する最
終ブロック決定部とを有することを特徴とする文字切出
し装置。
1. A character cutout device in a character recognition device for optically reading and identifying each character of a character string on a paper sheet, comprising: an image memory for storing a binary image input from an image input device; A circumscribing block extracting unit that projects binary pixels stored in an image memory and extracts information (circumscribing block information) of blocks circumscribing each character or character string from the obtained projection data; A standard character size calculation unit for calculating a standard character block size in the binary image from the circumscribed block information extracted in the above, and a standard character block size calculated by the standard character size calculation unit and the circumscribed block information A continuation character block detection unit for detecting a continuation character block storing a plurality of character images by comparing A projection distribution calculator for calculating a projection distribution of a character string binary image for one line stored in the memory and a frequency distribution for the projection distribution; and a continuation character block detector based on the frequency distribution calculated by the projection distribution calculator. A threshold calculation unit that calculates an optimum threshold value for separating the continuous character block detected in step 1 into circumscribed blocks of one character size; A separation point for determining a separation point for separating the continuous character block into a circumscribed block of one character size based on the separation point coordinates based on the separation point coordinates determined by the separation point determination unit. And a final block determining unit for determining information.
【請求項2】 前記しきい値算出部は、入力文字画像の
太さと前記続け字ブロックを1文字サイズの外接ブロッ
クに分離する最適しきい値との相関関係により、入力文
字画像の太さの変化に応じて変化することを特徴とする
前記請求項1に記載の文字切出し装置。
2. The method according to claim 1, wherein the threshold value calculating unit calculates a thickness of the input character image based on a correlation between the thickness of the input character image and an optimum threshold value for separating the continuous character block into circumscribed blocks of one character size. 2. The character extracting device according to claim 1, wherein the character extracting device changes according to the change.
【請求項3】 前記分離点決定部は、前記投影分布算出
部で算出された文字列二値画像の投影分布の高さを、前
記しきい値算出部で算出された最適しきい値で二値化
し、この投影分布の高さが最適しきい値よりも高い点か
ら低い点に移行する位置を文字切出し位置候補とし、こ
の投影分布の高さが最適しきい値を下回る領域が一定長
継続していなければ、その位置に対応する文字切出し位
置候補を候補からはずすことを特徴とする前記請求項1
に記載の文字切出し装置。
3. The separation point determination unit calculates a height of the projection distribution of the character string binary image calculated by the projection distribution calculation unit using an optimum threshold calculated by the threshold calculation unit. A position where the height of the projection distribution shifts from a point higher than the optimum threshold to a point lower than the optimum threshold is set as a character extraction position candidate, and an area where the height of the projection distribution is lower than the optimum threshold continues for a certain length. 2. The character extracting position candidate corresponding to the position is excluded from the candidates if the position has not been set.
The character extracting device according to 1.
JP5243306A 1993-09-29 1993-09-29 Character extraction device Expired - Lifetime JP2580976B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5243306A JP2580976B2 (en) 1993-09-29 1993-09-29 Character extraction device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5243306A JP2580976B2 (en) 1993-09-29 1993-09-29 Character extraction device

Publications (2)

Publication Number Publication Date
JPH0798747A JPH0798747A (en) 1995-04-11
JP2580976B2 true JP2580976B2 (en) 1997-02-12

Family

ID=17101877

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5243306A Expired - Lifetime JP2580976B2 (en) 1993-09-29 1993-09-29 Character extraction device

Country Status (1)

Country Link
JP (1) JP2580976B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3092576B2 (en) 1998-01-22 2000-09-25 日本電気株式会社 Character recognition device
JP5439069B2 (en) * 2009-07-08 2014-03-12 三菱重工業株式会社 Character recognition device and character recognition method

Also Published As

Publication number Publication date
JPH0798747A (en) 1995-04-11

Similar Documents

Publication Publication Date Title
Manmatha et al. A scale space approach for automatically segmenting words from historical handwritten documents
US5539841A (en) Method for comparing image sections to determine similarity therebetween
US5410611A (en) Method for identifying word bounding boxes in text
US6151423A (en) Character recognition with document orientation determination
US5915039A (en) Method and means for extracting fixed-pitch characters on noisy images with complex background prior to character recognition
Singh et al. Offline script identification from multilingual indic-script documents: a state-of-the-art
Shi et al. Segmentation and recognition of connected handwritten numeral strings
JP2001092919A (en) Method for determining angle of torsion of two- dimensional bar code
JPH05282495A (en) Comparison method
JP2008040693A (en) Line noise removal device, line noise removal method and line noise removal program
US9858477B2 (en) Character segmenting apparatus, character recognition apparatus, and character segmenting method
US5832102A (en) Apparatus for extracting fingerprint features
CN112364834A (en) Form identification restoration method based on deep learning and image processing
Malik et al. An efficient skewed line segmentation technique for cursive script OCR
US6671417B1 (en) Character recognition system
Kim et al. Word segmentation of printed text lines based on gap clustering and special symbol detection
JP2580976B2 (en) Character extraction device
JP3798179B2 (en) Pattern extraction device and character segmentation device
JP2871590B2 (en) Image extraction method
JP2002015283A (en) Method and device for integrating separate character
Karunanayaka et al. Thresholding, Noise Reduction and Skew correction of Sinhala Handwritten Words.
JP3209197B2 (en) Character recognition device and recording medium storing character recognition program
JP3710164B2 (en) Image processing apparatus and method
JPH06139338A (en) Fingerprint pattern classifying device
JP4011859B2 (en) Word image normalization device, word image normalization program recording medium, and word image normalization program

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19960924

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071121

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081121

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081121

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091121

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091121

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101121

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111121

Year of fee payment: 15

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111121

Year of fee payment: 15

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121121

Year of fee payment: 16

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121121

Year of fee payment: 16

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131121

Year of fee payment: 17

EXPY Cancellation because of completion of term