JPH06111064A - 文字切出し方法 - Google Patents

文字切出し方法

Info

Publication number
JPH06111064A
JPH06111064A JP4259501A JP25950192A JPH06111064A JP H06111064 A JPH06111064 A JP H06111064A JP 4259501 A JP4259501 A JP 4259501A JP 25950192 A JP25950192 A JP 25950192A JP H06111064 A JPH06111064 A JP H06111064A
Authority
JP
Japan
Prior art keywords
character
processing step
character string
compulsory
cutoff
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP4259501A
Other languages
English (en)
Other versions
JP2576079B2 (ja
Inventor
Masaomi Nakajima
正臣 中嶋
Toshiyuki Yoshida
敏之 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
N T T DATA TSUSHIN KK
NTT Data Corp
Original Assignee
N T T DATA TSUSHIN KK
NTT Data Communications Systems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by N T T DATA TSUSHIN KK, NTT Data Communications Systems Corp filed Critical N T T DATA TSUSHIN KK
Priority to JP4259501A priority Critical patent/JP2576079B2/ja
Publication of JPH06111064A publication Critical patent/JPH06111064A/ja
Application granted granted Critical
Publication of JP2576079B2 publication Critical patent/JP2576079B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】 【目的】 文字列の周期性を考慮することで、複数文字
や文字部位が接触して記入された自由手書き文字列から
文字を正確に切出すことが可能な文字切出し方法を提供
すること。 【構成】 黒連結成分の外接方形の座標を求める外接方
形計算処理ステップと、該ステップと並行して、文字列
の方向に直交する方向に黒画素数を計数する周辺分布計
算処理ステップと、外接方形から文字サイズを推定する
文字サイズ推定処理ステップと、外接方形の文字列方向
の長さと推定された文字サイズとの比から、強制切断を
実施するか否かを判定する強制切断判定処理ステップ
と、強制切断の対象となった外接方形領域内での周辺分
布の結果を平滑化する平滑化処理ステップと、異なるピ
ッチでの平滑化処理ステップの結果を比較して強制切断
点を探索する範囲を求める強制切断探索範囲検出処理ス
テップと、強制切断探索範囲の中から周辺分布が極小と
なる位置を求めてこの位置で外接方形を分割する強制切
断処理ステップを有することを特徴とする文字切出し方
法。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、光学式文字読取り装置
(以下、「OCR」ともいう)における文字切出し方法に関
するものである。
【0002】
【従来の技術】文字列から文字パタンを切出す場合、黒
画素連結成分の外接方形座標を求め、複数の外接方形を
統合した結果が、予め推定した文字サイズに等しくなる
ような統合パタンを切出す方式が一般的である。しかし
ながら、特に自由手書き文字列の場合は、複数の文字や
文字部位間での接触が生じるため、文字境界の検出結果
に基づき、外接方形を強制的に切断することが必要とな
る。この方法の一つに、文字列の方向と垂直の方向に文
字線数を計数した線密度を用いる方法がある。この方法
では、分割対象の方形の中央付近で、垂直方向の線密度
が極小となるところで方形を分割する。なお、これに関
しては、例えば、仲林等による「あいまい検索を用いた
高速枠なし手書き文字列読取り方式」(信学論(D-II),J
74-D-II,11,PP.1528-1537)の記載が参考になる。
【0003】
【発明が解決しようとする課題】しかしながら、上記従
来技術は、文字形状の局所的な情報のみに着目したもの
であり、文字列内における文字の記入ピッチは等しくな
る傾向にあるといった文字列の周期性については特に考
慮されていない。また、図3における31のように、複
数の文字や文字の部位が接触している場合には、線密度
の探索範囲が必ずしも中央付近にはならないため、上記
従来技術では、正確に文字を切出すことができないとい
う問題があった。本発明は上記事情に鑑みてなされたも
ので、その目的とするところは、従来の技術における上
述の如き問題を解消し、文字列の周期性を考慮すること
で、複数文字や文字部位が接触して記入された自由手書
き文字列から文字を正確に切出すことが可能な文字切出
し方法を提供することにある。
【0004】
【課題を解決するための手段】本発明の上述の目的は、
文字列を光学的に走査することにより得られた画像デー
タから各文字を切出す文字切出し方法において、前記画
像データを文字列の方向に直交する方向に走査して黒連
結成分の外接方形の座標を求める外接方形計算処理ステ
ップと、該ステップと並行して、文字列の方向に直交す
る方向に黒画素数を計数する周辺分布計算処理ステップ
と、前記外接方形を文字列の方向に直交する方向に統合
するか否かを判定するファーストマージ処理ステップ
と、ファーストマージ後の外接方形から文字サイズを推
定する文字サイズ推定処理ステップと、外接方形の文字
列方向の長さと推定された文字サイズとの比から、強制
切断を実施するか否かを判定する強制切断判定処理ステ
ップと、強制切断の対象となった外接方形領域内での周
辺分布の結果を平滑化する平滑化処理ステップと、異な
るピッチでの平滑化処理ステップの結果を比較して強制
切断点を探索する範囲を求める強制切断探索範囲検出処
理ステップと、強制切断探索範囲の中から周辺分布が極
小となる位置を求めてこの位置で外接方形を分割する強
制切断処理ステップおよび方形座標を文字列の方向に統
合するか否かを判定するセカンドマージ処理ステップを
有することを特徴とする文字切出し方法により達成され
る。
【0005】
【作用】本発明に係る文字切出し方法においては、文字
の周辺分布を異なるピッチで平滑化した結果に着目して
いる。すなわち、OCRでは、帳票等をラスタスキャン
した画素データを処理対象とするが、周辺分布は、この
データ中の文字列の方向と垂直の方向に黒画素数を計数
した値である。文字には、中央付近の黒画素数が多くな
る傾向があること、文字の記入ピッチは文字列内におい
ては等しくなる傾向にあること等の特性があり、このこ
とは、文字列の周期性としてとらえることができる。図
2に、文字列の一例を示す。図2における21は文字の
原パタン、22は周辺分布の取得結果、23は予め推定
した文字サイズの1/4をピッチとして周辺分布に対し
て平滑化処理を2回施した後の黒画素数、24は上述の
黒画素数23の結果に対して更に文字サイズをピッチと
して平滑化を施した後の黒画素数を示している。図2の
黒画素数23および24からも明らかなように、平滑化
後の黒画素数は局所的な変動が取り除かれ、文字列の周
期的な変動傾向が反映されたものとなっている。黒画素
数の変動傾向を更に詳細に検討すると、図2の黒画素数
23では、各文字ごとに文字のピークが顕著に現われて
いる。また、図2の黒画素数23のピークを検出した後
の周辺分布の取得結果22と黒画素数23の交点と次の
交点との間に文字の境界が存在し、この境界は黒画素数
が極小となる位置と一致することが分かる。本発明に係
る文字切出し方法においては、以上の黒画素数の周期的
な変動傾向に基づき、文字の接触が発生している場合に
おいても、精度良く文字を切出すことを可能とするもの
である。
【0006】
【実施例】以下、本発明の実施例を図面に基づいて詳細
に説明する。図1は、本発明の一実施例に係る文字切出
し装置の構成を示すブロック図である。スキャナ等の画
像入力装置から読み込まれた画像データは、図1におけ
る画像メモリ1に格納される。黒連結成分外接方形計算
回路2では、画像メモリ1中の文字列を、文字列の方向
と直交する方向に走査して、黒連結成分外接方形を求め
る。求められた結果の一例を、図3(a)に示す。これと
並行して、周辺分布計算回路3では、文字列の方向と直
交する方向に黒画素数を計数することにより、周辺分布
を求める。求めらるた結果の一例を、図2の22に示
す。次に、ファーストマージ回路4では、黒連結成分外
接方形の文字列の方向と直交する方向への統合を行う。
すなわち、文字列の方向と平行な座標軸への写像の重な
り部分の長さが、重なる両外接方形の文字列方向の長さ
のうち短い方の値の1/2と比較して長い場合に統合を
行う。統合後の外接方形の一例を、図3(b)に示す。
【0007】前述の如く、文字には、文字の幅と高さが
ほぼ等しくなるという特性があるため、文字の幅または
高さのいずれかが推定できれば、この値を文字サイズと
考えることができる。文字サイズ推定回路5では、文字
のこのような特性に基づき、ファーストマージ後の外接
方形の文字列の方向と直交する方向の長さの平均値また
は中央値を求めることにより、文字サイズを推定する。
次に、強制切断判定回路6では、ファーストマージ後の
外接方形の文字列方向の長さと、文字サイズ推定値との
比をとり、この値がしきい(閾)値以上である場合に、当
該外接方形を強制切断候補とする。なお、しきい値を
1.2とした場合、図3(b)における31が強制切断候
補となる。平滑化回路7では、強制切断候補となった領
域内での周辺分布の平滑化を実施する。ここでの平滑化
は、移動平均法による。文字サイズの1/4をピッチと
して2回の平滑化を実施した結果、求められた結果の一
例を、図2の23に示し、この結果を更に文字幅をピッ
チとして平滑化した結果を、図2の24に示す。
【0008】次に、強制切断探索範囲検出回路8では、
上述の平滑化結果を用いて、強制切断探索範囲を決定す
る。ここでの位置決定方法の詳細を、図4に示す。 ステップ41:初期設定 平滑化結果の追跡開始位置を登録する。 ステップ42:フラグクリア flg_one(尾根を検出したことを示すフラグ),flg_tani
(谷を検出したことを示すフラグ),flg_start(切断探索
範囲の開始点とすることを示すフラグ),flg_end(切断
探索範囲の終了点とすることを示すフラグ)をオフにす
る。 ステップ43:追跡位置での平滑化結果の取得 文字サイズの1/4をピッチとして、2回平滑化した結
果をa、aを更に平滑化した結果をbとする。 ステップ44:a−bをしきい値より大きい場合 flg_oneをオンにする。
【0009】なお、flg_start,flg_endがオンの場合に
は、登録されている探索開始点,終了点を出力し、flg_
start,flg_end,flg_taniをオフにする。 ステップ45:flg_oneがオン、かつ、flg_start要オフ、
かつ、a≦bの場合 現在の追跡位置を探索開始点として登録する。flg_star
tをオンにする。 ステップ46:flg_startがオン、かつ、b−aがしきい
値より大きい場合 flg_taniをオンにする。 ステップ47:flg_taniがオン、かつ、flg_endがオフ、
かつ、a≧bの場合 現在点の追跡位置を探索終了点として登録する。flg_en
dをオンにする。flg_taniをオンにする。 ステップ48:追跡位置が対象領域内である場合はステッ
プ43に進み、領域外である場合は、終了する。
【0010】次に、強制切断回路9では、強制切断探索
範囲の中から周辺分布が極小となる位置を求め、この点
で外接方形を強制切断する。求められた結果の一例を、
図3(c)に示す。セカンドマージ回路10では、外接方
形の文字列の方向での統合を試み、統合後の外接方形の
縦横比が1に近くなるように、外接方形を求める。求め
られた結果の一例を、図3(d)に示す。これが、最終的
な切出し結果となる。上記実施例によれば、文字や文字
の部位間での接触が発生する自由手書き文字列からの文
字の切出しにおいても、文字パタンを確度よく切出すこ
とができるという効果が得られる。図5に、上記実施例
に示した文字切出し装置を応用したOCRの構成を示
す。図中、51はスキャナ等の画像入力装置、52は本
発明に係る文字切出し装置、53は文字の特徴抽出部、
54は文字識別部、55は識別結果の表示部を示してい
る。
【0011】本装置の効果は、前述の文字切出し装置の
効果に基づき文字認識を行う結果、文字を精度よく認識
できる点にある。なお、上記実施例は本発明の一例を示
したものであり、本発明はこれに限定されるべきもので
ないことは言うまでもないことである。例えば、図1に
示した平滑化処理7は、必ずしも文字列すべてについて
行う必要はなく、文字や文字の部位間での接触が発生し
ている部分についてのみ行うようにしてもよい。
【0012】
【発明の効果】以上、詳細に説明した如く、本発明によ
れば、文字列の周期性を考慮することで、複数文字や文
字部位が接触して記入された自由手書き文字列から文字
を正確に切出すことが可能な文字切出し方法を実現でき
るという顕著な効果を奏するものである。
【0013】
【図面の簡単な説明】
【図1】本発明の一実施例に係る文字切出し装置の構成
を示すブロック図である。
【図2】周辺分布と前辺分布の平滑化結果を説明する図
である。
【図3】実施例に係る文字切出し装置の処理の流れを黒
連結外接方形により説明する図である。
【図4】強制切断探索範囲検出方法の処理の流れを示す
図である。
【図5】本発明に係る文字切出し方法を適用したOCR
のブロック構成図である。
【符号の説明】
1:画像メモリ、2:黒連結成分外接方形計算回路、
3:周辺分布計算回路、4:ファーストマージ回路、
5:文字サイズ推定回路、6:強制切断判定回路、7:
平滑化回路、8:強制切断探索範囲検出回路、9:強制
切断回路、10:セカンドマージ回路、21:文字の原
パタン、22:周辺分布の取得結果、23:周辺分布を
平滑化処理した結果の黒画素数、24:黒画素数23を
更に平滑化処理した結果の黒画素数。
─────────────────────────────────────────────────────
【手続補正書】
【提出日】平成4年10月20日
【手続補正1】
【補正対象書類名】図面
【補正対象項目名】図2
【補正方法】変更
【補正内容】
【図2】
【手続補正2】
【補正対象書類名】図面
【補正対象項目名】図3
【補正方法】変更
【補正内容】
【図3】

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 文字列を光学的に走査することにより得
    られた画像データから各文字を切出す文字切出し方法に
    おいて、前記画像データを文字列の方向に直交する方向
    に走査して黒連結成分の外接方形の座標を求める外接方
    形計算処理ステップと、該ステップと並行して、文字列
    の方向に直交する方向に黒画素数を計数する周辺分布計
    算処理ステップと、前記外接方形を文字列の方向に直交
    する方向に統合するか否かを判定するファーストマージ
    処理ステップと、ファーストマージ後の外接方形から文
    字サイズを推定する文字サイズ推定処理ステップと、外
    接方形の文字列方向の長さと推定された文字サイズとの
    比から、強制切断を実施するか否かを判定する強制切断
    判定処理ステップと、強制切断の対象となった外接方形
    領域内での周辺分布の結果を平滑化する平滑化処理ステ
    ップと、異なるピッチでの平滑化処理ステップの結果を
    比較して強制切断点を探索する範囲を求める強制切断探
    索範囲検出処理ステップと、強制切断探索範囲の中から
    周辺分布が極小となる位置を求めてこの位置で外接方形
    を分割する強制切断処理ステップ、および、方形座標を
    文字列の方向に統合するか否かを判定するセカンドマー
    ジ処理ステップを有することを特徴とする文字切出し方
    法。
JP4259501A 1992-09-29 1992-09-29 文字切出し方法 Expired - Lifetime JP2576079B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4259501A JP2576079B2 (ja) 1992-09-29 1992-09-29 文字切出し方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4259501A JP2576079B2 (ja) 1992-09-29 1992-09-29 文字切出し方法

Publications (2)

Publication Number Publication Date
JPH06111064A true JPH06111064A (ja) 1994-04-22
JP2576079B2 JP2576079B2 (ja) 1997-01-29

Family

ID=17334979

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4259501A Expired - Lifetime JP2576079B2 (ja) 1992-09-29 1992-09-29 文字切出し方法

Country Status (1)

Country Link
JP (1) JP2576079B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009026287A (ja) * 2007-07-23 2009-02-05 Sharp Corp 文字画像抽出装置および文字画像抽出方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59128678A (ja) * 1983-01-12 1984-07-24 Nec Corp 文字切り出し装置
JPS6015781A (ja) * 1983-07-08 1985-01-26 Nippon Telegr & Teleph Corp <Ntt> 文字切出し装置
JPH02277185A (ja) * 1989-04-18 1990-11-13 Sharp Corp 矩形座標抽出方法
JPH0417086A (ja) * 1990-05-10 1992-01-21 Ricoh Co Ltd 文字切り出し方法
JPH0415776A (ja) * 1990-05-01 1992-01-21 Fuji Facom Corp 文字のサイズ情報抽出方法
JPH0484279A (ja) * 1990-07-26 1992-03-17 Matsushita Electric Ind Co Ltd 画像編集装置
JPH04130979A (ja) * 1990-09-21 1992-05-01 Ricoh Co Ltd 文字画像切出し方法
JPH04149685A (ja) * 1990-10-09 1992-05-22 Nec Corp 接触文字切出し方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59128678A (ja) * 1983-01-12 1984-07-24 Nec Corp 文字切り出し装置
JPS6015781A (ja) * 1983-07-08 1985-01-26 Nippon Telegr & Teleph Corp <Ntt> 文字切出し装置
JPH02277185A (ja) * 1989-04-18 1990-11-13 Sharp Corp 矩形座標抽出方法
JPH0415776A (ja) * 1990-05-01 1992-01-21 Fuji Facom Corp 文字のサイズ情報抽出方法
JPH0417086A (ja) * 1990-05-10 1992-01-21 Ricoh Co Ltd 文字切り出し方法
JPH0484279A (ja) * 1990-07-26 1992-03-17 Matsushita Electric Ind Co Ltd 画像編集装置
JPH04130979A (ja) * 1990-09-21 1992-05-01 Ricoh Co Ltd 文字画像切出し方法
JPH04149685A (ja) * 1990-10-09 1992-05-22 Nec Corp 接触文字切出し方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009026287A (ja) * 2007-07-23 2009-02-05 Sharp Corp 文字画像抽出装置および文字画像抽出方法
US8750616B2 (en) 2007-07-23 2014-06-10 Sharp Kabushiki Kaisha Character image extracting apparatus and character image extracting method

Also Published As

Publication number Publication date
JP2576079B2 (ja) 1997-01-29

Similar Documents

Publication Publication Date Title
US6072895A (en) System and method using minutiae pruning for fingerprint image processing
JP2835274B2 (ja) 画像認識装置
US6674900B1 (en) Method for extracting titles from digital images
US5539841A (en) Method for comparing image sections to determine similarity therebetween
US6266433B1 (en) System and method for determining ridge counts in fingerprint image processing
JP3308032B2 (ja) スキュー補正方法およびスキュー角検出方法およびスキュー補正装置およびスキュー角検出装置
US20030152272A1 (en) Detecting overlapping images in an automatic image segmentation device with the presence of severe bleeding
US9324001B2 (en) Character recognition device and character segmentation method
JP2002208007A (ja) スキャンした文書の自動式検出
JPH11219407A (ja) 文書画像認識装置および文書画像認識プログラムの記憶媒体
JP2002133426A (ja) 多値画像から罫線を抽出する罫線抽出装置
EP0785522A2 (en) Method and system for detecting a pattern in an image
JP2017535891A (ja) テキストを検出する方法およびその装置
CN115082942A (zh) 一种基于YOLO v5的文档图像流程图识别方法、设备及介质
KR20010015025A (ko) 문자인식장치의 문자추출방법 및 장치
JPH09311905A (ja) 行検出方法および文字認識装置
JP2576079B2 (ja) 文字切出し方法
JP3090342B2 (ja) 文字列方向判別装置
JPH06203202A (ja) 画像処理装置
JP3281469B2 (ja) 文書画像の傾き検出方法および装置
JP3466899B2 (ja) 文字認識装置及び方法並びにプログラム記憶媒体
JP2832928B2 (ja) 文字認識方法
CN114332108B (zh) 一种图片中的虚实线局部区域的提取方法
JPH02278104A (ja) 文書画像の傾き角検出方法
JP3077929B2 (ja) 文字切出し方式

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071107

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081107

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091107

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091107

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101107

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111107

Year of fee payment: 15

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121107

Year of fee payment: 16

EXPY Cancellation because of completion of term