JP2576080B2 - 文字切出し方法 - Google Patents
文字切出し方法Info
- Publication number
- JP2576080B2 JP2576080B2 JP4289784A JP28978492A JP2576080B2 JP 2576080 B2 JP2576080 B2 JP 2576080B2 JP 4289784 A JP4289784 A JP 4289784A JP 28978492 A JP28978492 A JP 28978492A JP 2576080 B2 JP2576080 B2 JP 2576080B2
- Authority
- JP
- Japan
- Prior art keywords
- circumscribed rectangle
- processing step
- character
- calculation processing
- merge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Character Input (AREA)
Description
(以下、「OCR」という)等に適用するに好適な文字切出
し方法に関する。
ッチ帳票から文字パタンを切出す場合は、文字列の方向
と直交する方向に黒点数を計数した周辺分布を求め、こ
の周辺分布が極小となる位置から文字ピッチ分の範囲を
文字領域とすることができる。しかしながら、自由手書
き文字列においては、文字間のピッチが必ずしも一定に
ならないため、周辺分布の情報のみでは高精度な文字切
出しを実現することはではない。このため、従来は、自
由手書き文字列から文字パタンを切出す場合は、文字線
分のつながりに着目した黒画素連結成分の外接方形を求
め、対象パタンの外接方形が隣接した外接方形と統合さ
れるか否かを判定する方式が一般的である。この場合、
「文字は正方形に近い」,「方形の間隔が離れていれば別の
文字である可能性が高い」という仮定に基づいて外接方
形の分離,統合を行い、文字領域を確定していた。な
お、これに関しては、例えば、仲林等による「あいまい
検索を用いた高速枠なし手書き文字列読取り方式」(信学
論(D-II),J74-D-II,11,pp.1528-1537)の記載が参考
になる。
方形の分離,統合を判定する特徴量として、外接方形の
縦横比と方形間の間隔を用い、各特徴量が一定条件を満
足した場合に外接方形を統合していた。しかしながら、
これらの特徴量は、特に自由手書き文字列においては、
筆記者による変動が大きく、例外パタンが数多く発生す
るため、十分な文字切出し正解率が得られているとは言
えない現状にある。本発明は上記事情に鑑みてなされた
もので、その目的とするところは、従来の技術における
上述の如き問題を解消し、自由手書き文字列からの文字
切出し正解率の向上を図るために、筆記者による文字変
動に対しての許容度の大きい文字切出し方法を提供する
ことにある。
理対象となる文字列を光学的に走査することにより画像
データを取得するステップと、取得した画像データを文
字列の方向(x方向)に直交する方向に走査して、黒連
結成分の外接方形の座標を求める外接方形計算処理ステ
ップと、該外接方形計算処理ステップと並行して、文字
列の方向に直交する方向(y方向)に黒画素数を計数す
る周辺分布計算処理ステップと、前記外接方形計算処理
ステップにより求めた外接方形をy方向に統合するか否
かを判定するファーストマージ処理ステップと、該ファ
ーストマージ処理ステップによるファーストマージ後の
外接方形から文字サイズを推定する文字サイズ推定処理
ステップと、前記周辺分布計算処理ステップによる周辺
分布計算処理結果に基づいて文字や文字の部位間での接
触を判定し、当該個所をy方向の切断線で分離する強制
切断処理ステップと、対象外接方形をx方向に隣接した
外接方形と統合するか否かを判定するセカンドマージ処
理ステップとを有する文字切出し方法において、前記外
接方形計算処理ステップにより求めた外接方形・該外接
方形中前記ファーストマージ処理ステップによるファー
ストマージ後の外接方形および前記外接方形計算処理ス
テップにより求めた外接方形から前記強制切断処理ステ
ップにより切断されて生じた外接方形(対象外接方形)
に包含される文字パタンの重心の少なくともx座標を算
出する重心座標算出ステップと、前記対象外接方形のy
方向長さ,重心間のx方向長さ,統合後の外接方形とx
方向に隣接した外接方形との間隔を求める図形特徴算出
処理ステップと、該図形特徴算出処理ステップにより算
出された図形特徴を前記文字サイズ推定処理ステップに
より推定された文字サイズの推定値で標準化する外接方
形統合判定用特徴量算出処理ステップとを設けるととも
に、前記セカンドマージ処理ステップにおける統合する
か否かの判定は、予め求められている線形判別関数の係
数項と前記特徴量とを積和した値と前記線形判別関数の
定数項との合計値に基づいて行うことを特徴とする文字
切出し方法により達成される。
の外接方形統合判定用の特徴量(以下、単に「特徴量」と
いう)に対して重み付けをすることによって求められる
合成変量に基づいて、対象外接方形を隣接した外接方形
と統合する群と、統合しない群との2群に分類すること
を特徴としている。上述の重みを求める手段としては、
例えば、判別分析を利用する。ここで、判別分析とは、
複数の判定要因から一つの統合判定要因を得る方法であ
り、下記の式(1)の右辺に複数のサンプルの特徴量を代
入して判別分析を実行すると、前述の2群を最もよく分
類するための合成変量を決定する線形判別関数の重みと
定数項が求められる。なお、前述の2群の分類は、例え
ば、合成変量の符号が正である群と負である群に分けれ
ばよい。判別分析を文字切出しの適用対象を代表するサ
ンプルに対して実施し、予め重みと定数項とを求めてお
けば、それ以降は、対象外接矩形の特徴量を算出して、
式(1)の合成変量を求めることで、隣接した外接方形と
統合すべきか否かを決定することができる。 fi=a0+a1zi1+a2zi2+・・・・+anzin ・・・・(1) i :対象となるサンプルを示す fi :サンプルiに関する合成変量(本変量の符
号により、2群のうちどちらかに属するかが決定され
る) zi1〜zin:線形判別関数で用いる サンプルiに関す
るn種類の特徴量 a0 :線形判別関数の定数項 a1〜an :各特徴量毎に得られる重み
特徴に関する詳細な説明を図2に、また、図形特徴に基
づいて算出される特徴量の算出方法を図3に示す。な
お、本発明に係る文字切出し方法においては、すべての
特徴量を選択することも可能であるが、線形判別関数の
重みを検定し、検定結果が有意となった特徴量のみを用
いることも可能である。線形判別関数の重みと定数項を
求めるために、判別分析を、住所の地名部20件、計2
00文字に対して適用した結果を、式(2)に示す。 f=-10.35+(-8.14)*統合後外接方形y方向サイズ +29.23*重心間x方向距離 +(-14.97)*統合後外接矩形間隔 +0.70*統合後線密度平均値 ・・・・(2) 式(2)に記述されていない特徴量は、全特徴量を用いた
判別分析において重みの検定結果が有意とならなかった
ものであり、式(2)の重みと定数項は、有意とならない
特徴量は除いて判別分析を実施した結果である。なお、
式(2)では、統合すべき場合に合成変量fが負となるよ
うに設定されている。解析の結果、95%の切出し正解率
が得られた。このことは、式(2)の重みと定数項を用い
て同様な母集団を持つサンプルに対して本発明に係る文
字切出し方法を適用すれば、同様な切出し正解率が期待
できることを示している。式(2)中の各係数を考察する
と、重心間x方向距離が大きいほど、統合矩形は分離さ
れる傾向にあり、また、統合後外接方形y方向サイズが
大きいほど、統合矩形は統合される傾向にあることが分
かる。これらは、文字は正方形に近いという仮説と一致
する。また、特徴量として、重心間のx方向距離が選択
されているが、重心は、一部の線分の突出による影響を
あまり受けないため、筆記者の文字変動に対しても、許
容度の大きい文字切出しが可能となる。
に説明する。図1は、本発明の一実施例に係る文字切出
し装置の構成を示すブロック図である。図において、1
はスキャナ等の画像入力装置から読み込まれた画像デー
タを格納する画像メモリ、2は画像メモリ1中の文字列
を文字列の方向(x方向)と直交する方向(y方向)に走査
して、黒連結成分外接方形を求める黒連結成分外接方形
計算回路、3は同じくy方向に黒画素数を計数して周辺
分布を求める周辺分布計算回路、4は同じくy方向に線
分数を計数して線密度を求める線密度計算回路を示して
いる。上述の黒連結成分外接方形計算回路2,周辺分布
計算回路3および線密度計算回路4は並行して動作し、
対象文字列の黒連結成分外接方形,周辺分布および線密
度を得るものである。また、5は黒連結成分外接方形の
y方向への統合を行うファーストマージ回路である。本
ファーストマージ回路5は、x方向と平行な座標軸への
写像の重なり部分の長さが、重なる両外接方形のx方向
の長さのうち、短い方の値の1/2と比較して長い場合
に外接方形の統合を行うものである。
等しくなるという特性があるため、文字の幅または高さ
のいずれかが推定できれば、この値を文字サイズと考え
ることができるということを示している。6は文字の上
述の如き特性に基づき、ファーストマージ後の外接方形
のy方向の長さの平均値または中央値を求めることによ
り、文字サイズを推定する文字サイズ推定回路を示して
いる。また、7は文字や文字の部位間での接触を判定
し、当該個所をy方向の線分により分離する強制切断回
路である。本強制切断判定回路7としては、本出願人が
先に特願平4-259501号「文字切出し方法」により提案した
強制切断回路を使用することができる。この強制切断回
路は、外接方形のx方向の長さと推定された文字サイズ
との比から、強制切断を実施するか否かを判定する処理
と、強制切断の対象となった外接方形領域内での周辺分
布の結果を平滑化する処理と、異なるピッチでの平滑化
処理結果を比較して、強制切断点を探索する範囲を求め
る強制切断探索範囲検出処理と、強制切断探索範囲の中
から周辺分布が極小となる位置を求めて、この位置で外
接方形を分割する処理を実施するものである。
含まれる文字パタンの重心の座標を算出する。図形特徴
量算出回路9は、対象となる外接方形とx方向に隣接し
た外接方形に着目し、先に図2に示した、〜の図形
特徴量を算出する。更に、外接方形統合判定用特徴量算
出回路10では、上述の図形特徴量算出回路9による図
形特徴量、および、前述の文字サイズ推定回路6による
推定結果を用いて、図3に示した計算式により、標準化
された特徴量を算出する。最後に、セカンドマージ回路
11において、上述の外接方形統合判定用特徴量算出回
路10で算出された特徴量と、予め推定された線形判別
関数の重みと定数項を用いて合成変量を求め、合成変量
の符号に基づいて外接方形をx方向に隣接した外接方形
と統合するか否かを判定する。統合する場合は、統合後
の外接方形を新たな対象として、上述の重心算出以降の
処理を実施する。上記実施例によれば、自由手書き文字
列から切出した文字の、複数の外接方形の統合判定を行
うことにより、筆記者による文字変動に対する許容度の
大きい、自由手書き文字列からの文字切出し正解率を向
上させた文字切出し方法を実現できるという効果が得ら
れる。
の図形特徴量をすべて算出するようにしているが、こ
のうちの一部、例えば、の重心間縦方向距離等は省略
することができる。また、図2に示した〜の図形特
徴量の算出方法は、上記実施例に示した方法と異なる方
法を用いてもよい。ここで、上述の各処理回路による処
理の内容を具対例で示すことにする。図5は、本出願人
が先に提出した特願平4−259501号「文字切出し
方法」に図3として添付された図と同じ図である。図5
中、(a)は図1中の黒連結成分外接方形計算回路2に
より求められた外接方形の例を示す図、(b)は同ファ
ーストマージ回路5によりy方向への統合が行われた後
の外接方形の例を示す図、(c)は同強制切断回路7に
よりy方向の線分で分離された後の外接方形の例を示す
図、(d)は同セカンドマージ回路11による外接方形
統合が行われた後の最終出力である外接方形の例を示す
図である。 図5中、(a)→(b)の間では「千」,一
部を除いた「県」,「市」等の各文字がファーストマー
ジ処理により統合され、(b)→(c)の間では「左倉
市」(31)の部分が強制切断処理により分割され、
(c)→(d)の間では「県」,「佐」がセカンドマー
ジ処理により統合されている。なお、上述の特願平4−
25951号「文字切出し方法」に提案した方法では、
セカンドマージ処理における統合方法としては、本願明
細書中にも引用している文献(信学論(D−II),J
74−D−II,11,pp.1528−1537)に
示されている一般的な方法を用いているが、本発明で
は、図形特徴量を用いるようにしたことにより、文字切
出しの正解率をより向上させているものである。図4
に、上述の文字切出し装置を応用したOCRの概略構造
を示す。図4において、41はスキャナ等の画像入力装
置、42は上記実施例に示した文字切出し装置、43は
文字の特徴抽出部、44は文字識別部、45は識別結果
表示部を示している。本実施例に示すOCRによれば、
筆記者による文字変動に対する許容度の大きい、自由手
書き文字列からの文字切出し正解率を向上させたOCR
を実現できるという効果が得られる。上記実施例はあく
までも本発明の一例を示したものであって、本発明はこ
れに限定されるべきものではないことはいうまでもない
ことである。
れば、筆記者による文字変動に対する許容度の大きい、
自由手書き文字列からの文字切出し正解率を向上させる
ことが可能な文字切出し方法を実現できるという顕著な
効果を奏するものである。
を示すブロック図である。
る。
徴量の算出方法を説明する図である。
の概略構成を示す図である。
を示す図である。
3:周辺分布計算回路、4:線密度計算回路、5:ファ
ーストマージ回路、6:文字サイズ推定回路、7:強制
切断回路、8:重心算出回路、9:図形特徴量算出回
路、10:外接方形統合判定用特徴量算出回路、11:
セカンドマージ回路。
Claims (2)
- 【請求項1】 処理対象となる文字列を光学的に走査す
ることにより画像データを取得するステップと、取得し
た画像データを文字列の方向(x方向)に直交する方向
に走査して、黒連結成分の外接方形の座標を求める外接
方形計算処理ステップと、該外接方形計算処理ステップ
と並行して、文字列の方向に直交する方向(y方向)に
黒画素数を計数する周辺分布計算処理ステップと、前記
外接方形計算処理ステップにより求めた外接方形をy方
向に統合するか否かを判定するファーストマージ処理ス
テップと、該ファーストマージ処理ステップによるファ
ーストマージ後の外接方形から文字サイズを推定する文
字サイズ推定処理ステップと、前記周辺分布計算処理ス
テップによる周辺分布計算処理結果に基づいて文字や文
字の部位間での接触を判定し、当該個所をy方向の切断
線で分離する強制切断処理ステップと、対象外接方形を
x方向に隣接した外接方形と統合するか否かを判定する
セカンドマージ処理ステップとを有する文字切出し方法
において、前記外接方形計算処理ステップにより求めた
外接方形,該外接方形中前記ファーストマージ処理ステ
ップによるファーストマージ後の外接方形および前記外
接方形計算処理ステップにより求めた外接方形から前記
強制切断処理ステップにより切断されて生じた外接方形
(対象外接方形)に包含される文字パタンの重心の少な
くともx座標を算出する重心座標算出ステップと、前記
対象外接方形のy方向長さ,重心間のx方向長さ,統合
後の外接方形とx方向に隣接した外接方形との間隔を求
める図形特徴算出処理ステップと、該図形特徴算出処理
ステップにより算出された図形特徴を前記文字サイズ推
定処理ステップにより推定された文字サイズの推定値で
標準化する外接方形統合判定用特徴量算出処理ステップ
とを設けるとともに、前記セカンドマージ処理ステップ
における統合するか否かの判定は、予め求められている
線形判別関数の係数項と前記特徴量とを積和した値と前
記線形判別関数の定数項との合計値に基づいて行うこと
を特徴とする文字切出し方法。 - 【請求項2】 前記各ステップに加えて、y方向に線分
数を計数する線密度計算処理ステップを有するととも
に、前記図形特徴算出処理ステップにおいて統合後の外
接方形の線密度合計値を求め、これらの結果をも考慮し
て、対象外接方形をx方向に隣接した外接方形と統合す
るか否かを判定することを特徴とする請求項1記載の文
字切出し方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4289784A JP2576080B2 (ja) | 1992-10-28 | 1992-10-28 | 文字切出し方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4289784A JP2576080B2 (ja) | 1992-10-28 | 1992-10-28 | 文字切出し方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH06139407A JPH06139407A (ja) | 1994-05-20 |
JP2576080B2 true JP2576080B2 (ja) | 1997-01-29 |
Family
ID=17747729
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4289784A Expired - Lifetime JP2576080B2 (ja) | 1992-10-28 | 1992-10-28 | 文字切出し方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2576080B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5636766B2 (ja) * | 2010-06-28 | 2014-12-10 | 富士ゼロックス株式会社 | 画像処理装置及び画像処理プログラム |
-
1992
- 1992-10-28 JP JP4289784A patent/JP2576080B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH06139407A (ja) | 1994-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6970601B1 (en) | Form search apparatus and method | |
US6754385B2 (en) | Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof | |
KR100658119B1 (ko) | 문자 인식 장치 및 방법 | |
US6917708B2 (en) | Handwriting recognition by word separation into silhouette bar codes and other feature extraction | |
JP3428494B2 (ja) | 文字認識装置及びその文字認識方法並びにその制御プログラムを記録した記録媒体 | |
JP2576080B2 (ja) | 文字切出し方法 | |
JP3798179B2 (ja) | パターン抽出装置及び文字切り出し装置 | |
JP2917427B2 (ja) | 図面読取装置 | |
JP2000331122A (ja) | 文字認識方法および装置 | |
JP2001283157A (ja) | 単語認識方法および単語認識プログラム | |
JP2902097B2 (ja) | 情報処理装置及び文字認識装置 | |
JP3100825B2 (ja) | 線認識方法 | |
JPH05282487A (ja) | 文字認識装置 | |
JP2993533B2 (ja) | 情報処理装置及び文字認識装置 | |
JP3127413B2 (ja) | 文字認識装置 | |
JPH10214308A (ja) | 文字判別方法 | |
JP2982221B2 (ja) | 文字読み取り装置 | |
JP3039427B2 (ja) | 文字切り出し方式及び方法 | |
JPH1185905A (ja) | 書体識別装置および書体識別方法および情報記憶媒体 | |
JP2792063B2 (ja) | 文字認識辞書作成方式 | |
JPH03126188A (ja) | 文字認識装置 | |
JP2778436B2 (ja) | 文字切り出し装置 | |
JPS62187988A (ja) | 光学的文字認識方式において使用する処理手段 | |
JPH0798747A (ja) | 文字切出し装置 | |
JP2002189984A (ja) | 文書読取装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071107 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081107 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091107 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091107 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101107 Year of fee payment: 14 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111107 Year of fee payment: 15 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121107 Year of fee payment: 16 |
|
EXPY | Cancellation because of completion of term |