JP2002015283A - 分離文字列統合方法および装置 - Google Patents

分離文字列統合方法および装置

Info

Publication number
JP2002015283A
JP2002015283A JP2001115133A JP2001115133A JP2002015283A JP 2002015283 A JP2002015283 A JP 2002015283A JP 2001115133 A JP2001115133 A JP 2001115133A JP 2001115133 A JP2001115133 A JP 2001115133A JP 2002015283 A JP2002015283 A JP 2002015283A
Authority
JP
Japan
Prior art keywords
character string
character
rectangle
rectangles
separated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001115133A
Other languages
English (en)
Other versions
JP3957471B2 (ja
Inventor
Yutaka Katsuyama
裕 勝山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2001115133A priority Critical patent/JP3957471B2/ja
Publication of JP2002015283A publication Critical patent/JP2002015283A/ja
Application granted granted Critical
Publication of JP3957471B2 publication Critical patent/JP3957471B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 文字認識において誤認識の原因となる分離文
字列を誤りなく統合し、分離文字に起因する誤認識を防
止すること。 【解決手段】 文書画像から文字列矩形を抽出し、文字
列矩形内の分離文字列矩形を統合する。ついで、2以上
の文字列矩形に分離した分離文字列を次のように統合す
る。文字列矩形内部の文字数が少ない文字列矩形に注目
し、その文字列矩形のの上下(横書き)もしくは左右
(縦書き)にある文字列を、推定文字列サイズ程度にな
るように仮統合する。新たに統合してできた文字矩形を
文字認識し、文字認識の評価値(例えば距離値)が一定
基準を満たすか否かを判定し、分離文字列の仮統合結果
を検証する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】近年、企業では、情報の共有
化や迅速な情報利用の観点から紙文書をスキャナなどで
電子化して共有する文書管理システムが使用され、業務
の効率化に貢献している。また、組織ではなく、個人の
環境でもパソコンが普及し、従来の紙文書との連携の必
要性から、日本語OCRの、特に精度について強い要求
がある。本発明は上記日本語OCRにおいて誤認識を防
止する技術に関し、特に、上下分離文字に起因する誤認
識を防止することができる分離文字列統合方法および装
置に関するものである。
【0002】
【従来の技術】従来の分離文字列の統合技術として、以
下の技術が提案されている。例えば、特開平5−073
717号「光学文字読取装置」では、文書画像を縦長の
短冊状に分割し、短冊毎に横方向に投影して、文字列の
範囲を求め、短冊の横幅で、縦方向の文字列範囲を持っ
た部分文字列矩形を求め、それの接続状態から文字列を
求める手法が提案されている。また、特開平1−169
686号「文字行検出方式」では、文書画像を縦長の短
冊状に分割し、短冊毎に横方向に投影して、文字列の範
囲を求め、短冊の横幅で、縦方向の文字列範囲を持った
部分文字列矩形を求め、それの接続状態から文字列を求
める手法において、予め求めた文字列の推定サイズ、文
字列間の推定距離を元に、短冊領域内の部分文字列矩形
の中で分離文字列らしいものを統合する手法が提案され
ている。上記従来技術は、いずれも文書画像を縦長の短
冊状に分割して、投影により部分文字列を求めることを
基本としており、さらに、特開平1−169686号
「文字行検出方式」の技術でも部分文字列のサイズ(高
さ)と文字列間隔距離を元に部分文字列同士を統合して
いるにすぎない。
【0003】
【発明が解決しようとする課題】日本語OCRのエラー
の中には文字列抽出に起因する物がある。例えば、図1
2(a)に示したように「二品」などの上下分離文字が
横書きされている場合に、従来の通常の処理では、上の
「一口」と下の「一口口」を別の文字列として抽出して
しまい、結果的に誤認識する場合がある。同様に図12
(b)に示すように「一旦」等の上下分離文字において
も、上と下の文字矩形を別の文字列として抽出していま
う場合がある。この傾向は、表を認識したときに顕著に
現れる。例えば、表の内部のセルに書かれた文字は、見
栄えのため図12(c)に示すように文字間隔が広くと
られることがある。この場合、「高」と「さ」が同一文
字列でないと判断されることがあり、「高」について3
つの部分パターンをそれぞれ行として抽出してしまい、
誤認識の原因となる。同様に縦書きの場合でも、左右に
分離した文字が誤認識される場合がある。本発明は、上
記事情に鑑みなされたものであって、本発明の目的は、
上述した分離文字列を誤りなく統合し、分離文字に起因
する誤認識を防止することである。
【0004】
【課題を解決するための手段】図1は本発明の概要を説
明する図である。本発明においては、図1に示すように
文書画像から文字列矩形を抽出し、まず、公知の方法に
より、例えば同図の「高」のように文字列矩形内の分離
文字列矩形を統合する。ついで、例えば同図の「二品」
における文字列矩形「一口」と文字列矩形「1口口」の
ように2以上の文字列矩形に分離した分離文字列を次の
ように統合する。 1)文字列矩形内部の文字数が少ない文字列矩形に注目
し、その文字列の上下(横書き)もしくは左右(縦書
き)にある文字列矩形を、推定文字列サイズ程度になる
ように統合する。 2)新たに統合してできた文字矩形を文字認識し、文字
認識の評価値(例えば距離値)が一定基準を満たす場
合、分離文字列の統合を実際に認めるかどうか決定す
る。 すなわち、本発明は、文字サイズを推定し、文字列内の
文字数が少ない場合に、推定文字サイズよりも小さい文
字列矩形は分離していると見なして、文字サイズ程度に
なるまで文字列を仮に統合し、さらに統合後の文字列矩
形内部にある文字を認識して検証して、分離文字の統合
を認めるというものである。本発明は上記のように分離
文字の統合を行っているので、前記したように短冊状の
分割とそれの上の部分文字列を用いることなく、より一
般的な分離文字列同士を誤りなく統合することができ、
OCR等における誤認識を減少させることができる。
【0005】
【発明の実施の形態】図2は本発明の処理を行うための
システムの構成例を示す図である。本発明は、同図に示
すように、演算装置(CPU)11、メモリ12、外部
出力装置13、カラー入力装置、CCDカメラ、スキャ
ナ等の画像入力装置14等から構成されるシステムで実
現することができる。そして、上記スキャナ等の画像入
力装置14から読み込んだ文書画像から文字領域を抽出
して文字認識を行い、文字認識結果を外部出力装置13
から出力する。
【0006】次に本発明の実施例の文字認識処理の概要
を図3に示すフローチャートにより説明する。 (1)文書画像入力 ユーザが紙文書をスキャナなどで光学読み取りして、得
られた文書画像に対して以下の処理を行う。なお、文書
画像は基本的に白黒の2値画像を想定しているが、カラ
ー画像であっても、前処理として2値化を行うことで2
値画像と同じ扱いができる。
【0007】(2)領域識別し文字領域を抽出する。文
書画像を走査して、文字領域を抽出する。例えば、画像
全体をラベリングして黒画素連結領域の外接矩形を抽出
し、一定サイズ以上の矩形を図形・表領域候補として抽
出する。そして、図形、表領域候補の矩形内部を対象に
罫線抽出し、縦横の罫線が抽出できたら表領域として識
別し、それ以外を図領域と識別し、図、表領域以外の領
域を文字領域として抽出する。これらは、公知の技術を
用いて行うことができる。 (3)ラベリングし黒画素連結領域の外接矩形を求め
る。文字領域の範囲内部で、連結している黒画素に同一
ラベルをつけるラベリング処理を実行し、同一ラベルが
ついたパターンの外接矩形を求める。 (4)文字領域内の文字の高さ、幅の推定 文字領域内の文字の矩形の高さ、幅の値の最頻値を求
め、それを文字の高さ、幅の推定値とする。
【0008】(5)横方向の矩形の位置関係から文字列
(複数の矩形を包含する外接矩形)を求める(横書きの
場合)。縦書きの場合も同様に縦方向の矩形の位置関係
から文字列を求めることができる。ラベリングで求めた
外接矩形を単位に複数の文字列から文字列を抽出する。
そして、文字領域の内部の矩形の座標、位置から、文字
領域の内部の文字列方向を推定する。文字列の推定方法
としては、例えば、特開平10−63776号「文字列
方向推定方法および装置」等に開示されている公知の手
法を用いることができる。すなわち、1つの矩形から文
字列方向に探索して隣接する矩形を求め、両者に同じ文
字列ラベルを与える(例えば、文字矩形の大きさの最頻
値の3倍以上文字矩形が離れている場合、別の文字列矩
形とする)。これを繰り返し、同じ文字列ラベルをもつ
矩形を囲む外接矩形を文字列として求める。例えば、横
書きの場合には、矩形の横方向の投影で重なりがある矩
形をまとめ、文字列矩形を求める。これにより、例えば
前記図12に示したような文字列矩形が求まる。また、
求めた文字列矩形の内部の含まれる文字矩形の数を記録
する。
【0009】(6)文字列矩形内部の文字分離矩形の統
合 横方向の文字列の場合、文字列内部の文字矩形を対象に
縦方向に投影したときに重複する矩形を統合する。同様
に縦方向の文字列の場合には、文字列内部の文字矩形を
対象に横方向に投影したときに重複する矩形を統合す
る。これにより、文字列内部には上下統合後の文字矩形
が存在するようになる。 (7)分離文字列の統合 上記(6)の処理により、文字列矩形内部の分離文字は
統合できるが、例えば、前記図12(a)(b)(c)
に示した「二品」、「一旦」、「高」のように、文字列
を構成する文字が上下に分離した文字の場合には、一つ
の文字列であっても文字列矩形が上下に分離し、上記
(6)の処理では一つの文字矩形に統合されない(横書
きの場合)。そこで、2つの文字列矩形に別れた分離列
文字を、後述する手法により統合する。そして、統合さ
れた分離文字列候補を公知の方法で文字認識し、統合結
果の検証を行う。 (8)文字認識 分離文字列の統合後の文字列を対象に公知の方法で文字
認識処理を行う。
【0010】次に上記分離文字列統合処理について更に
詳細に説明する。図4〜図7は上記(7)の分離文字列
統合処理を示すフローチャート、図8〜図11はその説
明図であり、以下、図8〜図11を参照しながら、図4
〜図7により本発明の実施例の分離文字列統合処理につ
いて説明する。以下の説明では主として横書きの場合に
ついて説明するが、縦書きの場合にも、横方向を縦方
向、xをy、yをx等とよみ代えることにより同様に処
理することができる。なお、以下の(1) 〜(29)は図4〜
図7に付した符号に対応している。
【0011】(1) 領域内の文字矩形総数計算 指定領域内に含まれる文字列矩形内にある文字矩形の総
数を求め、all_numとする。 (2)文字サイズの推定 推定文字高さ、推定文字幅から、文字サイズchar_
sizeを推定する。横書きの場合、all_numが
しきい値(THMOJISUU、例えば30)より大き
い場合は、char_size=推定文字高さとする。
それ以外の場合は、char_size=〔推定文字幅
×係数(=1.1)〕と〔推定文字高さの大きい方〕と
する。縦書きの場合は、all_numがしきい値(T
HMOJISUU)より大きい場合は、char_si
ze=推定文字幅とする。それ以外の場合は、char
_size=〔(推定文字高さ×係数(=1.1)〕と
〔推定文字幅の大きい方〕とする。 (3) 領域内の文字列矩形に0からの通し番号をつける。
文字列矩形が求まったら、例えば、図8(a)に示すよ
うに各文字列矩形に通し番号を付ける。なお、図8
(a)の例では、文字列矩形番号1,2,4は例えば前
記した文字「高」であり、文字列矩形番号7,9は例え
ば前記した文字列「一旦」である。
【0012】(4) 内部に含む文字矩形数がしきい値(T
H_RECT_COUNT=5)より小さい文字列矩形
の番号をsmall_index配列に入れる。同時に
配列に入れた文字列の数small_string_c
ountを求める。例えば、図8(a)において、ハッ
チングを付けた文字列矩形の文字矩形数がしきい値より
小さいとすると、small_index配列には、図
8(b)に示すように文字列矩形の番号0,1,2,
3,…が入れられる。ここで、small_strin
g_countが0であれば、なにもせずに終了する。
なお、一般に一つの文字列が2以上の文字列矩形に分離
するケースは、前記「二品」、「高」のように文字列矩
形中の文字矩形数が少ない場合が多いので、上記のよう
に文字矩形数がしきい値より小さい文字列矩形を対象に
処理を行うことにより処理時間を短縮することができ
る。
【0013】(5) 領域内の文字列矩形を並べ替え、並べ
替え後の文字列配列をsort_stringとする。
ここで、横書きの場合には、文字列矩形の上座標で上か
ら順番に並べ、縦書きの場合には、文字列矩形の左座標
で左から順番に並べる。例えば、図8(a)の場合、s
ort_stringは図8(c)に示すようにソート
された文字列矩形の番号0,1,2,…が入れられる
(この例の場合、文字列矩形の上座標順に文字列矩形番
号が付されているので、ソートしても順番は変わらな
い)。
【0014】(6) まず、j=0として、small_i
ndex配列内部のj番目を取り出しindexとす
る。この文字列番号の文字列矩形をカレント文字列矩形
とする。ここで、カレント文字列が統合され削除された
ものである場合には、j=j+1として、jが文字列の
数small_string_count以上かを調
べ、越えていなければsmall_index配列内部
のj番目を取り出しindexとする。また、文字列の
数small_string_count以上の場合に
は、後述する(29)に行く。 (7) 図9(a)に示すようにカレント文字列矩形の座標
(xmin3,ymin3,xmax3,ymax3)
を求める。例えばカレント文字列矩形が図8(b)に示
すように”2”であるとすると、カレント文字列矩形番
号”2”の上記座標が求められる。
【0015】(8) 統合候補文字列矩形の集合integ
_gno配列にカレント文字列番号indexを入れ、
integ_gnoに入れた文字列数としてinteg
_num=1とする。カレント文字列矩形番号が例え
ば”2”である場合には、図9(b)に示すようにin
teg_gno配列に”2”が入れられる。また、in
teg_num=1となる。 (9) カレント文字列矩形のソート後文字列矩形中の位置
を求め、その位置をs_indexする。図8の例で
は、s_index=2である。
【0016】(10)s_index前後の文字列矩形をソ
ート後文字列矩形の中で前後方向に探査する。例えば前
方向探査の場合には、i=s_index−1とする。
また、後方向探査の場合には、i=s_index+1
とする。そして、iが限界(sort_string配
列の上限もしくは下限) を越えた場合には、後述する(2
0)に行く。 (11)sort_string配列のi番目の文字列矩形
の番号をindex2として求める。例えば、カレント
文字列矩形が”2”であり、前方向探査の場合には、文
字列矩形番号”1”がindex2の文字列矩形とな
る。ここで、ここで、index2の文字列矩形が統合
され削除されたものである場合には、前方向探査の場合
はi=i−1として、また、後方向き探査の場合にはi
=i+1として、iが限界を越えたかを調べ限界を越え
ていなければ上記処理を繰り返す。
【0017】(12)図9(c)に示すように文字列矩形i
ndex2の座標(xmin2,ymin2,xmax
2,ymax2)を求める。 (13)図9(d)に示すように高さのしきい値th_he
ightを文字列矩形index2とカレント文字列矩
形の高さの小さい方とする。 (14)図9(d)に示すようにth_heightが9以
下の場合には、10とする。 (15)図9(d)に示すように文字列矩形index2と
カレント文字列矩形を統合した後の文字列矩形の高さ
(横書きの場合)をpheightとして求める。
【0018】(16)図10(a)に示す条件Aをカレント
文字列矩形の座標、index2の座標が満たすかを調
べる。すなわち、横書きの場合、統合前の文字列矩形間
の距離d1がしきい値th_height以下であり、
かつ、統合後の文字列矩形の高さ(y方向の長さ)が前
記したキャラクタサイズchat_sizeより小さ
い〕か、あるいは、〔統合後の文字列矩形の高さが正で
chat_sizeより小さい〕か、あるいは、〔in
dex2とカレント文字列の上座標の差の絶対値がしき
い値th_heightより小さい〕かを調べる。例え
ば、カレント文字列矩形とindex2の文字列矩形が
図10(a)に示す位置関係にある場合には、下記の条
件を満たしているかを調べることとなる。
【0019】((0<ymin3−ymax2 &&
ymin3−ymax2<=th_height) A
ND (pheight<=char_size))
OR(0<ymax3−ymin2 && ymax3
−ymin3<=char_size) OR (ym
in3とymin2の差の絶対値<th_heigh
t)。
【0020】そして、上記条件Aを満たさない場合に
は、カレント文字列矩形とindex2の文字列矩形は
統合できないので、後述する(20)に行く。 (17)上記条件Aを満たす場合には、図10(b)に示す
統合条件Bを満たすかを調べる。すなわち、縦方向に投
影したとき(横書きの場合)カレント文字列とinde
x2の文字列が重なっている(カレント文字列のx座標
の最小値がindex2の文字列のx座標の最大値より
小さく、カレント文字列のx座標の最大値がindex
2の文字列のx座標の最小値より大きい)かを調べる。
条件を満たさない場合には、前方向探査の場合はi=i
−1として、また、後方向き探査の場合にはi=i+1
として、iが限界を越えたかを調べ限界を越えていなけ
れば前記(11)に戻る。
【0021】(18)図10(c)に示すようにカレント文
字列矩形と文字列矩形index2を統合したときの座
標を以下のように求める。
【0022】 xmin3=min_(xmin3,xmin2); ymin3=min_(ymin3,ymin2); xmax3=max_(xmax3,xmax2); ymax3=max_(ymax3,ymax2);
【0023】(19)index2をinteg_gno配
列に入れ、integ_numをインクリメントする。
これにより、integ_gno配列の内容は、図11
(a)に示すようになる。次いで、前方向探査の場合は
i=i−1として、また、後方向き探査の場合にはi=
i+1として、iが限界を越えたかを調べ限界を越えて
いなければ前記(11)に戻り、上記処理を繰り返す。そし
て、iが限界を越えたか、上記条件Aを満たさなくなっ
たら、後述する(20)に行く。以上の処理を繰り返すこと
により、integ_gno配列には統合候補文字列矩
形番号の集合が登録される。例えば、図8(a)の例の
場合には、文字列矩形番号1,2,4が統合候補文字列
矩形番号として求まり、integ_gno配列に登録
される。
【0024】(20)integ_num>1であるかを調
べ、integ_num>1でなければカレント文字列
矩形に統合される文字列矩形はないので、jをインクリ
メントして後述する(28)に行く。 (21)横書きの場合、integ_gno配列の中のin
teg_num個の文字列について、図11(b)に示
すように全ての文字列矩形が重なっている横方向の範囲
(sxmin,sxmax)を求める。 (22)integ_gno配列中の文字列矩形を全て囲む
矩形を図11(b)に示すようにtmplineとして
求める。 (23)tmplineの範囲について、内部にある文字矩
形の上下統合を行う。 (24)上下統合後の矩形に対し、sxmin,sxmax
の範囲にかかる文字矩形だけを対象に1文字認識を行
う。例えば前記図8(a)における文字列矩形7,9が
「一旦」という文字列であり、これらが統合された場
合、上記sxmin,sxmaxは図11(c)に示す
ような範囲となる。したがって、この場合、「一旦」と
いう文字列の内の文字「旦」という文字が1文字認識の
対象となる。
【0025】(25)文字認識結果の距離値の最高値と平均
値を求める。 (26)上記認識結果が条件Cを満たすかを調べる。すなわ
ち、〔距離の平均値〕<〔しきい値(TH_OK_DI
STANCE)〕 AND 〔距離の最高値〕<〔しき
い値(TH_OK_DISTANCE)〕の条件を満た
すかを調べる。なお、TH_OK_DISTANCEは
例えば1600である。条件を満たさない場合には、j
をインクリメントし、後述する(28)に行く。また条件を
満たす場合には、(27)に行く。
【0026】(27)上記条件Cを満たす場合には、統合を
認め、integ_gno配列に入っている番号の文字
列矩形を統合する。そして、統合した文字列矩形番号よ
り若い番号の文字列矩形だけを残し、他の番号の文字列
矩形は削除する。例えば、前記したように文字列矩形番
号1,2,4が統合された場合には、文字列矩形番号1
を残し、文字列矩形番号2,4を削除する。そして、j
をインクリメントし、(28)に行く。 (28)jがsmall_string_count(sm
all_index配列に入れた文字列矩形の数)を越
えたかを調べ、越えていなければ、前記(6) に戻り上記
処理を繰り返す。 (29)jがsmall_string_countを越え
た場合には、削除された文字列矩形以外の文字列矩形の
数を数えてそれを出力し、処理を終了する。
【0027】
【発明の効果】以上説明したように、本発明において
は、推定文字サイズよりも小さい文字列矩形は分離して
いると見なして、文字サイズ程度になるまで文字列を仮
に統合し、さらに統合後の文字列矩形内部にある文字を
認識して統合結果を検証しているので、誤認議の原因と
なっていた、分離文字列をなくすことができ、文字認識
率を向上させることができる。
【図面の簡単な説明】
【図1】本発明の概要を説明する図である。
【図2】本発明の処理を行うためのシステムの構成例を
示す図である。
【図3】本発明の実施例の文字認識処理の概要を示すフ
ローチャートである。
【図4】分離文字列統合処理を示すフローチャート
(1)である。
【図5】分離文字列統合処理を示すフローチャート
(2)である。
【図6】分離文字列統合処理を示すフローチャート
(3)である。
【図7】分離文字列統合処理を示すフローチャート
(4)である。
【図8】分離文字列統合処理を説明する図(1)であ
る。
【図9】分離文字列統合処理を説明する図(2)であ
る。
【図10】分離文字列統合処理を説明する図(3)であ
る。
【図11】分離文字列統合処理を説明する図(4)であ
る。
【図12】分離文字列の例を示す図である。
【符号の説明】
11 演算装置(CPU) 12 メモリ 13 外部出力装置 14 画像入力装置

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 2以上の文字列矩形に分離した文字列矩
    形を統合し、正しい文字列として認識するための分離文
    字列の統合方法であって、 文書画像から文字領域を抽出し、黒画素連結領域の外接
    矩形を求めて文字列矩形を抽出し、文字列矩形間の距
    離、文字列矩形の推定サイズに基づき統合候補の文字列
    矩形を求めてそれらを仮統合し、 仮統合した文字列矩形に対して文字認識を行い、該文字
    認識結果が所定の条件を満たしたとき、上記文字列矩形
    の仮統合を認めることを特徴とする分離文字列の統合方
    法。
  2. 【請求項2】 文字列矩形内部の文字数が少ない文字列
    矩形に注目し、該文字列矩形の近傍にある文字列矩形同
    士を統合することを特徴とする請求項1の分離文字列の
    統合方法。
  3. 【請求項3】 2以上の文字列矩形に分離した文字列矩
    形を統合し、正しい文字列として認識するための分離文
    字列の統合装置であって、 文書画像から文字領域を抽出し、黒画素連結領域の外接
    矩形を求めて文字列矩形を抽出する手段と、 文字列矩形内部の分離文字矩形を統合する手段と、 2以上の文字列矩形にまたがる分離文字列を統合する分
    離文字列統合手段とを備え、該分離文字列統合手段は、
    文字列矩形間の距離、文字列矩形の推定サイズに基づき
    統合候補の文字列矩形を求めてそれらを仮統合し、仮統
    合した文字列矩形に対して文字認識を行い、該文字認識
    結果が所定の条件を満たしたとき、上記文字列矩形の仮
    統合を認めることを特徴とする分離文字列の統合装置。
  4. 【請求項4】 2以上の文字列矩形に分離した文字列矩
    形を統合し、正しい文字列として認識するための分離文
    字列の統合プログラムであって、 上記プログラムは、文書画像から文字領域を抽出し、黒
    画素連結領域の外接矩形を求めて文字列矩形を抽出する
    処理と、文字列矩形間の距離、文字列矩形の推定サイズ
    に基づき統合候補の文字列矩形を求めてそれらを仮統合
    する処理と、 仮統合した文字列矩形に対して文字認識を行い、該文字
    認識結果が所定の条件を満たしたとき、上記文字列矩形
    の仮統合を認める処理をコンピュータに実行させること
    を特徴とする分離文字列の統合プログラム。
  5. 【請求項5】 2以上の文字列矩形に分離した文字列矩
    形を統合し、正しい文字列として認識するための分離文
    字列の統合プログラムを記録した記録媒体であって、 上記プログラムは、文書画像から文字領域を抽出し、黒
    画素連結領域の外接矩形を求めて文字列矩形を抽出し、
    文字列矩形間の距離、文字列矩形の推定サイズに基づき
    統合候補の文字列矩形を求めてそれらを仮統合し、 仮統合した文字列矩形に対して文字認識を行い、該文字
    認識結果が所定の条件を満たしたとき、上記文字列矩形
    の仮統合を認めることを特徴とする分離文字列の統合プ
    ログラムを記録した記録媒体。
JP2001115133A 2000-04-26 2001-04-13 分離文字列統合装置 Expired - Fee Related JP3957471B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001115133A JP3957471B2 (ja) 2000-04-26 2001-04-13 分離文字列統合装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2000-125589 2000-04-26
JP2000125589 2000-04-26
JP2001115133A JP3957471B2 (ja) 2000-04-26 2001-04-13 分離文字列統合装置

Publications (2)

Publication Number Publication Date
JP2002015283A true JP2002015283A (ja) 2002-01-18
JP3957471B2 JP3957471B2 (ja) 2007-08-15

Family

ID=26590832

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001115133A Expired - Fee Related JP3957471B2 (ja) 2000-04-26 2001-04-13 分離文字列統合装置

Country Status (1)

Country Link
JP (1) JP3957471B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003288588A (ja) * 2002-03-27 2003-10-10 Toshiba Corp 画像処理装置及び画像処理方法
JP2004062385A (ja) * 2002-07-26 2004-02-26 Ricoh Co Ltd 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置
JP2004151781A (ja) * 2002-10-28 2004-05-27 Ricoh Co Ltd 行切り出し装置、行切り出し方法およびプログラム
JP2009211432A (ja) * 2008-03-04 2009-09-17 Fujitsu Ltd 文書認識プログラム、文書認識装置、および文書認識方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003288588A (ja) * 2002-03-27 2003-10-10 Toshiba Corp 画像処理装置及び画像処理方法
JP2004062385A (ja) * 2002-07-26 2004-02-26 Ricoh Co Ltd 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置
JP2004151781A (ja) * 2002-10-28 2004-05-27 Ricoh Co Ltd 行切り出し装置、行切り出し方法およびプログラム
JP2009211432A (ja) * 2008-03-04 2009-09-17 Fujitsu Ltd 文書認識プログラム、文書認識装置、および文書認識方法
JP4549400B2 (ja) * 2008-03-04 2010-09-22 富士通株式会社 文書認識プログラム、文書認識装置、および文書認識方法
US8515175B2 (en) 2008-03-04 2013-08-20 Fujitsu Limited Storage medium, apparatus and method for recognizing characters in a document image using document recognition

Also Published As

Publication number Publication date
JP3957471B2 (ja) 2007-08-15

Similar Documents

Publication Publication Date Title
JP4323328B2 (ja) 取り込み画像データから文字列を識別して抜出するシステムおよび方法
US8155443B2 (en) Image extracting apparatus, image extracting method and computer readable medium
JP2940936B2 (ja) 表領域識別方法
JP2002133426A (ja) 多値画像から罫線を抽出する罫線抽出装置
JP2007081458A (ja) 画像処理装置および画像処理装置の制御方法
JP2010102709A (ja) 文字列認識方法、文字列認識システム及び文字列認識プログラム用記録媒体
JP2008011484A (ja) 文字図形列抽出装置,文字図形列抽出方法,その方法を実行するプログラム,そのプログラムを記録した記録媒体
JP4011646B2 (ja) 行検出方法および文字認識装置
CN101814141A (zh) 存储介质、字符识别方法以及字符识别设备
JP2002015283A (ja) 分離文字列統合方法および装置
JP3268552B2 (ja) 領域抽出方法、宛名領域抽出方法、宛名領域抽出装置、及び画像処理装置
US20030123730A1 (en) Document recognition system and method using vertical line adjacency graphs
Nguyen et al. Enhanced character segmentation for format-free Japanese text recognition
Aparna et al. A complete OCR system development of Tamil magazine documents
JP4731748B2 (ja) 画像処理装置、方法、プログラム及び記憶媒体
JP2796561B2 (ja) 表形式文書認識方式
Nhat et al. Adaptive line fitting for staff detection in handwritten music score images
JP2580976B2 (ja) 文字切出し装置
JP4221960B2 (ja) 帳票識別装置及びその識別方法
JP2758255B2 (ja) 光学式文字読取装置における帳票端検出方法
JP3517077B2 (ja) パターン抽出装置及びパターン領域の切り出し方法
JP3666903B2 (ja) 画像処理方法および装置
JP2778436B2 (ja) 文字切り出し装置
JP2004013188A (ja) 帳票読取り装置および帳票読取り方法ならびプログラム
JPH1097588A (ja) 罫線認識方法、表処理方法および記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040423

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061024

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061220

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070404

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070416

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070508

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070508

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R154 Certificate of patent or utility model (reissue)

Free format text: JAPANESE INTERMEDIATE CODE: R154

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100518

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100518

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110518

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120518

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130518

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140518

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees