JP3957471B2 - 分離文字列統合装置 - Google Patents

分離文字列統合装置 Download PDF

Info

Publication number
JP3957471B2
JP3957471B2 JP2001115133A JP2001115133A JP3957471B2 JP 3957471 B2 JP3957471 B2 JP 3957471B2 JP 2001115133 A JP2001115133 A JP 2001115133A JP 2001115133 A JP2001115133 A JP 2001115133A JP 3957471 B2 JP3957471 B2 JP 3957471B2
Authority
JP
Japan
Prior art keywords
character string
character
rectangle
rectangles
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001115133A
Other languages
English (en)
Other versions
JP2002015283A (ja
Inventor
裕 勝山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2001115133A priority Critical patent/JP3957471B2/ja
Publication of JP2002015283A publication Critical patent/JP2002015283A/ja
Application granted granted Critical
Publication of JP3957471B2 publication Critical patent/JP3957471B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

【0001】
【発明の属する技術分野】
近年、企業では、情報の共有化や迅速な情報利用の観点から紙文書をスキャナなどで電子化して共有する文書管理システムが使用され、業務の効率化に貢献している。また、組織ではなく、個人の環境でもパソコンが普及し、従来の紙文書との連携の必要性から、日本語OCRの、特に精度について強い要求がある。
本発明は上記日本語OCRにおいて誤認識を防止する技術に関し、特に、上下分離文字に起因する誤認識を防止することができる分離文字列統合装置に関するものである。
【0002】
【従来の技術】
従来の分離文字列の統合技術として、以下の技術が提案されている。
例えば、特開平5−073717号「光学文字読取装置」では、文書画像を縦長の短冊状に分割し、短冊毎に横方向に投影して、文字列の範囲を求め、短冊の横幅で、縦方向の文字列範囲を持った部分文字列矩形を求め、それの接続状態から文字列を求める手法が提案されている。
また、特開平1−169686号「文字行検出方式」では、文書画像を縦長の短冊状に分割し、短冊毎に横方向に投影して、文字列の範囲を求め、短冊の横幅で、縦方向の文字列範囲を持った部分文字列矩形を求め、それの接続状態から文字列を求める手法において、予め求めた文字列の推定サイズ、文字列間の推定距離を元に、短冊領域内の部分文字列矩形の中で分離文字列らしいものを統合する手法が提案されている。
上記従来技術は、いずれも文書画像を縦長の短冊状に分割して、投影により部分文字列を求めることを基本としており、さらに、特開平1−169686号「文字行検出方式」の技術でも部分文字列のサイズ(高さ)と文字列間隔距離を元に部分文字列同士を統合しているにすぎない。
【0003】
【発明が解決しようとする課題】
日本語OCRのエラーの中には文字列抽出に起因する物がある。例えば、図12(a)に示したように「二品」などの上下分離文字が横書きされている場合に、従来の通常の処理では、上の「一口」と下の「一口口」を別の文字列として抽出してしまい、結果的に誤認識する場合がある。同様に図12(b)に示すように「一旦」等の上下分離文字においても、上と下の文字矩形を別の文字列として抽出してまう場合がある。
この傾向は、表を認識したときに顕著に現れる。例えば、表の内部のセルに書かれた文字は、見栄えのため図12(c)に示すように文字間隔が広くとられることがある。この場合、「高」と「さ」が同一文字列でないと判断されることがあり、「高」について3つの部分パターンをそれぞれ行として抽出してしまい、誤認識の原因となる。同様に縦書きの場合でも、左右に分離した文字が誤認識される場合がある。
本発明は、上記事情に鑑みなされたものであって、本発明の目的は、上述した分離文字列を誤りなく統合し、分離文字に起因する誤認識を防止することである。
【0004】
【課題を解決するための手段】
図1は本発明の概要を説明する図である。本発明においては、図1に示すように文書画像から文字列矩形を抽出し、まず、公知の方法により、例えば同図の「高」のように文字列矩形内の分離文字列矩形を統合する。ついで、例えば同図の「二品」における文字列矩形「一口」と文字列矩形「1口口」のように2以上の文字列矩形に分離した分離文字列を次のように統合する。
1)文字列矩形内部の文字矩形数がしきい値より少ない文字列矩形に注目し、その文字列の上下(横書き)もしくは左右(縦書き)にある文字列矩形を、推定文字列サイズ程度になるように統合する。
2)新たに統合してできた文字矩形を文字認識し、文字認識の評価値(例えば距離値)が一定基準を満たす場合、分離文字列の統合を実際に認めるかどうか決定する。
すなわち、本発明は、文字サイズを推定し、文字列内の文字矩形数がしきい値より少ない場合に、推定文字サイズよりも小さい文字列矩形は分離していると見なして、文字サイズ程度になるまで文字列を仮に統合し、さらに統合後の文字列矩形内部にある文字を認識して検証して、分離文字の統合を認めるというものである。
本発明は上記のように分離文字の統合を行っているので、前記したように短冊状の分割とそれの上の部分文字列を用いることなく、より一般的な分離文字列同士を誤りなく統合することができ、OCR等における誤認識を減少させることができる。
【0005】
【発明の実施の形態】
図2は本発明の処理を行うためのシステムの構成例を示す図である。本発明は、同図に示すように、演算装置(CPU)11、メモリ12、外部出力装置13、カラー入力装置、CCDカメラ、スキャナ等の画像入力装置14等から構成されるシステムで実現することができる。そして、上記スキャナ等の画像入力装置14から読み込んだ文書画像から文字領域を抽出して文字認識を行い、文字認識結果を外部出力装置13から出力する。
【0006】
次に本発明の実施例の文字認識処理の概要を図3に示すフローチャートにより説明する。
(1)文書画像入力
ユーザが紙文書をスキャナなどで光学読み取りして、得られた文書画像に対して以下の処理を行う。なお、文書画像は基本的に白黒の2値画像を想定しているが、カラー画像であっても、前処理として2値化を行うことで2値画像と同じ扱いができる。
【0007】
(2)領域識別し文字領域を抽出する。
文書画像を走査して、文字領域を抽出する。例えば、画像全体をラベリングして黒画素連結領域の外接矩形を抽出し、一定サイズ以上の矩形を図形・表領域候補として抽出する。そして、図形、表領域候補の矩形内部を対象に罫線抽出し、縦横の罫線が抽出できたら表領域として識別し、それ以外を図領域と識別し、図、表領域以外の領域を文字領域として抽出する。これらは、公知の技術を用いて行うことができる。
(3)ラベリングし黒画素連結領域の外接矩形を求める。
文字領域の範囲内部で、連結している黒画素に同一ラベルをつけるラベリング処理を実行し、同一ラベルがついたパターンの外接矩形を求める。
(4)文字領域内の文字の高さ、幅の推定
文字領域内の文字の矩形の高さ、幅の値の最頻値を求め、それを文字の高さ、幅の推定値とする。
【0008】
(5)横方向の矩形の位置関係から文字列(複数の矩形を包含する外接矩形)を求める(横書きの場合)。縦書きの場合も同様に縦方向の矩形の位置関係から文字列を求めることができる。
ラベリングで求めた外接矩形を単位に複数の文字列から文字列を抽出する。そして、文字領域の内部の矩形の座標、位置から、文字領域の内部の文字列方向を推定する。
文字列の推定方法としては、例えば、特開平10−63776号「文字列方向推定方法および装置」等に開示されている公知の手法を用いることができる。すなわち、1つの矩形から文字列方向に探索して隣接する矩形を求め、両者に同じ文字列ラベルを与える(例えば、文字矩形の大きさの最頻値の3倍以上文字矩形が離れている場合、別の文字列矩形とする)。
これを繰り返し、同じ文字列ラベルをもつ矩形を囲む外接矩形を文字列として求める。例えば、横書きの場合には、矩形の横方向の投影で重なりがある矩形をまとめ、文字列矩形を求める。これにより、例えば前記図12に示したような文字列矩形が求まる。
また、求めた文字列矩形の内部の含まれる文字矩形の数を記録する。
【0009】
(6)文字列矩形内部の文字分離矩形の統合
横方向の文字列の場合、文字列内部の文字矩形を対象に縦方向に投影したときに重複する矩形を統合する。同様に縦方向の文字列の場合には、文字列内部の文字矩形を対象に横方向に投影したときに重複する矩形を統合する。これにより、文字列内部には上下統合後の文字矩形が存在するようになる。
(7)分離文字列の統合
上記(6)の処理により、文字列矩形内部の分離文字は統合できるが、例えば、前記図12(a)(b)(c)に示した「二品」、「一旦」、「高」のように、文字列を構成する文字が上下に分離した文字の場合には、一つの文字列であっても文字列矩形が上下に分離し、上記(6)の処理では一つの文字矩形に統合されない(横書きの場合)。
そこで、2つの文字列矩形に別れた分離列文字を、後述する手法により統合する。そして、統合された分離文字列候補を公知の方法で文字認識し、統合結果の検証を行う。
(8)文字認識
分離文字列の統合後の文字列を対象に公知の方法で文字認識処理を行う。
【0010】
次に上記分離文字列統合処理について更に詳細に説明する。
図4〜図7は上記(7)の分離文字列統合処理を示すフローチャート、図8〜図11はその説明図であり、以下、図8〜図11を参照しながら、図4〜図7により本発明の実施例の分離文字列統合処理について説明する。
以下の説明では主として横書きの場合について説明するが、縦書きの場合にも、横方向を縦方向、xをy、yをx等とよみ代えることにより同様に処理することができる。なお、以下の(1) 〜(29)は図4〜図7に付した符号に対応している。
【0011】
(1) 領域内の文字矩形総数計算
指定領域内に含まれる文字列矩形内にある文字矩形の総数を求め、all_numとする。
(2)文字サイズの推定
推定文字高さ、推定文字幅から、文字サイズchar_sizeを推定する。
横書きの場合、all_numがしきい値(THMOJISUU、例えば30)より大きい場合は、char_size=推定文字高さとする。それ以外の場合は、char_size=〔推定文字幅×係数(=1.1)〕と〔推定文字高さの大きい方〕とする。
縦書きの場合は、all_numがしきい値(THMOJISUU)より大きい場合は、char_size=推定文字幅とする。それ以外の場合は、char_size=〔(推定文字高さ×係数(=1.1)〕と〔推定文字幅の大きい方〕とする。
(3) 領域内の文字列矩形に0からの通し番号をつける。
文字列矩形が求まったら、例えば、図8(a)に示すように各文字列矩形に通し番号を付ける。なお、図8(a)の例では、文字列矩形番号1,2,4は例えば前記した文字「高」であり、文字列矩形番号7,9は例えば前記した文字列「一旦」である。
【0012】
(4) 内部に含む文字矩形数がしきい値(TH_RECT_COUNT=5)より小さい文字列矩形の番号をsmall_index配列に入れる。同時に配列に入れた文字列の数small_string_countを求める。
例えば、図8(a)において、ハッチングを付けた文字列矩形の文字矩形数がしきい値より小さいとすると、small_index配列には、図8(b)に示すように文字列矩形の番号0,1,2,3,…が入れられる。
ここで、small_string_countが0であれば、なにもせずに終了する。
なお、一般に一つの文字列が2以上の文字列矩形に分離するケースは、前記「二品」、「高」のように文字列矩形中の文字矩形数が少ない場合が多いので、上記のように文字矩形数がしきい値より小さい文字列矩形を対象に処理を行うことにより処理時間を短縮することができる。
【0013】
(5) 領域内の文字列矩形を並べ替え、並べ替え後の文字列配列をsort_stringとする。
ここで、横書きの場合には、文字列矩形の上座標で上から順番に並べ、縦書きの場合には、文字列矩形の左座標で左から順番に並べる。
例えば、図8(a)の場合、sort_stringは図8(c)に示すようにソートされた文字列矩形の番号0,1,2,…が入れられる(この例の場合、文字列矩形の上座標順に文字列矩形番号が付されているので、ソートしても順番は変わらない)。
【0014】
(6) まず、j=0として、small_index配列内部のj番目を取り出しindexとする。この文字列番号の文字列矩形をカレント文字列矩形とする。
ここで、カレント文字列が統合され削除されたものである場合には、j=j+1として、jが文字列の数small_string_count以上かを調べ、越えていなければsmall_index配列内部のj番目を取り出しindexとする。また、文字列の数small_string_count以上の場合には、後述する(29)に行く。
(7) 図9(a)に示すようにカレント文字列矩形の座標(xmin3,ymin3,xmax3,ymax3)を求める。
例えばカレント文字列矩形が図8(b)に示すように”2”であるとすると、カレント文字列矩形番号”2”の上記座標が求められる。
【0015】
(8) 統合候補文字列矩形の集合integ_gno配列にカレント文字列番号indexを入れ、integ_gnoに入れた文字列数としてinteg_num=1とする。
カレント文字列矩形番号が例えば”2”である場合には、図9(b)に示すようにinteg_gno配列に”2”が入れられる。また、integ_num=1となる。
(9) カレント文字列矩形のソート後文字列矩形中の位置を求め、その位置をs_indexする。図8の例では、s_index=2である。
【0016】
(10)s_index前後の文字列矩形をソート後文字列矩形の中で前後方向に探査する。
例えば前方向探査の場合には、i=s_index−1とする。また、後方向探査の場合には、i=s_index+1とする。
そして、iが限界(sort_string配列の上限もしくは下限) を越えた場合には、後述する(20)に行く。
(11)sort_string配列のi番目の文字列矩形の番号をindex2として求める。
例えば、カレント文字列矩形が”2”であり、前方向探査の場合には、文字列矩形番号”1”がindex2の文字列矩形となる。
ここで、ここで、index2の文字列矩形が統合され削除されたものである場合には、前方向探査の場合はi=i−1として、また、後方向き探査の場合にはi=i+1として、iが限界を越えたかを調べ限界を越えていなければ上記処理を繰り返す。
【0017】
(12)図9(c)に示すように文字列矩形index2の座標(xmin2,ymin2,xmax2,ymax2)を求める。
(13)図9(d)に示すように高さのしきい値th_heightを文字列矩形index2とカレント文字列矩形の高さの小さい方とする。
(14)図9(d)に示すようにth_heightが9以下の場合には、10とする。
(15)図9(d)に示すように文字列矩形index2とカレント文字列矩形を統合した後の文字列矩形の高さ(横書きの場合)をpheightとして求める。
【0018】
(16)図10(a)に示す条件Aをカレント文字列矩形の座標、index2の座標が満たすかを調べる。すなわち、横書きの場合、統合前の文字列矩形間の距離d1がしきい値th_height以下であり、かつ、統合後の文字列矩形の高さ(y方向の長さ)が前記したキャラクタサイズchat_sizeより小さい〕か、あるいは、〔統合後の文字列矩形の高さが正でchat_sizeより小さい〕か、あるいは、〔index2とカレント文字列の上座標の差の絶対値がしきい値th_heightより小さい〕かを調べる。
例えば、カレント文字列矩形とindex2の文字列矩形が図10(a)に示す位置関係にある場合には、下記の条件を満たしているかを調べることとなる。
【0019】
((0<ymin3−ymax2 && ymin3−ymax2<=th_height) AND (pheight<=char_size)) OR(0<ymax3−ymin2 && ymax3−ymin3<=char_size) OR (ymin3とymin2の差の絶対値<th_height)。
【0020】
そして、上記条件Aを満たさない場合には、カレント文字列矩形とindex2の文字列矩形は統合できないので、後述する(20)に行く。
(17)上記条件Aを満たす場合には、図10(b)に示す統合条件Bを満たすかを調べる。すなわち、縦方向に投影したとき(横書きの場合)カレント文字列とindex2の文字列が重なっている(カレント文字列のx座標の最小値がindex2の文字列のx座標の最大値より小さく、カレント文字列のx座標の最大値がindex2の文字列のx座標の最小値より大きい)かを調べる。
条件を満たさない場合には、前方向探査の場合はi=i−1として、また、後方向き探査の場合にはi=i+1として、iが限界を越えたかを調べ限界を越えていなければ前記(11)に戻る。
【0021】
(18)図10(c)に示すようにカレント文字列矩形と文字列矩形index2を統合したときの座標を以下のように求める。
【0022】
xmin3=min_(xmin3,xmin2);
ymin3=min_(ymin3,ymin2);
xmax3=max_(xmax3,xmax2);
ymax3=max_(ymax3,ymax2);
【0023】
(19)index2をinteg_gno配列に入れ、integ_numをインクリメントする。これにより、integ_gno配列の内容は、図11(a)に示すようになる。
次いで、前方向探査の場合はi=i−1として、また、後方向き探査の場合にはi=i+1として、iが限界を越えたかを調べ限界を越えていなければ前記(11)に戻り、上記処理を繰り返す。そして、iが限界を越えたか、上記条件Aを満たさなくなったら、後述する(20)に行く。
以上の処理を繰り返すことにより、integ_gno配列には統合候補文字列矩形番号の集合が登録される。例えば、図8(a)の例の場合には、文字列矩形番号1,2,4が統合候補文字列矩形番号として求まり、integ_gno配列に登録される。
【0024】
(20)integ_num>1であるかを調べ、integ_num>1でなければカレント文字列矩形に統合される文字列矩形はないので、jをインクリメントして後述する(28)に行く。
(21)横書きの場合、integ_gno配列の中のinteg_num個の文字列について、図11(b)に示すように全ての文字列矩形が重なっている横方向の範囲(sxmin,sxmax)を求める。
(22)integ_gno配列中の文字列矩形を全て囲む矩形を図11(b)に示すようにtmplineとして求める。
(23)tmplineの範囲について、内部にある文字矩形の上下統合を行う。
(24)上下統合後の矩形に対し、sxmin,sxmaxの範囲にかかる文字矩形だけを対象に1文字認識を行う。
例えば前記図8(a)における文字列矩形7,9が「一旦」という文字列であり、これらが統合された場合、上記sxmin,sxmaxは図11(c)に示すような範囲となる。したがって、この場合、「一旦」という文字列の内の文字「旦」という文字が1文字認識の対象となる。
【0025】
(25)文字認識結果の距離値の最高値と平均値を求める。
(26)上記認識結果が条件Cを満たすかを調べる。すなわち、〔距離の平均値〕<〔しきい値(TH_OK_DISTANCE)〕 AND 〔距離の最高値〕<〔しきい値(TH_OK_DISTANCE)〕の条件を満たすかを調べる。なお、TH_OK_DISTANCEは例えば1600である。
条件を満たさない場合には、jをインクリメントし、後述する(28)に行く。
また条件を満たす場合には、(27)に行く。
【0026】
(27)上記条件Cを満たす場合には、統合を認め、integ_gno配列に入っている番号の文字列矩形を統合する。そして、統合した文字列矩形番号より若い番号の文字列矩形だけを残し、他の番号の文字列矩形は削除する。例えば、前記したように文字列矩形番号1,2,4が統合された場合には、文字列矩形番号1を残し、文字列矩形番号2,4を削除する。そして、jをインクリメントし、(28)に行く。
(28)jがsmall_string_count(small_index配列に入れた文字列矩形の数)を越えたかを調べ、越えていなければ、前記(6) に戻り上記処理を繰り返す。
(29)jがsmall_string_countを越えた場合には、削除された文字列矩形以外の文字列矩形の数を数えてそれを出力し、処理を終了する。
【0027】
【発明の効果】
以上説明したように、本発明においては、推定文字サイズよりも小さい文字列矩形は分離していると見なして、文字サイズ程度になるまで文字列を仮に統合し、さらに統合後の文字列矩形内部にある文字を認識して統合結果を検証しているので、誤認議の原因となっていた、分離文字列をなくすことができ、文字認識率を向上させることができる。
【図面の簡単な説明】
【図1】本発明の概要を説明する図である。
【図2】本発明の処理を行うためのシステムの構成例を示す図である。
【図3】本発明の実施例の文字認識処理の概要を示すフローチャートである。
【図4】分離文字列統合処理を示すフローチャート(1)である。
【図5】分離文字列統合処理を示すフローチャート(2)である。
【図6】分離文字列統合処理を示すフローチャート(3)である。
【図7】分離文字列統合処理を示すフローチャート(4)である。
【図8】分離文字列統合処理を説明する図(1)である。
【図9】分離文字列統合処理を説明する図(2)である。
【図10】分離文字列統合処理を説明する図(3)である。
【図11】分離文字列統合処理を説明する図(4)である。
【図12】分離文字列の例を示す図である。
【符号の説明】
11 演算装置(CPU)
12 メモリ
13 外部出力装置
14 画像入力装置

Claims (1)

  1. 2以上の文字列矩形に分離した文字列矩形を統合し、正しい文字列として認識するための分離文字列の統合装置であって、
    文書画像から文字領域を抽出し、黒画素連結領域の外接矩形を求めて文字列矩形を抽出する手段と、
    文字列矩形内部の分離文字矩形を統合する手段と、
    2以上の文字列矩形にまたがる分離文字列を統合する分離文字列統合手段とを備え、該分離文字列統合手段は、文字列矩形内部に含む文字矩形数がしきい値より小さい文字列矩形に注目し、その文字列の上下もしくは左右にある文字列矩形を、推定した文字列サイズとなるように仮統合し、仮統合した文字列矩形に対して文字認識を行い、該文字認識結果が所定の条件を満たしたとき、上記文字列矩形の仮統合を認める
    ことを特徴とする分離文字列の統合装置。
JP2001115133A 2000-04-26 2001-04-13 分離文字列統合装置 Expired - Fee Related JP3957471B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001115133A JP3957471B2 (ja) 2000-04-26 2001-04-13 分離文字列統合装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2000125589 2000-04-26
JP2000-125589 2000-04-26
JP2001115133A JP3957471B2 (ja) 2000-04-26 2001-04-13 分離文字列統合装置

Publications (2)

Publication Number Publication Date
JP2002015283A JP2002015283A (ja) 2002-01-18
JP3957471B2 true JP3957471B2 (ja) 2007-08-15

Family

ID=26590832

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001115133A Expired - Fee Related JP3957471B2 (ja) 2000-04-26 2001-04-13 分離文字列統合装置

Country Status (1)

Country Link
JP (1) JP3957471B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3866600B2 (ja) * 2002-03-27 2007-01-10 株式会社東芝 画像処理装置及び画像処理方法
JP2004062385A (ja) * 2002-07-26 2004-02-26 Ricoh Co Ltd 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置
JP2004151781A (ja) * 2002-10-28 2004-05-27 Ricoh Co Ltd 行切り出し装置、行切り出し方法およびプログラム
JP4549400B2 (ja) * 2008-03-04 2010-09-22 富士通株式会社 文書認識プログラム、文書認識装置、および文書認識方法

Also Published As

Publication number Publication date
JP2002015283A (ja) 2002-01-18

Similar Documents

Publication Publication Date Title
US8462394B2 (en) Document type classification for scanned bitmaps
Xi et al. A video text detection and recognition system
US20030198386A1 (en) System and method for identifying and extracting character strings from captured image data
US20090257658A1 (en) Image extracting apparatus, image extracting method and computer readable medium
US6917708B2 (en) Handwriting recognition by word separation into silhouette bar codes and other feature extraction
US20140219561A1 (en) Character segmentation device and character segmentation method
US5805740A (en) Bar-code field detecting apparatus performing differential process and bar-code reading apparatus
US20150278626A1 (en) Character recognition device and character segmentation method
JP2011227636A (ja) 文字列認識装置および文字列認識方法
CN103577818A (zh) 一种图像文字识别的方法和装置
Harit et al. Table detection in document images using header and trailer patterns
JP6171167B2 (ja) 文字認識装置、文字認識方法、及び文字認識プログラム
JP3851742B2 (ja) 帳票処理方法及び装置
WO2000062243A1 (fr) Procede et dispositif d'extraction de chaines de caracteres utilisant un composant de base d'une image de document
Chowdhury et al. Automated segmentation of math-zones from document images
Mullick et al. An efficient line segmentation approach for handwritten Bangla document image
KR101937398B1 (ko) 고문서의 이미지 데이터에서의 문자 추출 시스템 및 이를 이용한 문자 추출 방법
JP3957471B2 (ja) 分離文字列統合装置
Lue et al. A novel character segmentation method for text images captured by cameras
JP3268552B2 (ja) 領域抽出方法、宛名領域抽出方法、宛名領域抽出装置、及び画像処理装置
US20030123730A1 (en) Document recognition system and method using vertical line adjacency graphs
Qin et al. Laba: Logical layout analysis of book page images in arabic using multiple support vector machines
Aparna et al. A complete OCR system development of Tamil magazine documents
Sherkat et al. Use of colour for hand-filled form analysis and recognition
JP4731748B2 (ja) 画像処理装置、方法、プログラム及び記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040423

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061024

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061220

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070404

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070416

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070508

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070508

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R154 Certificate of patent or utility model (reissue)

Free format text: JAPANESE INTERMEDIATE CODE: R154

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100518

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100518

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110518

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120518

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130518

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140518

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees