JP2000082110A - 罫線消去装置および文字画像抽出装置および罫線消去方法および文字画像抽出方法および記録媒体 - Google Patents

罫線消去装置および文字画像抽出装置および罫線消去方法および文字画像抽出方法および記録媒体

Info

Publication number
JP2000082110A
JP2000082110A JP11063231A JP6323199A JP2000082110A JP 2000082110 A JP2000082110 A JP 2000082110A JP 11063231 A JP11063231 A JP 11063231A JP 6323199 A JP6323199 A JP 6323199A JP 2000082110 A JP2000082110 A JP 2000082110A
Authority
JP
Japan
Prior art keywords
extracted
line
dotted line
ruled line
rectangle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11063231A
Other languages
English (en)
Inventor
Goro Bessho
吾朗 別所
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP11063231A priority Critical patent/JP2000082110A/ja
Publication of JP2000082110A publication Critical patent/JP2000082110A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 新規な罫線消去装置および罫線消去方法およ
び記録媒体を提供し、また、文字が枠をはみ出して罫線
と交差するような状態の文字画像に対しても、正確な文
字認識などがなされるように、文字画像を抽出する。 【解決手段】 2値画像中の黒ランを抽出する黒ラン抽
出手段9と、黒ランの長さのヒストグラムを作成するヒ
ストグラム作成手段11と、黒ランの長さのヒストグラ
ムから黒ランの長さのピークを検出するピーク検出手段
13と、ピークを持つ黒ランに対応した黒画素を白画素
に変更することで罫線を消去する罫線消去手段14とを
備えている。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、罫線やアンダーラ
インを含む表,帳票などの文書の画像に対して罫線を消
去する罫線消去装置および罫線消去方法、および、上記
文書画像から文字画像を抽出する文字画像抽出装置およ
び文字画像抽出方法、および、記録媒体に関する。
【0002】
【従来の技術】一般的に、表や帳票などの罫線を含む文
書の文字認識を行なう場合、罫線の情報を抽出してか
ら、罫線によって囲まれる枠の内部の文字を認識するこ
とが多い。
【0003】例えば、従来、特開平3−172984号
には、枠を構成する主走査方向および副走査方向の罫線
の矩形を抽出し、罫線によって囲まれる枠を罫線の矩形
の外側の座標を用いて認識し、枠内の黒連結の外接矩形
を求め、枠に接している外接矩形を除去し、残った外接
矩形を用いて枠内の文字画像を切り出す技術が示されて
いる。この技術によれば、文書画像が傾いて入力された
場合においても、枠内の文字を正しく切り出し(文字欠
けを生じさせることなく)、認識させることが可能とな
る。
【0004】また、特開平9−179936号には、第
1のメモリに格納された2値イメージ上の一定値以上の
長さを持つ黒ランを抽出する黒ラン抽出ステップと、該
黒ラン抽出ステップで抽出された黒ランの中の予め定め
られた距離内にある黒ランを統合し、統合した黒ランを
すべて包括する矩形を罫線矩形として抽出する罫線矩形
抽出ステップと、該罫線矩形抽出ステップで抽出された
罫線矩形に包括される黒ランに対応した、該第1メモリ
内の2値イメージ中の黒画素を白画素に変換する罫線消
去ステップとを有する罫線消去方法が示されている。こ
の罫線消去方法によれば、罫線を構成する黒ランの単位
で罫線消去を行なうため、イメージのスキューがあって
も、その影響を受けることなく正確な罫線消去が可能と
なる。
【0005】
【発明が解決しようとする課題】しかしながら、上述し
た従来の技術では、文字が枠内に収まっている状態で罫
線に接触している場合には、文字認識等が可能となる
が、文字が枠をはみ出して罫線と交差している状態の場
合には、枠内のみの画素の画像だけしか抽出されないの
で、文字画像を正しく抽出することができず、従って、
文字認識などを正確に行なうことができないという問題
があった。
【0006】本発明は、新規な罫線消去装置および罫線
消去方法および記録媒体を提供し、また、文字が枠をは
み出して罫線と交差するような状態の文字画像に対して
も、正確な文字認識などがなされるように、文字画像を
抽出することの可能な文字画像抽出装置および文字画像
抽出方法および記録媒体を提供することを目的としてい
る。
【0007】
【課題を解決するための手段】上記目的を達成するため
に、請求項1記載の発明は、2値画像中の黒ランを抽出
する黒ラン抽出手段と、黒ランの長さのヒストグラムを
作成するヒストグラム作成手段と、黒ランの長さのヒス
トグラムから黒ランの長さのピークを検出するピーク検
出手段と、ピークを持つ黒ランに対応した黒画素を白画
素に変更することで罫線を消去する罫線消去手段とを備
えていることを特徴としている。
【0008】また、請求項2記載の発明は、認識されあ
るいは指定された表領域において、主走査方向,副走査
方法の罫線の矩形を抽出する罫線認識手段と、罫線によ
って囲まれる枠の座標を罫線の矩形の外側の座標を用い
て認識する枠認識手段と、請求項1の罫線消去装置を用
いて罫線を消去する罫線消去手段と、罫線の消去された
画像から枠認識手段で認識された枠の座標に基づき枠内
の文字画像を抽出する文字画像抽出手段とを備えている
ことを特徴としている。
【0009】また、請求項3記載の発明は、抽出対象領
域を指定する抽出対象領域指定手段と、指定された抽出
対象領域の4辺の近傍に対して、請求項1の罫線消去装
置を用いて罫線を消去する罫線消去手段と、指定された
抽出対象領域の座標値に基づいて、罫線が消去された画
像から文字画像を抽出する文字画像抽出手段とを備えて
いることを特徴としている。
【0010】また、請求項4記載の発明は、2値画像中
の黒ランを抽出し、抽出した黒ランの長さのヒストグラ
ムを作成し、黒ランの長さのヒストグラムから黒ランの
長さのピークを検出し、ピークを持つ黒ランに対応した
黒画素を白画素に変更することで罫線を消去することを
特徴としている。
【0011】また、請求項5記載の発明は、認識されあ
るいは指定された表領域において、主走査方向,副走査
方法の罫線の矩形を抽出し、罫線によって囲まれる枠の
座標を罫線の矩形の外側の座標を用いて認識し、請求項
4の罫線消去方法を用いて罫線を消去し、罫線の消去さ
れた画像から枠の座標に基づき枠内の文字画像を抽出す
ることを特徴としている。
【0012】また、請求項6記載の発明は、抽出対象領
域を指定し、指定された抽出対象領域の4辺の近傍に対
して、請求項4の罫線消去方法を用いて罫線を消去し、
指定された抽出対象領域の座標値に基づいて、罫線が消
去された画像から文字画像を抽出することを特徴として
いる。
【0013】また、請求項7記載の発明は、請求項4記
載の罫線消去方法をコンピュータに実行させるプログラ
ムを記録した前記コンピュータが読取可能な記録媒体で
ある。
【0014】また、請求項8記載の発明は、請求項5ま
たは請求項6記載の文字画像抽出方法をコンピュータに
実行させるプログラムを記録した前記コンピュータが読
取可能な記録媒体である。
【0015】また、請求項9記載の発明は、入力画像に
対して、認識対象領域の周辺の近傍について、連結する
黒画素をすべて包含する矩形を抽出し、得られた矩形と
予め定められた矩形の大きさを比較し、点線を構成する
と判断したものは点線要素として抽出し、抽出された点
線要素同士の間隔が予め定められた閾値以内であればそ
れを統合した矩形を点線罫線として抽出し、点線罫線が
抽出されたときに、抽出された点線罫線を構成する点線
要素を白画素に変えることで点線を消去することを特徴
としている。
【0016】また、請求項10記載の発明は、入力画像
に対して、認識対象領域指定部によって指定された認識
対象領域の周辺の近傍について、連結する黒画素をすべ
て包含する矩形を抽出し、抽出された矩形が実線である
と判断されたときに該矩形を実線罫線として抽出し、実
線罫線が抽出されたときに、抽出された実線罫線を消去
し、また、矩形が抽出されたときに、抽出された矩形と
予め定められた矩形の大きさを比較し、点線を構成する
と判断したものは点線要素として抽出し、抽出された点
線要素同士の間隔が予め定められた閾値以内であればそ
れを統合した矩形を点線罫線として抽出し、点線罫線が
抽出されたときに、抽出された点線罫線を構成する点線
要素を白画素に変えることで点線を消去するようになっ
ており、点線罫線を消去する前に、実線罫線を消去する
ことを特徴としている。
【0017】また、請求項11記載の発明は、入力画像
に対して、認識対象領域の周辺の近傍について、連結す
る黒画素をすべて包含する矩形を抽出し、得られた矩形
と予め定められた矩形の大きさを比較し、点線を構成す
ると判断したものは点線要素として抽出し、抽出された
点線要素同士の間隔が予め定められた閾値以内であれば
それを統合した矩形を点線罫線として抽出し、点線罫線
が抽出されたときに、抽出された点線罫線を構成する点
線要素を白画素に変えることで点線を消去し、点線罫線
が消去された画像から文字画像を抽出することを特徴と
している。
【0018】また、請求項12記載の発明は、入力画像
に対して、認識対象領域指定部によって指定された認識
対象領域の周辺の近傍について、連結する黒画素をすべ
て包含する矩形を抽出し、抽出された矩形が実線である
と判断されたときに該矩形を実線罫線として抽出し、実
線罫線が抽出されたときに、抽出された実線罫線を消去
し、また、矩形が抽出されたときに、抽出された矩形と
予め定められた矩形の大きさを比較し、点線を構成する
と判断したものは点線要素として抽出し、抽出された点
線要素同士の間隔が予め定められた閾値以内であればそ
れを統合した矩形を点線罫線として抽出し、点線罫線が
抽出されたときに、抽出された点線罫線を構成する点線
要素を白画素に変えることで点線を消去するようになっ
ており、実線罫線および点線罫線が消去された画像から
文字画像を抽出することを特徴としている。
【0019】また、請求項13記載の発明は、請求項
4,請求項9または請求項10記載の罫線消去方法をコ
ンピュータに実行させるプログラムを記録した前記コン
ピュータが読取可能な記録媒体である。
【0020】また、請求項14記載の発明は、請求項
5,請求項6,請求項11または請求項12記載の文字
画像抽出方法をコンピュータに実行させるプログラムを
記録した前記コンピュータが読取可能な記録媒体であ
る。
【0021】
【発明の実施の形態】以下、本発明の実施形態を図面に
基づいて説明する。図1は本発明に係る文字画像抽出装
置(罫線消去装置)の第1の構成例を示す図である。図1
の文字画像抽出装置(罫線消去装置)は、特に、不定型の
表が存在する場合の処理に用いることができ、2値画像
を入力する2値画像入力部1と、2値画像が蓄積される
2値イメージメモリ2と、2値画像から表領域を認識す
る表領域認識部3と、認識した表領域のデータを蓄積す
る表領域メモリ4と、一定値以上の黒ランを抽出し、そ
のランの連結成分を罫線として認識し抽出する罫線認識
部5と、認識(抽出)した罫線のデータを蓄積する罫線メ
モリ6と、主走査方向,副走査方向の罫線を組み合わせ
て枠を認識する枠認識部7と、認識した枠に関するデー
タ(枠領域データ)を蓄積する枠領域メモリ8と、2値画
像中の黒ランを抽出する黒ラン抽出部9と、抽出した黒
ランに関するデータを蓄積する黒ランメモリ10と、黒
ランの長さのヒストグラムを作成するランヒストグラム
生成部11と、黒ランの長さのヒストグラムを蓄積する
ランヒストグラムメモリ12と、2値画像において、黒
ランの長さのヒストグラムから黒ランの長さのピークを
検出するピーク検出部13と、ピークを持つ黒ランに対
応する黒画素を白画素に変更することで罫線を消去する
罫線消去部14と、罫線の消去された画像から枠認識部
7で認識された枠座標に基づき枠内の文字画像を抽出す
る文字画像抽出部15とを有している。
【0022】次に、このような構成の文字画像抽出装置
(罫線消去装置)の処理動作(特に、不定型の表が存在す
る場合の処理動作)について図2のフローチャートを用
いて説明する。不定型の表が存在する場合の処理では、
まず、2値画像入力部1(スキャナ等)によって、表の含
まれる文書を読み取る(ステップS1)。次いで、表領域
認識部3では、文書画像の中から黒ランの長さがある一
定値以上のものをもつ領域を表領域として認識し抽出す
る(ステップS2)。次いで、罫線認識部5では、一定値
以上の黒ランを抽出し、そのランの連結成分を罫線とし
て認識し抽出する(ステップS3)。なお、この罫線抽出
処理では、走査を主走査方向,副走査方向の両方に対し
て行ない、それぞれの方向の罫線として抽出する。次い
で、枠認識部7では、主走査方向、副走査方向の罫線を
組み合わせて枠領域を認識する(ステップS4)。なお、
枠は各罫線により4辺が閉じられるものとする。次い
で、黒ラン抽出部9では、罫線認識部5で認識された罫
線領域に対して、走査方向と直交する成分の黒ランを抽
出する(ステップS5)。
【0023】図3には、副走査方向(縦方向)の罫線に数
字「5」が交差している例が示されている。図3の例の
場合、罫線が副走査方向であるため、黒ラン抽出部9
は、点線で囲まれた範囲に対して、主走査方向の黒ラン
を抽出する。
【0024】次いで、ランヒストグラム生成部11は、
この黒ラン(主走査方向の黒ラン)に対し、長さのヒスト
グラムを生成する(ステップS6)。すると、罫線領域で
は、罫線の太さに相当するランがヒストグラムのピーク
となって現れる。それ以外のラン(ヒストグラムのピー
ク以外の部分)は、罫線部分の画像のゆらぎや、罫線以
外の文字などの混在である。従って、ピーク検出部13
において上記ピークが検出されると、罫線消去部14で
は、このピークをもつ長さのランのみを罫線画素として
2値画像から消去する(ステップS7)。具体的には、ラ
ンのデータを抽出時に保持しておき、ピークを持つ黒ラ
ンに対応する黒画素のみを白画素に置き換えることで消
去を行なう。これによって、図3の例では、数字「5」
の上の横棒の部分は一切消去されず、副走査方向(縦方
向)の罫線の画素のみが綺麗に消去されることになる。
【0025】次いで、文字画像抽出部15では、枠認識
部7で得られた枠領域に対し、罫線が消去された後の画
像を用いて、枠領域内の黒画素連結成分を取り文字画像
の抽出を行なう(ステップS8)。この際、罫線と交差す
る文字は隣接する枠にはみ出すので、文字画像の抽出で
は、上記枠領域よりも数画素広めの領域から文字画像を
探すのが良い。このようにして文字画像が抽出されると
き、抽出された文字画像に対して、文字認識などを行な
うことができる。
【0026】なお、上述の例では、表領域の認識,抽出
処理を表領域認識部3で行なったが、これのかわりに、
例えば、ディスプレイに文書画像を表示させマウスなど
のポインティングデバイスを用いて領域の指定を行なっ
てもよい。
【0027】図4は本発明に係る文字画像抽出装置(罫
線消去装置)の第2の構成例を示す図である。図4の文
字画像抽出装置(罫線消去装置)は、特に、定型の帳票に
対する処理に用いることができ、帳票のマスター画像
(データの記入されていない空の帳票画像)を入力するマ
スター画像入力部21と、マスター画像が蓄積されるマ
スター画像メモリ22と、抽出対象領域情報を入力する
抽出領域情報入力部23と、抽出対象領域情報を蓄積す
る抽出領域情報ファイル24と、マスター画像から罫線
を認識する罫線認識部25と、罫線情報を蓄積する罫線
情報ファイル26と、帳票のデータ画像を入力するデー
タ画像入力部27と、データ画像を蓄積するデータ画像
メモリ28と、データ画像とマスター画像との間で位置
合わせを行ない、その後、データ画像とマスター画像と
の間の位置ずれをアフィン変換を用いて計算する位置合
わせアフィン変換部29と、アフィン変換を用いて位置
ずれを計算したときのアフィン変換の係数を蓄積するア
フィン変換係数メモリ30と、データ画像上の罫線情報
をアフィン変換した領域内に対して、黒ランを抽出する
黒ラン抽出部31と、抽出した黒ランに関するデータを
蓄積する黒ランメモリ32と、黒ランの長さのヒストグ
ラムを作成するランヒストグラム生成部33と、黒ラン
の長さのヒストグラムを蓄積するランヒストグラムメモ
リ34と、2値画像において、黒ランの長さのヒストグ
ラムから黒ランの長さのピークを検出するピーク検出部
35と、ピークを持つ黒ランに対応する黒画素を白画素
に変更することで罫線を消去する罫線消去部36と、罫
線の消去された画像から枠認識手段で認識された枠座標
に基づき枠内の文字画像を抽出する文字画像抽出部37
とを有している。
【0028】次に、このような構成の文字画像抽出装置
(罫線消去装置)の処理動作(特に、定型の帳票に対する
処理動作)について図5のフローチャートを用いて説明
する。
【0029】図6(a)には、定型の帳票のマスター画像
の一例が示されている。また、図6(b)には、図6(a)
の定型の帳票にデータが記入された実際の帳票画像(デ
ータ画像)の一例が示されている。
【0030】定型の帳票に対する処理では、まず、2値
画像入力部、すなわちマスター画像入力部21(スキャ
ナ等)によって、図6(a)に示すような帳票のマスター
画像(データの記入されていない空の帳票画像)を読み取
る(ステップS11)。次いで、抽出領域情報入力部23
では、マスター画像をディスプレイなどに表示させなが
ら、文字画像抽出の対象となる枠の位置や文字画像抽出
対象の文字種などの抽出対象領域情報を入力する(ステ
ップS12)。この情報は、抽出領域情報ファイル24
に予め格納しておく。次いで、罫線認識部25では、マ
スター画像の抽出対象領域の4辺の近傍に対して、罫線
抽出を行なう(ステップS13)。この情報は、罫線情報
ファイル26に格納しておく。ここで、罫線抽出は、前
述した不定型の表が存在する場合の処理の場合と同様
に、一定値以上の黒ランを抽出した後、ランの連結成分
を求めて行なうことができる。図7には、罫線抽出の一
例が示されている。
【0031】次いで、2値画像入力部、すなわちデータ
画像入力部27(スキャナ等)によって、図6(b)のよう
な帳票のデータ画像(データが記入されている実際の帳
票画像)を読み取る(ステップS14)。次いで、データ
画像上に、抽出対象領域情報とマスター画像で抽出され
た罫線情報のマッピングを行ない、マスター画像とデー
タ画像との間の位置ずれを計算する(ステップS15)。
位置ずれの計算には、例えば、画像の特徴点(図6
(a),(b)の例では、マスター画像で印刷されている
「おなまえ」などのプレ印刷文字)から、アフィン変換
の係数を求める方法で行なう。
【0032】次いで、データ画像上の罫線情報をアフィ
ン変換した領域内に対して、罫線の走査方向と直交する
成分の黒ランを抽出し(ステップS16)、ランヒストグ
ラムを作成し(ステップS17)、ヒストグラムのピーク
をもつ長さの黒ランに対応する黒画素をデータ画像から
消去する(ステップS18)。このステップS16の黒ラ
ン抽出処理,ステップS17のヒストグラム作成処理,
ステップS18の黒ラン消去処理は、前述した不定型の
表が存在する場合の処理のステップS5,ステップS
6,ステップS7と全く同様である。
【0033】次いで、抽出領域情報も罫線情報と同様に
アフィン変換し、ヒストグラムのピークをもつ長さの黒
ランに対応する黒画素が消去された画像の領域内に対し
て黒画素の連結成分から文字画像の抽出を行なう(ステ
ップS19)。この際、罫線と交差する文字を抽出する
ために、前述した不定型の表が存在する場合の処理のス
テップS8と同様にして、アフィン変換後の抽出領域よ
りも数画素広めの領域を探す。このようにして文字画像
が抽出されるとき、抽出された文字画像に対して、文字
認識などを行なうことができる。
【0034】図8は本発明に係る文字画像抽出装置(罫
線消去装置)の第3の構成例を示す図である。図8の文
字画像抽出装置(罫線消去装置)は、特に、定型の帳票に
対する処理に用いることができ、画像(例えば、帳票の
2値画像)を入力する画像入力部61と、画像入力部6
1から帳票のマスター画像(データの記入されていない
空の帳票画像)が入力されたとき、入力されたマスター
画像が蓄積されるマスター画像メモリ62と、画像入力
部61から帳票のデータ画像が入力されたときに、入力
されたデータ画像を蓄積するデータ画像メモリ63と、
例えば文字認識の対象となる枠の位置,罫線の種類(実
線,点線など)や認識対象文字種などの認識領域情報の
入力を行なうための認識領域情報入力部64と、認識領
域情報入力部64によって入力された認識領域情報など
が格納される帳票辞書65と、マスター画像メモリ62
に蓄積されているマスター画像から実線罫線を抽出する
マスター画像実線罫線抽出部66と、マスター画像メモ
リ62に蓄積されているマスター画像から点線罫線を抽
出するマスター画像点線罫線抽出部67と、データ画像
メモリ63に蓄積されているデータ画像から実線罫線を
抽出するデータ画像実線罫線抽出部68と、抽出された
実線罫線が蓄積される実線罫線メモリ69と、データ画
像メモリ63に蓄積されているデータ画像から実線罫線
メモリ69に蓄積されている実線罫線を消去するデータ
画像実線罫線消去部70と、データ画像メモリ63に蓄
積されているデータ画像から点線罫線を抽出するデータ
画像点線罫線抽出部71と、抽出された点線罫線が蓄積
される点線罫線メモリ72と、データ画像メモリ63に
蓄積されているデータ画像から点線罫線メモリ72に蓄
積されている点線罫線を消去するデータ画像点線罫線消
去部73と、罫線(実線罫線,点線罫線)の消去された画
像から文字画像を抽出する文字画像抽出部74とを有し
ている。
【0035】次に、このような構成の文字画像抽出装置
(罫線消去装置)の処理動作(特に、定型の帳票に対する
処理動作)について図9のフローチャートを用いて説明
する。
【0036】図9を参照すると、スキャナ等の画像入力
部(例えば2値画像入力部)61によって、帳票のマスタ
ー画像,例えば図10に示すようなデータの書かれてい
ない空の帳票の画像を読み取る(ステップS21)。
【0037】次いで、認識領域情報入力部64では、こ
のマスター画像をディスプレイなどに表示させながら、
文字認識の対象となる枠の位置,罫線の種類(実線・点
線など)や認識対象文字種などの認識領域情報を入力
し、その情報を帳票辞書65に格納しておく(ステップ
S22)。図11では、area1とarea2の2つ
の領域が認識指定領域として指定されている様子を表わ
している。
【0038】次いで、マスター画像実線罫線抽出部66
では、上記で指定した認識領域の中で、実線と指定され
た罫線の存在する領域を認識対象枠の周辺の近傍とみな
し、その範囲で実線罫線の抽出を行なう(ステップS2
3)。なお、実線罫線の抽出には、一定値以上の長さを
もつ黒ランを統合するなどして求める。また、罫線抽出
の対象範囲を枠の周辺近傍に限定することで、不要な箇
所を罫線として誤抽出することが予防できる。抽出され
た罫線の情報は帳票辞書65に格納する。
【0039】図12には、マスター画像上での罫線抽出
の例が示されており、図12の例では、図11のare
a1の領域に対する実線罫線として、sh11,sv1
1,sv12が得られ、また、図11のarea2の領
域に対する実線罫線として、sh21,sv21,sv
22が得られる様子が示されている。
【0040】同様に、マスター画像点線罫線抽出部67
では、点線と指定された罫線の存在する領域を認識対象
枠の周辺の近傍とし、その範囲で、連結する黒画素をす
べて包含する矩形を抽出する。得られた矩形と予め点線
を構成するにふさわしいと考えられている矩形(以下点
線要素と呼ぶ)の大きさを比較し、点線要素とみなせる
矩形以外は除去する。残った点線要素同士の間隔が予め
定められた閾値以内であれば、それを統合して点線罫線
として抽出する(ステップS24)。
【0041】図11のarea1とarea2のように
隣接する領域で罫線が共有されているものは、図12の
ようにarea1からの点線dh11とarea2から
の点線dh21とが別々の罫線として抽出されるが、こ
の罫線の包含関係をみて、共有領域がある一定値以上あ
る場合には、一つの罫線として統合する。これは点線だ
けでなく、実線の場合でも同様である。得られた点線罫
線の位置,それを構成する点線要素の平均の幅および高
さ,点線要素同士の間隔を、帳票辞書65に格納してお
く。
【0042】次に、画像入力部61では、データ画像,
すなわち図13に示すような文字認識の対象となるデー
タの記入されている帳票の画像も同様に2値画像として
読み取る(ステップS25)。
【0043】次いで、データ画像実線罫線抽出部68で
は、上記で登録した帳票辞書65を読み取り、データ画
像上に実線罫線の情報を投影し、該当する実線罫線の認
識を行ない、データ画像から実線罫線を抽出し(ステッ
プS26)、データ画像実線罫線消去部70では、図1
4に示すようにデータ画像から実線罫線画像を消去する
(ステップS27)。この際、マスター画像とデータ画
像の位置のずれ量を計算し、その量だけ修正を行なって
おく。また、ここで、実線罫線のみを先に消去する理由
は、図15(a)のように実線罫線と点線罫線が交差して
いる箇所では、そのままの画像では、点線要素の一部が
連結成分として分離できないためである。図15(b)の
ように実線を消去することで、点線を構成するすべての
点線要素を抽出することが可能となる。
【0044】次いで、実線罫線の場合と同様に、データ
画像点線罫線抽出部71では、登録したマスター画像上
の情報を投影し、該当する点線罫線を抽出する(ステッ
プS28)。この時、点線要素の抽出には、登録時の幅
および高さ,点線要素同士の間隔の情報を用いること
で、より正確な抽出が可能となる。
【0045】次いで、データ画像点線罫線消去部73で
は、図16に示すように、抽出された点線罫線を構成す
る点線要素を白画素にすることで、点線の消去を行なう
(ステップS29)。
【0046】次いで、文字画像抽出部74では、図17
に示すように、実線罫線および点線罫線が消去されたデ
ータ画像の認識対象領域内に対して、連結成分を抽出
し、データとして記入されている文字画像を抽出する
(ステップS30)。
【0047】抽出された文字画像は、例えば文字認識さ
れ、文字コードに変換される(ステップS31)。
【0048】このように、図8の構成では、指定領域の
周辺にある罫線が点線の場合でも、認識対象の文字を正
確に認識することができる。
【0049】図18は図1,図4あるいは図8の文字画
像抽出装置(罫線消去装置)のハードウェア構成例を示す
図である。図18を参照すると、この文字画像抽出装置
(罫線消去装置)は、例えばパーソナルコンピュータ等で
実現され、全体を制御するCPU41と、CPU41の
制御プログラム等が記憶されているROM42と、CP
U41のワークエリア等として使用されるRAM43
と、ハードディスク44と、文書を文書画像として読込
んだり、所定の情報を入力する入力装置(スキャナや、
キーボード,マウスなど)45と、文書画像に含まれて
いる文字画像の抽出結果、あるいは抽出された文字画像
に対し文字認識処理を行なった結果の情報を出力する出
力装置(例えば、ディスプレイやプリンタ)46とを有し
ている。
【0050】ここで、CPU41は、文字画像抽出機能
(罫線消去機能)を有している。すなわち、図1の表領域
認識部3,罫線認識部5,枠認識部7,黒ラン抽出部
9,ランヒストグラム生成部11,ピーク検出部13,
罫線消去部14,文字画像抽出部15の機能,あるい
は、図4の罫線認識部25,位置合わせアフィン変換部
29,黒ラン抽出部31,ランヒストグラム生成部3
3,ピーク検出部35,罫線消去部36,文字画像抽出
部37の機能、あるいは、図8のマスター画像実線罫線
抽出部66,マスター画像点線罫線抽出部67,データ
画像実線罫線抽出部68,データ画像実線罫線消去部7
0,データ画像点線罫線抽出部71,データ画像点線罫
線消去部73,文字画像抽出部74などの機能を有して
いる。
【0051】なお、CPU41におけるこのような文字
画像抽出機能(罫線消去機能)は、例えばソフトウェアパ
ッケージ(具体的には、CD−ROM等の情報記録媒体)
の形で提供することができ、このため、図8の例では、
情報記録媒体50がセットさせるとき、これを駆動する
媒体駆動装置51が設けられている。
【0052】換言すれば、本発明の文字画像抽出装置
(罫線消去装置)は、イメージスキャナ,ディスプレイ等
を備えた汎用の計算機システムにCD−ROM等の情報
記録媒体に記録されたプログラムを読み込ませて、この
汎用計算機システムのマイクロプロセッサに文字画像抽
出機能(罫線消去機能)を実行させる装置構成においても
実施することが可能である。この場合、本発明の文字画
像抽出機能(罫線消去機能)を実行するためのプログラム
(すなわち、ハードウェアシステムで用いられるプログ
ラム)は、媒体に記録された状態で提供される。プログ
ラムなどが記録される情報記録媒体としては、CD−R
OMに限られるものではなく、ROM,RAM,フレキ
シブルディスク,メモリカード等が用いられても良い。
媒体に記録されたプログラムは、ハードウェアシステム
に組み込まれている記憶装置、例えばハードディスク装
置にインストールされることにより、このプログラムを
実行して、文字画像抽出機能(罫線消去機能)を実現する
ことができる。
【0053】
【発明の効果】以上に説明したように、請求項1乃至請
求項6,請求項13,請求項14記載の発明によれば、
罫線枠からはみ出した文字に対しても、文字画像の抽出
を正確に行なうことができる。すなわち、文字が枠をは
み出して罫線と交差するような状態の文字画像に対して
も、正確な文字認識などがなされるように、文字画像を
抽出することができる。
【0054】また、請求項7乃至請求項14記載の発明
によれば、定型文書を処理するにあたり、認識対象の領
域にある罫線が点線の場合でも、正確な文字認識などが
なされるように、文字画像を抽出することができる。
【図面の簡単な説明】
【図1】本発明に係る文字画像抽出装置(罫線消去装置)
の第1の構成例を示す図である。
【図2】図1の文字画像抽出装置(罫線消去装置)の処理
動作を説明するためのフローチャートである。
【図3】罫線消去処理を説明するための図である。
【図4】本発明に係る文字画像抽出装置(罫線消去装置)
の第2の構成例を示す図である。
【図5】図4の文字画像抽出装置(罫線消去装置)の処理
動作を説明するためのフローチャートである。
【図6】定型の帳票の一例を示す図である。
【図7】図6の定型の帳票における罫線抽出処理を説明
するための図である。
【図8】本発明に係る文字画像抽出装置(罫線消去装置)
の第3の構成例を示す図である。
【図9】図8の文字画像抽出装置(罫線消去装置)の処理
動作を説明するためのフローチャートである。
【図10】帳票のマスター画像の一例を示す図である。
【図11】図10のマスター画像に対する罫線抽出を説
明するための図である。
【図12】図10のマスター画像に対する罫線抽出を説
明するための図である。
【図13】帳票のデータ画像の一例を示す図である。
【図14】図13のデータ画像に対する実線罫線消去を
説明するための図である。
【図15】実線罫線の消去を点線罫線の消去に先立って
行なう理由を説明するための図である。
【図16】図13のデータ画像に対する実線罫線,点線
罫線の消去を説明するための図である。
【図17】文字抽出処理の一例を示す図である。
【図18】図1,図4あるいは図8の文字画像抽出装置
(罫線消去装置)のハードウェア構成例を示す図である。
【符号の説明】
1 2値画像入力部 2 2値イメージメモリ 3 表領域認識部 4 表領域メモリ 5 罫線認識部 6 罫線メモリ 7 枠認識部 8 枠領域メモリ 9 黒ラン抽出部 10 黒ランメモリ 11 ランヒストグラム生成部 12 ランヒストグラムメモリ 13 ピーク検出部 14 罫線消去部 15 文字画像抽出部 21 マスター画像入力部 22 マスター画像メモリ 23 抽出領域情報入力部 24 抽出領域情報ファイル 25 罫線認識部 26 罫線情報ファイル 27 データ画像入力部 28 データ画像メモリ 29 位置合わせアフィン変換部 30 アフィン変換係数メモリ 31 黒ラン抽出部 32 黒ランメモリ 33 ランヒストグラム生成部 34 ランヒストグラムメモリ 35 ピーク検出部 36 罫線消去部 37 文字画像抽出部 41 CPU 42 ROM 43 RAM 44 ハードディスク 45 入力装置 46 出力装置 50 情報記憶媒体 51 媒体駆動装置 61 画像入力部 62 マスター画像メモリ 63 データ画像メモリ 64 認識領域情報入力部 65 帳票辞書 66 マスター画像実線罫線抽出部 67 マスター画像点線罫線抽出部 68 データ画像実線罫線抽出部 69 実線罫線メモリ 70 データ画像実線罫線消去部 71 データ画像点線罫線抽出部 72 点線罫線メモリ 73 データ画像点線罫線消去部 74 文字画像抽出部

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 2値画像中の黒ランを抽出する黒ラン抽
    出手段と、黒ランの長さのヒストグラムを作成するヒス
    トグラム作成手段と、黒ランの長さのヒストグラムから
    黒ランの長さのピークを検出するピーク検出手段と、ピ
    ークを持つ黒ランに対応した黒画素を白画素に変更する
    ことで罫線を消去する罫線消去手段とを備えていること
    を特徴とする罫線消去装置。
  2. 【請求項2】 認識されあるいは指定された表領域にお
    いて、主走査方向,副走査方法の罫線の矩形を抽出する
    罫線認識手段と、罫線によって囲まれる枠の座標を罫線
    の矩形の外側の座標を用いて認識する枠認識手段と、請
    求項1の罫線消去装置を用いて罫線を消去する罫線消去
    手段と、罫線の消去された画像から枠認識手段で認識さ
    れた枠の座標に基づき枠内の文字画像を抽出する文字画
    像抽出手段とを備えていることを特徴とする文字画像抽
    出装置。
  3. 【請求項3】 抽出対象領域を指定する抽出対象領域指
    定手段と、指定された抽出対象領域の4辺の近傍に対し
    て、請求項1の罫線消去装置を用いて罫線を消去する罫
    線消去手段と、指定された抽出対象領域の座標値に基づ
    いて、罫線が消去された画像から文字画像を抽出する文
    字画像抽出手段とを備えていることを特徴とする文字画
    像抽出装置。
  4. 【請求項4】 2値画像中の黒ランを抽出し、抽出した
    黒ランの長さのヒストグラムを作成し、黒ランの長さの
    ヒストグラムから黒ランの長さのピークを検出し、ピー
    クを持つ黒ランに対応した黒画素を白画素に変更するこ
    とで罫線を消去することを特徴とする罫線消去方法。
  5. 【請求項5】 認識されあるいは指定された表領域にお
    いて、主走査方向,副走査方法の罫線の矩形を抽出し、
    罫線によって囲まれる枠の座標を罫線の矩形の外側の座
    標を用いて認識し、請求項4の罫線消去方法を用いて罫
    線を消去し、罫線の消去された画像から枠の座標に基づ
    き枠内の文字画像を抽出することを特徴とする文字画像
    抽出方法。
  6. 【請求項6】 抽出対象領域を指定し、指定された抽出
    対象領域の4辺の近傍に対して、請求項4の罫線消去方
    法を用いて罫線を消去し、指定された抽出対象領域の座
    標値に基づいて、罫線が消去された画像から文字画像を
    抽出することを特徴とする文字画像抽出方法。
  7. 【請求項7】 画像を入力する画像入力部と、予め認識
    対象領域を指定する認識対象領域指定部と、画像入力部
    で入力された画像に対して、認識対象領域指定部によっ
    て指定された認識対象領域の周辺の近傍について、連結
    する黒画素をすべて包含する矩形を抽出する矩形抽出部
    と、得られた矩形と予め定められた矩形の大きさを比較
    し、点線を構成すると判断したものは点線要素として抽
    出する点線要素抽出部と、抽出された点線要素同士の間
    隔が予め定められた閾値以内であればそれを統合した矩
    形を点線罫線として抽出する点線罫線抽出部と、点線罫
    線が抽出されたときに、抽出された点線罫線を構成する
    点線要素を白画素に変えることで点線を消去する点線罫
    線消去部と、点線罫線が消去された画像から文字画像を
    抽出する文字抽出部とを有していることを特徴とする文
    字画像抽出装置。
  8. 【請求項8】 画像を入力する画像入力部と、予め認識
    対象領域を指定する認識対象領域指定部と、画像入力部
    で入力された画像に対して、認識対象領域指定部によっ
    て指定された認識対象領域の周辺の近傍について、連結
    する黒画素をすべて包含する矩形を抽出する矩形抽出部
    と、得られた矩形と予め定められた矩形の大きさを比較
    し、点線を構成すると判断したものは点線要素として抽
    出する点線要素抽出部と、抽出された点線要素同士の間
    隔が予め定められた閾値以内であればそれを統合した矩
    形を点線罫線として抽出する点線罫線抽出部と、点線罫
    線が抽出されたときに、抽出された点線罫線を構成する
    点線要素を白画素に変えることで点線を消去する点線罫
    線消去部と、矩形抽出部で抽出された矩形が実線である
    と判断されたときに該矩形を実線罫線として抽出する実
    線罫線抽出部と、実線罫線が抽出されたときに、抽出さ
    れた実線罫線を消去する実線罫線消去部と、実線罫線お
    よび点線罫線が消去された画像から文字画像を抽出する
    文字抽出部とを有していることを特徴とする文字画像抽
    出装置。
  9. 【請求項9】 入力画像に対して、認識対象領域の周辺
    の近傍について、連結する黒画素をすべて包含する矩形
    を抽出し、得られた矩形と予め定められた矩形の大きさ
    を比較し、点線を構成すると判断したものは点線要素と
    して抽出し、抽出された点線要素同士の間隔が予め定め
    られた閾値以内であればそれを統合した矩形を点線罫線
    として抽出し、点線罫線が抽出されたときに、抽出され
    た点線罫線を構成する点線要素を白画素に変えることで
    点線を消去することを特徴とする罫線消去方法。
  10. 【請求項10】 入力画像に対して、認識対象領域指定
    部によって指定された認識対象領域の周辺の近傍につい
    て、連結する黒画素をすべて包含する矩形を抽出し、抽
    出された矩形が実線であると判断されたときに該矩形を
    実線罫線として抽出し、実線罫線が抽出されたときに、
    抽出された実線罫線を消去し、また、矩形が抽出された
    ときに、抽出された矩形と予め定められた矩形の大きさ
    を比較し、点線を構成すると判断したものは点線要素と
    して抽出し、抽出された点線要素同士の間隔が予め定め
    られた閾値以内であればそれを統合した矩形を点線罫線
    として抽出し、点線罫線が抽出されたときに、抽出され
    た点線罫線を構成する点線要素を白画素に変えることで
    点線を消去するようになっており、点線罫線を消去する
    前に、実線罫線を消去することを特徴とする罫線消去方
    法。
  11. 【請求項11】 入力画像に対して、認識対象領域の周
    辺の近傍について、連結する黒画素をすべて包含する矩
    形を抽出し、得られた矩形と予め定められた矩形の大き
    さを比較し、点線を構成すると判断したものは点線要素
    として抽出し、抽出された点線要素同士の間隔が予め定
    められた閾値以内であればそれを統合した矩形を点線罫
    線として抽出し、点線罫線が抽出されたときに、抽出さ
    れた点線罫線を構成する点線要素を白画素に変えること
    で点線を消去し、点線罫線が消去された画像から文字画
    像を抽出することを特徴とする文字画像消去方法。
  12. 【請求項12】 入力画像に対して、認識対象領域指定
    部によって指定された認識対象領域の周辺の近傍につい
    て、連結する黒画素をすべて包含する矩形を抽出し、抽
    出された矩形が実線であると判断されたときに該矩形を
    実線罫線として抽出し、実線罫線が抽出されたときに、
    抽出された実線罫線を消去し、また、矩形が抽出された
    ときに、抽出された矩形と予め定められた矩形の大きさ
    を比較し、点線を構成すると判断したものは点線要素と
    して抽出し、抽出された点線要素同士の間隔が予め定め
    られた閾値以内であればそれを統合した矩形を点線罫線
    として抽出し、点線罫線が抽出されたときに、抽出され
    た点線罫線を構成する点線要素を白画素に変えることで
    点線を消去するようになっており、実線罫線および点線
    罫線が消去された画像から文字画像を抽出することを特
    徴とする文字画像消去方法。
  13. 【請求項13】 請求項4,請求項9または請求項10
    記載の罫線消去方法をコンピュータに実行させるプログ
    ラムを記録した前記コンピュータが読取可能な記録媒
    体。
  14. 【請求項14】 請求項5,請求項6,請求項11また
    は請求項12記載の文字画像抽出方法をコンピュータに
    実行させるプログラムを記録した前記コンピュータが読
    取可能な記録媒体。
JP11063231A 1998-07-02 1999-03-10 罫線消去装置および文字画像抽出装置および罫線消去方法および文字画像抽出方法および記録媒体 Pending JP2000082110A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11063231A JP2000082110A (ja) 1998-07-02 1999-03-10 罫線消去装置および文字画像抽出装置および罫線消去方法および文字画像抽出方法および記録媒体

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP20279698 1998-07-02
JP10-202796 1998-07-02
JP11063231A JP2000082110A (ja) 1998-07-02 1999-03-10 罫線消去装置および文字画像抽出装置および罫線消去方法および文字画像抽出方法および記録媒体

Publications (1)

Publication Number Publication Date
JP2000082110A true JP2000082110A (ja) 2000-03-21

Family

ID=26404315

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11063231A Pending JP2000082110A (ja) 1998-07-02 1999-03-10 罫線消去装置および文字画像抽出装置および罫線消去方法および文字画像抽出方法および記録媒体

Country Status (1)

Country Link
JP (1) JP2000082110A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102007035884A1 (de) 2006-08-03 2008-07-17 Nec Corp. Linienrauschunterdrückungsvorrichtung, -verfahren und -programm
JP2010182052A (ja) * 2009-02-05 2010-08-19 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム
JP2016126636A (ja) * 2015-01-07 2016-07-11 コニカミノルタ株式会社 帳票識別装置及びプログラム
WO2020157937A1 (ja) * 2019-01-31 2020-08-06 株式会社Pfu 画像処理装置、制御方法及び制御プログラム
US10997452B2 (en) 2019-01-24 2021-05-04 Fuji Xerox Co., Ltd. Information processing apparatus and non-transitory computer readable medium storing program
US11100356B2 (en) 2019-01-24 2021-08-24 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium storing program

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102007035884A1 (de) 2006-08-03 2008-07-17 Nec Corp. Linienrauschunterdrückungsvorrichtung, -verfahren und -programm
US7916957B2 (en) 2006-08-03 2011-03-29 Nec Corporation Line noise eliminating apparatus, line noise eliminating method, and line noise eliminating program
DE102007035884B4 (de) * 2006-08-03 2017-08-24 Nec Corp. Linienrauschunterdrückungsvorrichtung, -verfahren und -programm
JP2010182052A (ja) * 2009-02-05 2010-08-19 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム
US8542931B2 (en) 2009-02-05 2013-09-24 Fuji Xerox Co., Ltd. Ruled line extraction technique based on comparision results and indentifying noise based on line thickness
JP2016126636A (ja) * 2015-01-07 2016-07-11 コニカミノルタ株式会社 帳票識別装置及びプログラム
US10997452B2 (en) 2019-01-24 2021-05-04 Fuji Xerox Co., Ltd. Information processing apparatus and non-transitory computer readable medium storing program
US11100356B2 (en) 2019-01-24 2021-08-24 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium storing program
WO2020157937A1 (ja) * 2019-01-31 2020-08-06 株式会社Pfu 画像処理装置、制御方法及び制御プログラム

Similar Documents

Publication Publication Date Title
US10606933B2 (en) Method and system for document image layout deconstruction and redisplay
US20110280481A1 (en) User correction of errors arising in a textual document undergoing optical character recognition (ocr) process
JP5121599B2 (ja) 画像処理装置、画像処理方法およびそのプログラムならびに記憶媒体
JP2001175807A (ja) テキスト領域選択方法
US6614929B1 (en) Apparatus and method of detecting character writing area in document, and document format generating apparatus
JPH05233873A (ja) 領域分割方法
CN107133615B (zh) 信息处理设备和信息处理方法
US8559718B1 (en) Defining a layout of text lines of CJK and non-CJK characters
US8989485B2 (en) Detecting a junction in a text line of CJK characters
JP2002015280A (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
JP2000082110A (ja) 罫線消去装置および文字画像抽出装置および罫線消去方法および文字画像抽出方法および記録媒体
Bhaskar et al. Implementing optical character recognition on the android operating system for business cards
JPH10171920A (ja) 文字認識装置、その文字認識方法およびその記録媒体
JP4117648B2 (ja) 帳票、帳票処理方法、帳票処理プログラム、帳票処理プログラムを記録した記録媒体及び帳票処理装置
JP2001236464A (ja) 文字抽出方法、文字抽出装置及び記憶媒体
JP4040231B2 (ja) 文字抽出方法及び装置並びに記憶媒体
JPH03263282A (ja) 文字読取装置の文字切出し方法
JP3391987B2 (ja) 帳票認識装置
JP3269889B2 (ja) 光学式文字読取システム
JPH117493A (ja) 文字認識処理装置
JPH01292586A (ja) 文字認識支援装置
JPH11242716A (ja) 画像処理方法および記録媒体
JPH11203402A (ja) 画像処理装置及び画像処理方法
JPH11282958A (ja) 文字認識方法及び装置並びに記録媒体
JPH1166225A (ja) 表情報抽出装置及び方法並びに記録媒体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060623

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060704

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060904

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061010

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070821