JP3923104B2 - 表処理方法および表処理装置 - Google Patents
表処理方法および表処理装置 Download PDFInfo
- Publication number
- JP3923104B2 JP3923104B2 JP02430896A JP2430896A JP3923104B2 JP 3923104 B2 JP3923104 B2 JP 3923104B2 JP 02430896 A JP02430896 A JP 02430896A JP 2430896 A JP2430896 A JP 2430896A JP 3923104 B2 JP3923104 B2 JP 3923104B2
- Authority
- JP
- Japan
- Prior art keywords
- frame
- item
- character recognition
- ruled line
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Character Discrimination (AREA)
- Character Input (AREA)
Description
【発明の属する技術分野】
この発明は、表中の文字画像を認識するための表処理装置および表処理方法に関する。
【0002】
【従来の技術】
従来の表処理方法の一例が、文献:「特開平4−33079号公報」に記載されている。この文献に記載の技術によれば、先ず、イメージ入力された文書画像から、処理対象の表を構成する罫線に囲まれた枠を抽出する。そして、抽出された枠の座標値から当該枠の行および列の位置を求める。そして、すべての枠内の文字行について文字認識処理を行って、枠内の文字行の認識結果をその枠の行および列の位置の情報と共に出力している。
【0003】
【発明が解決しようとする課題】
しかしながら、従来の表処理方法では、表領域の全ての枠中の文字認識を行っている。このため、表領域中の特定の項目のデータだけが必要な場合も、表領域中の全ての枠中の文字の文字認識を行う必要があるという課題があった。その結果、必要とするデータの多少にかかわらず、全ての枠中の文字認識を行う場合と同じ時間が、表処理に係ってしまうという問題点があった。
【0004】
このため、表処理に要する時間の短縮が図れる表処理方法および装置の実現が望まれていた。
【0011】
【課題を解決するための手段】
(第1の発明)
この出願に係る第1の発明の表処理方法によれば、項目枠抽出手段と文字認識処理手段とを具える表処理装置により、データ枠とこのデータ枠内に記載されたデータの属する項目が記載された項目枠とを以って構成された表の画像イメージに基づいて、項目枠およびデータ枠の中に記載された文字の文字認識処理を行う表処理方法において、
データ枠の中に記載された文字の文字認識処理を行うに先立ち、
項目枠抽出手段は、表を構成する全ての枠のうち、枠の面積の小さい順で上位半数の枠を項目枠として抽出し、
文字認識処理手段は、項目枠抽出手段によって抽出された各項目枠の中に記載された文字についてのみ文字認識処理を行って、文字認識処理結果を指定可能な状態にし、その後、指定された項目枠が存在する場合に、指定された項目枠に対応するデータ枠の中に記載された文字についてのみ文字認識処理を行う。
ことを特徴とする。
【0012】
(第2の発明)
また、この出願に係る第2の発明の表処理装置によれば、データ枠とこのデータ枠内に記載されたデータの属する項目が記載された項目枠とを以って構成された表の画像イメージに基づいて、項目枠およびデータ枠の中に記載された文字の文字認識処理を行うための表処理装置であって、
表の画像イメージから各横罫線および各縦罫線を抽出するための罫線抽出手段と、
罫線抽出手段によって抽出された各横罫線の始点および終点の座標値と各縦罫線の始点および終点の座標値に基づいて、横罫線と縦罫線とに囲まれた各枠を抽出するための枠抽出手段と、
表処理装置を構成する各手段の制御を行うための制御手段とを具えてなる表処理装置において、
表を構成する全ての枠のうち、枠の面積の小さい順で上位半数の枠を項目枠として抽出するための項目枠抽出手段と、
項目枠抽出手段によって抽出された各項目枠の中に記載された文字についてのみ文字認識処理を行って、文字認識処理結果を指定可能な状態にし、その後、指定された項目枠が存在する場合に、指定された項目枠に対応するデータ枠の中に記載された文字についてのみ文字認識処理を行うための文字認識処理手段とを具えてなる
ことを特徴とする。
【0013】
尚、ここで「文字」には、記号一般も含む。
【0014】
但し、ここで、罫線に隣接する枠とは、枠の一辺が当該罫線からなるものを指す。
【0015】
【発明の実施の形態】
以下、図面を参照して、この出願に係る各発明の実施の形態について説明する。尚、参照する図面は、これらの発明が理解できる程度に各構成成分の大きさ、形状および配置間を概略的に示してあるに過ぎない。従って、これらの発明は図示例にのみ限定されるものではない。
【0016】
(第1の実施の形態)
第1の実施の形態では、第1の発明の表処理方法および第2の発明の表処理装置の実施の形態について併せて説明する。
【0017】
(処理装置)
先ず、図1に、第1の実施の形態の表処理装置のブロック図を示す。この実施の形態の表処理装置は、データ枠とこのデータ枠内に記載されたデータの属する項目が記載された項目枠とを以って構成された表において、枠の中に記載された文字の文字認識処理を行うための表処理装置である。
【0018】
そして、この表面処理装置は、図1に示すように、制御手段10、画像入力手段12、画像イメージ格納手段14、罫線抽出手段16、表情報格納手段18、枠抽出手段20、項目枠抽出手段22および文字認識処理手段23を具えている。
【0019】
そして、この画像入力手段12によって文書や帳票といった情報媒体からその画像イメージが表処理装置に入力される。また、入力された画像イメージは、画像イメージ格納手段14に格納される。また、罫線抽出手段16では、画像イメージ格納手段14から読出された画像イメージから罫線を抽出する。罫線抽出手段16は、水平方向の罫線(以下、横罫線とも称する)を抽出するための横罫線抽出手段16aと、垂直方向の罫線(以下、縦罫線とも称する)を抽出する縦罫線抽出手段16bとを以って構成されている。抽出された罫線の座標は、表情報格納手段18に格納される。
【0020】
次に、枠抽出手段20では、表情報格納手段18から読出された罫線の座標から枠を抽出する。枠の抽出にあたっては、水平方向(主走査方向)および垂直方向(副走査方向)に延在した罫線によって囲まれた枠の抽出を行う。抽出された枠の座標は、表情報格納手段18に格納される。
【0021】
次に、項目枠抽出手段22では、枠の中に記載された文字行の方向に垂直な方向でその枠の長さが基準値よりも長い罫線に隣接した枠のうちから項目枠を優先的に抽出する。また、項目枠抽出手段は、この実施の形態では、罫線の長さに加えて、枠の面積が基準値の範囲内の面積であり、かつ、文字行の方向に沿った方向での枠の長さが基準値の範囲内の長さである枠を項目枠として抽出するためのものである。
次に、文字認識処理手段23では、枠の中に記載された文字について文字認識処理を行う。
【0022】
また、これらの各手段は、バスライン24を介して制御手段10に接続している。制御手段10は、表処理装置の各手段の制御、例えば、画像データまたは座標データの入出力の制御を行うためのものである。
【0023】
(処理方法)
次に、図2を参照して、この実施の形態の表処理方法、特に、項目枠抽出手段の働きについて説明する。図2は、第1の実施の形態の表処理方法のフローチャートである。
【0024】
また、この実施の形態においては、図3に示すように、文字行の方向が水平方向(主走査方向)である横書きの表を処理対象とする。
【0025】
(1)先ず、画像入力手段12によって、図3に示す表の画像イメージの入力を行う。
【0026】
画像イメージの入力にあたっては、処理対象の表を含む情報媒体を主走査方向(水平方向)および副走査方向(垂直方向)に光学的に走査して、この情報媒体からの光信号を光電変換する。ここでは、主走査方向にX軸、副走査方向にY軸をそれぞれ仮想的に設定して、このX−Y座標系で画素データの位置を表す。
【0027】
この光電変換により得られた画像イメージは、画像イメージ格納手段14としてのイメージメモリに格納される。格納された画像イメージは、X−Y座標系で画素の位置を指定することにより、その座標の画素データをイメージメモリ上から読出すことができる。
【0028】
(2)次に、罫線抽出手段16によって画像イメージから各横罫線および各縦罫線を抽出する。
【0029】
先ず、水平方向の罫線である横罫線の抽出にあたっては、画像イメージ格納手段14に格納された一部分または全画像イメージ上の領域に対して、横罫線抽出手段16aによって、主走査方向(水平方向)に一定の長さ以上連続した黒画素を検出する。そして、検出された黒画素の連長を横罫線として、その始点および終点の座標値を表情報格納手段18に格納する。尚、画像イメージ一部分の領域のみで検出を行う場合は、その領域を、例えばオペレータがマウスを用いて指定すると良い。また、黒画素の連長を横罫線と判断するための水平方向の一定の長さには、任意適当な値を設定することができる。
【0030】
また、垂直方向の罫線である縦罫線の抽出にあっては、横罫線の場合と同様に、画像イメージ上の領域に対して、縦罫線抽出手段16bによって、副走査方向(垂直方向)に一定の長さ以上連続した黒画素を検出する。そして、検出された黒画素の連長を縦罫線として、その始点および終点の座標値を表情報格納手段18に格納する。黒画素の連長を縦罫線として判断するための横方向の一定の長さについても、縦方向の一定の長さと個別に、任意適当な値を設定することができる。
【0031】
(3)次に、枠抽出手段20によって、各枠を抽出する。
【0032】
枠の抽出にあたっては、先ず、各横罫線の始点および終点の座標値と各縦罫線の始点および終点の座標値を表情報格納手段18から読出す。読出した座標値に基づいて横罫線と縦罫線とを組合せて、その交点の座標を抽出することによって、4つの交点(枠の4頂点)の座標を一組として規定される、縦罫線と横罫線とに囲まれた各枠を抽出する。抽出された枠の4頂点の座標は、表情報格納手段18に格納する。
【0033】
(4)次に、項目枠抽出手段22によって、各項目枠26を抽出する。
【0034】
項目枠26の抽出にあたっては、先ず、(a)垂直方向に延在している縦罫線の長さがの基準値よりも長い罫線に隣接した枠を抽出する。これは、横書きの表の場合、一般に、項目枠26が、所定の長さ以上の垂直方向の罫線の右側に位置することが多いという規則性を利用するものである。そして、この条件に合う枠に対して次の(b)の処理を行う。図3に示す表の場合は、全ての縦罫線が基準値以上の長さの罫線に該当する。
【0035】
次に、(b)文字行の方向に沿った方向(この場合、水平方向)での枠の長さ(幅)が基準値の範囲内の長さである枠を抽出する。これは、一般に、項目枠26の行方向の長さが、データ枠28の行方向の長さよりも短いという規則性を利用するものである。この実施の形態においては、基準値として、経験的に枠の垂直方向の長さの2/3の幅を採用した。そして、この条件に合う枠に対してさらに次の(c)の処理を行う。
【0036】
次に、(c)枠の面積が基準値の範囲内の面積である枠を抽出する。これは、一般に、項目枠26の面積が、データ枠28の面積よりも小さいという規則性を利用するものである。
【0037】
このようにして、(a)、(b)および(c)の条件に合う枠を、項目枠26として抽出する。そして、表を構成する全ての枠について同様に検討して、条件に合う枠のそれぞれを項目枠として抽出する。
【0038】
次に、抽出された各項目枠26の中に記載された文字についてのみ、従来周知の技術を用いて文字認識を行う。そして、その文字認識処理結果を、例えばオペレータによる指定が可能な状態にし、このオペレータが所望の項目のデータのみを知りたい場合は、所望の項目の項目枠が指定される。これにより、指定された項目枠が存在する場合に、指定された項目枠に対応するデータ枠の中に記載された文字についてのみ文字認識処理を行う。その結果、表処理に要する時間の短縮を図ることができる。
【0039】
例えば、図3の表において、「価格」の項目のデータのみを知りたい場合は、「価格」の項目に対応するデータ枠、この場合、右隣の枠の文字認識処理のみを行えば良い。そして、「¥1,200」のみを文字認識することができる。
【0040】
尚、図3においては、データ枠が、当該データが対応する項目枠の右側にそれぞれ隣接している。このため、指定した項目枠の右隣のデータ枠の文字認識処理をするように設定しておけば良い。
【0041】
(第2の実施の形態)
第2の実施の形態では、第3の発明の表処理方法および第4の発明の表処理装置について併せて説明する。第2の実施の形態の表処理装置の構成は、項目枠抽出手段の働きを除いては、図1に示すブロック図のものと同一である。
【0042】
次に、図4を参照して、この実施の形態の表処理方法、特に項目枠抽出手段の働きについて説明する。図4は、第2の実施の形態の表処理方法のフローチャートである。第2の実施の形態においても、枠を抽出する段階(3)までの処理は、第1の実施の形態での処理方法と同一であるので、その詳細な説明を省略する。
【0043】
(4)次に、項目枠抽出手段において、項目枠を抽出する。項目枠の抽出にあたっては、表を構成する全ての枠のうち、当該枠の面積の小さい順で上位半数の枠を項目枠として抽出する。抽出にあたっては、先ず、(a)表を構成する全ての枠を、枠の面積の小さい順に並べる。次に、(b)面積の小さい順で、全枠数の半数までの枠を項目枠として抽出する。これは、一般に、データ枠に比べて項目枠の面積が小さいという規則性を利用するものである。第2の実施の形態の方法は、図3に示す表のように、項目枠26とデータ枠28とが1対1に対応している場合に特に好適な方法である。
【0044】
そして、抽出された項目枠の中に記載された文字に対して、従来周知の技術を用いて文字認識処理を行い、次に、文字認識処理結果が所望の項目である項目枠に対応するデータ枠の中に記載された文字に対してのみ文字認識処理を行う。その結果、表処理に要する時間の短縮を図ることができる。
【0045】
(変形例)
また、上述した各実施の形態においては、1つの項目枠に対して1つのデータ枠が対応している例について説明したが、これらの発明は、図5に示す表のように、1つの項目枠30に対して、複数のデータ枠32が対応している表を処理することもできる。1つの項目枠30に対して、複数のデータ枠32が対応する場合についても、項目枠30に対応するデータ枠32の位置関係を設定しておくことにより、指定された特定の項目枠30対応するデータ枠32について、自動的に文字認識処理を行うことが可能である。
【0046】
上述した各実施の形態では、これらの発明を特定の条件で構成した例についてのみ説明したが、これらの発明は多くの変更および変形を行うことができる。例えば、上述した形態では、横書きの表を処理する例について説明したが、これらの発明では、縦書きの表を処理することもできる。縦書きの表の場合、文字行が垂直方向となるため、水平方向に延在した罫線のうちで、基準値よりも長い罫線を選択し、選択された罫線の下側に隣接する枠を項目枠として優先的に抽出すると良い。また、縦書きの表の場合は、枠の垂直方向の長さが基準値よりも短い枠を項目枠として優先的に抽出すると良い。
【0047】
また、上述した第1の実施の形態では、項目枠の抽出にあたり、(a)罫線の長さ、(b)枠の長さおよび(c)枠の面積について順次に抽出したが、これらの発明においては、(a)、(b)および(c)の抽出順序は限定されない。
【0048】
また、上述した第1の実施の形態では、項目枠の抽出にあたり、罫線の長さ、枠の長さおよび枠の面積を利用したが、この発明では、項目枠の抽出にあたり、例えば、罫線の長さおよび枠の長さ、または、罫線の長さおよび枠の面積のみを利用することもできる。
【0049】
【発明の効果】
この出願に係る第1の発明の表処理方法および第2の発明の表処理装置によれば、表中の枠のうち、項目枠のみを優先的に抽出する。その結果、抽出された項目枠のみを優先的に文字認識処理することができる。そして、所望の項目枠に対応するデータ枠のみを選択的に文字認識処理することができる。このため、全ての文字認識処理を行う必要がない。その結果、表処理にあたって、表内の全ての枠の文字認識をする場合よりも、文字認識処理に要する時間を短縮することができる。
【図面の簡単な説明】
【図1】第1の実施の形態の表処理装置のブロック図である。
【図2】第1の実施の形態の表処理方法のフローチャートである。
【図3】処理対象の表の説明に供する図である。
【図4】第2の実施の形態の表処理方法のフローチャートである。
【図5】変形例の処理対象の表の説明に供する図である。
【符号の説明】
10:制御手段
12:画像入力手段
14:画像イメージ格納手段
16:罫線抽出手段
16a:横罫線抽出手段
16b:縦罫線抽出手段
18:表情報格納手段
20:枠抽出手段
22:項目枠抽出手段
24:バスライン
26:項目枠
28:データ枠
30:項目枠
32:データ枠
Claims (2)
- 項目枠抽出手段と文字認識処理手段とを具える表処理装置により、データ枠と該データ枠内に記載されたデータの属する項目が記載された項目枠とを以って構成された表の画像イメージに基づいて、前記項目枠および前記データ枠の中に記載された文字の文字認識処理を行う表処理方法において、
前記データ枠の中に記載された文字の文字認識処理を行うに先立ち、
前記項目枠抽出手段は、前記表を構成する全ての枠のうち、当該枠の面積の小さい順で上位半数の枠を項目枠として抽出し、
前記文字認識処理手段は、前記項目枠抽出手段によって抽出された前記各項目枠の中に記載された文字についてのみ文字認識処理を行って、文字認識処理結果を指定可能な状態にし、その後、指定された項目枠が存在する場合に、指定された該項目枠に対応するデータ枠の中に記載された文字についてのみ文字認識処理を行う
ことを特徴とする表処理方法。 - データ枠と該データ枠内に記載されたデータの属する項目が記載された項目枠とを以って構成された表の画像イメージに基づいて、前記項目枠および前記データ枠の中に記載された文字の文字認識処理を行うための表処理装置であって、前記表の画像イメージから各横罫線および各縦罫線を抽出するための罫線抽出手段と、前記罫線抽出手段によって抽出された前記各横罫線の始点および終点の座標値と前記各縦罫線の始点および終点の座標値に基づいて、前記横罫線と前記縦罫線とに囲まれた各枠を抽出するための枠抽出手段と、前記表処理装置を構成する各手段の制御を行うための制御手段とを具えてなる表処理装置において、
前記表を構成する全ての枠のうち、当該枠の面積の小さい順で上位半数の枠を項目枠として抽出するための項目枠抽出手段と、
前記項目枠抽出手段によって抽出された前記各項目枠の中に記載された文字についてのみ文字認識処理を行って、文字認識処理結果を指定可能な状態にし、その後、指定された項目枠が存在する場合に、指定された該項目枠に対応するデータ枠の中に記載された文字についてのみ文字認識処理を行うための文字認識処理手段とを具えてなる
ことを特徴とする表処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP02430896A JP3923104B2 (ja) | 1996-02-09 | 1996-02-09 | 表処理方法および表処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP02430896A JP3923104B2 (ja) | 1996-02-09 | 1996-02-09 | 表処理方法および表処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH09218919A JPH09218919A (ja) | 1997-08-19 |
JP3923104B2 true JP3923104B2 (ja) | 2007-05-30 |
Family
ID=12134556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP02430896A Expired - Fee Related JP3923104B2 (ja) | 1996-02-09 | 1996-02-09 | 表処理方法および表処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3923104B2 (ja) |
-
1996
- 1996-02-09 JP JP02430896A patent/JP3923104B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH09218919A (ja) | 1997-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5075895A (en) | Method and apparatus for recognizing table area formed in binary image of document | |
US8229214B2 (en) | Image processing apparatus and image processing method | |
JPH0418351B2 (ja) | ||
JP3923104B2 (ja) | 表処理方法および表処理装置 | |
US8000555B2 (en) | Defective image detection method and storage medium storing program | |
JPH096901A (ja) | 文書読取装置 | |
JPH08272956A (ja) | ノイズ除去方法およびノイズ除去装置 | |
JPH08237404A (ja) | 光学文字認識モードの選択方法 | |
JP2887803B2 (ja) | 文書画像処理装置 | |
JPH0766413B2 (ja) | 文書文字方向検出装置 | |
JP2001256491A (ja) | 画像切り抜き装置及び方法並びに画像切り抜きプログラムを記録した記録媒体 | |
JPH07120386B2 (ja) | 文字認識装置 | |
JPH09223189A (ja) | 表処理方法および表処理装置 | |
JP2954218B2 (ja) | 画像処理方法及び装置 | |
JP4439054B2 (ja) | 文字認識装置及び文字枠線の検出方法 | |
JP3093330B2 (ja) | 文字認識の前処理方法、文字認識方法及び文字認識装置 | |
JP2001307097A (ja) | パターン検出装置及び方法 | |
JPS6343788B2 (ja) | ||
JP3093465B2 (ja) | 画像認識装置 | |
JP2007034972A (ja) | 罫線検出装置、罫線検出方法およびプログラム | |
JPH0676108A (ja) | 文書画像の傾き検出方法 | |
JPH05266250A (ja) | 文字列検出装置 | |
JPH0522598A (ja) | 画像入力装置 | |
JPH05290162A (ja) | 画像入力装置の線図形分岐点接続方法 | |
JPH0289193A (ja) | パターン変換方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060323 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060411 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060609 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060808 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061005 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20061121 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061214 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20070123 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070220 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070221 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100302 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110302 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110302 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120302 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |