JP2006099681A - 帳票処理装置 - Google Patents
帳票処理装置 Download PDFInfo
- Publication number
- JP2006099681A JP2006099681A JP2004288006A JP2004288006A JP2006099681A JP 2006099681 A JP2006099681 A JP 2006099681A JP 2004288006 A JP2004288006 A JP 2004288006A JP 2004288006 A JP2004288006 A JP 2004288006A JP 2006099681 A JP2006099681 A JP 2006099681A
- Authority
- JP
- Japan
- Prior art keywords
- table structure
- ruled line
- structure data
- ruled
- cell
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Character Input (AREA)
Abstract
【課題】辞書に表構造データを登録する際、各セル領域に分割する罫線の位置情報を登録し、その情報より表構造を推測し処理対象セルを特定する帳票処理装置を提供する。
【解決手段】 罫線により構成される表構造を持つ帳票の基準表構造データを保持する表構造データ辞書と、前記帳票と同種別の帳票イメージが入力されると、対応する前記表構造データを用いて処理対象のセル領域を特定する処理対象領域決定部を有する帳票処理装置において、前記表構造データには罫線の位置情報を含み、処理対象領域決定部は、前記帳票イメージの表構造に含まれる罫線情報と前記基準表構造データに含まれる罫線情報が一致しない場合に、前記罫線の位置情報を用いて罫線の補間または特定を行う。
【選択図】 図1
Description
(例えば、非特許文献1参照)。
「沖電気研究開発」、沖電気工業株式会社、Vol.65 NO.1 JAN.1998、p.51、「OCR制限緩和技術」(石川、清水、田辺)
そこで、辞書に表構造データを登録する際、各セル領域に分割する罫線の位置情報を登録し、その情報より表構造を推測し処理対象セルを特定する帳票処理装置が望まれていた。
<構成1>
罫線により構成される表構造を持つ帳票の基準表構造データを保持する表構造データ辞書と、前記帳票と同種別の帳票イメージが入力されると、対応する前記表構造データを用いて処理対象のセル領域を特定する処理対象領域決定部を有する帳票処理装置において、前記表構造データには罫線の位置情報を含み、処理対象領域決定部は、前記帳票イメージの表構造に含まれる罫線情報と前記基準表構造データに含まれる罫線情報が一致しない場合に、前記罫線の位置情報を用いて前記帳票イメージの表構造に含まれる罫線情報を修正する。
<構成2>
前記表構造データは親セル領域ごとに複数の子セル領域の情報を含む階層構造からなり、前記処理対象領域決定部は、各親セル領域ごとに、前記帳票イメージの表構造に含まれる罫線の数が前記基準表構造データに含まれる罫線の数より多い場合には、基準表構造データに含まれる罫線の位置情報によって罫線を特定する。
<構成3>
前記処理対象領域決定部は、前記親セルごとに、前記帳票イメージの表構造と前記基準表構造データとを比較して子セルの罫線の多少を判定する対応関係判定手段と、罫線が多い場合には、前記位置情報により正しい罫線を特定する多検出時判定手段とを備えており、前記多検出時判定手段は、前記帳票イメージの各子セルを形成する罫線ごとの位置情報を求め、前記基準表構造データとの差異が一定の基準値以下であるものを罫線として特定する。
<構成4>
前記表構造データは親セル領域ごとに複数の子セル領域の情報を含む階層構造からなり、前記処理対象領域決定部は、各親セル領域ごとに、前記帳票イメージの表構造に含まれる罫線の数が前記基準表構造データに含まれる罫線の数より少ない場合には、基準表構造データに含まれる罫線の位置情報によって罫線を補完する。
<構成5>
前記処理対象領域決定部は、前記親セルごとに、前記帳票イメージの表構造と前記基準表構造データとを比較して子セルの罫線の多少を判定する対応関係判定手段と、罫線が少ない場合には、前記位置情報により仮罫線を補完する仮罫線補完手段とを備えており、前記仮罫線補完手段は、前記帳票イメージの各子セルを形成する罫線ごとの位置情報を求め、前記基準表構造データ中に対応する罫線があるかどうかを確認し、前記基準表構造データ中の対応しなかった罫線によって帳票イメージの表構造を補完する。
図1は、本発明の第1の実施例を示す構成図である。
各階層ごとに、親セル領域における子セル領域の解析方向、セル領域名、親セル領域名、孫セル領域の有無、サイズ情報、処理対象セル情報の各情報を含んでいる。
図6は処理対象セル領域を特定すべき、入力帳票である。基準帳票と比べ、罫線320aが余計な罫線として検出される。ただし、罫線320aはここでは実際には罫線ではなく、手書きの文字等が罫線と誤検出されてしまうような場合を想定している。例えば、数字の「1」を縦に長く書いてしまい、上下の罫線に接触してしまった場合等が相当する。
|(La/Lo)−(IT11/(IT11+IT12))| ・・・・差分1
|(Lb/Lo)−(IT11/(IT11+IT12))| ・・・・差分2
差分1と差分2を比較し、値の大きさが予め定めた一定の閾値以下のものを正しい罫線とする。ここでは、差分1が一定以下となり、罫線320aが正しい罫線であり、T11に相当するセル領域であることが分かる。
|(Lb/Lo)−(IT12/(IT11+IT12))| ・・・・差分3
|(Lc/Lo)−(IT12/(IT11+IT12))| ・・・・差分4
罫線320bは正しい罫線ではないから、差分3、4とも一定以上となり一致しない。
このため、次にLb、Lcの組み合わせを試す。ここでは以下の1通りのみとなる。
|(Lb+Lc/Lo)−(IT12/(IT11+IT12))| ・・・・差分5
差分5は罫線320bを除いたセル領域を比較したものであるから、一定以下となり、T12に相当することが分かる。このため、罫線320bが無視すべき罫線であると判定できるので、多検出時判定手段25は罫線データメモリ61の罫線データから320bを削除する。
次に、本実施例の動作について説明する。図7は、本実施例のフローチャートである。
図8は、本発明の第2の実施例を示す構成図である。
|(Ld/Lo)−(IT1/(IT1+IT2+IT3))|≦d(d:任意の値)
|(Ld/Lo)−(IT2/(IT1+IT2+IT3))|>d(d:任意の値)
上記の式が当てはまる為、表構造データ辞書21の220bと入力帳票820b対応している。第1階層において、他に検出できた罫線はないので、基準帳票のうち罫線220dが対応する罫線がなかったことになる。
次に、本実施例の動作について説明する。図10は、本実施例のフローチャートである。
20 認識対象領域決定部
21 表構造データ辞書
23 表別処理制御手段
22 罫線検出手段
24 対応関係判定手段
25 多検出時判定手段
26 セル決定手段
28 仮罫線補完手段
61 罫線データメモリ
63 認識領域データメモリ
71 スキャナ
73 帳票イメージメモリ
Claims (5)
- 罫線により構成される表構造を持つ帳票の基準表構造データを保持する表構造データ辞書と、前記帳票と同種別の帳票イメージが入力されると、対応する前記表構造データを用いて処理対象のセル領域を特定する処理対象領域決定部を有する帳票処理装置において、
前記表構造データには罫線の位置情報を含み、
処理対象領域決定部は、前記帳票イメージの表構造に含まれる罫線情報と前記基準表構造データに含まれる罫線情報が一致しない場合に、前記罫線の位置情報を用いて前記帳票イメージの表構造に含まれる罫線情報を修正する、帳票処理装置。 - 前記表構造データは親セル領域ごとに複数の子セル領域の情報を含む階層構造からなり、
前記処理対象領域決定部は、各親セル領域ごとに、前記帳票イメージの表構造に含まれる罫線の数が前記基準表構造データに含まれる罫線の数より多い場合には、基準表構造データに含まれる罫線の位置情報によって罫線を特定する、
請求項1に記載の帳票処理装置。 - 前記処理対象領域決定部は、
前記親セルごとに、前記帳票イメージの表構造と前記基準表構造データとを比較して子セルの罫線の多少を判定する対応関係判定手段と、
罫線が多い場合には、前記位置情報により正しい罫線を特定する多検出時判定手段とを備えており、
前記多検出時判定手段は、前記帳票イメージの各子セルを形成する罫線ごとの位置情報を求め、前記基準表構造データとの差異が一定の基準値以下であるものを罫線として特定する、
請求項2に記載の帳票処理装置。 - 前記表構造データは親セル領域ごとに複数の子セル領域の情報を含む階層構造からなり、
前記処理対象領域決定部は、各親セル領域ごとに、前記帳票イメージの表構造に含まれる罫線の数が前記基準表構造データに含まれる罫線の数より少ない場合には、基準表構造データに含まれる罫線の位置情報によって罫線を補完する、
請求項1に記載の帳票処理装置。 - 前記処理対象領域決定部は、
前記親セルごとに、前記帳票イメージの表構造と前記基準表構造データとを比較して子セルの罫線の多少を判定する対応関係判定手段と、
罫線が少ない場合には、前記位置情報により仮罫線を補完する仮罫線補完手段とを備えており、
前記仮罫線補完手段は、前記帳票イメージの各子セルを形成する罫線ごとの位置情報を求め、前記基準表構造データ中に対応する罫線があるかどうかを確認し、前記基準表構造データ中の対応しなかった罫線によって帳票イメージの表構造を補完する、
請求項1に記載の帳票処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004288006A JP2006099681A (ja) | 2004-09-30 | 2004-09-30 | 帳票処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004288006A JP2006099681A (ja) | 2004-09-30 | 2004-09-30 | 帳票処理装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006099681A true JP2006099681A (ja) | 2006-04-13 |
Family
ID=36239387
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004288006A Pending JP2006099681A (ja) | 2004-09-30 | 2004-09-30 | 帳票処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006099681A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008262368A (ja) * | 2007-04-11 | 2008-10-30 | Fuji Xerox Co Ltd | 画像処理装置及びプログラム |
JP2013015909A (ja) * | 2011-06-30 | 2013-01-24 | Fujitsu Ltd | 表構造自動認識プログラム、表構造自動認識方法及び表構造自動認識装置 |
-
2004
- 2004-09-30 JP JP2004288006A patent/JP2006099681A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008262368A (ja) * | 2007-04-11 | 2008-10-30 | Fuji Xerox Co Ltd | 画像処理装置及びプログラム |
JP2013015909A (ja) * | 2011-06-30 | 2013-01-24 | Fujitsu Ltd | 表構造自動認識プログラム、表構造自動認識方法及び表構造自動認識装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8908969B2 (en) | Creating flexible structure descriptions | |
JP2018055255A (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2002042143A (ja) | 枠認識装置及び記録媒体 | |
US7680329B2 (en) | Character recognition apparatus and character recognition method | |
JP6116531B2 (ja) | 画像処理装置 | |
US9189461B2 (en) | Page frame and page coordinate determination method and system based on sequential regularities | |
US20140126812A1 (en) | Detecting a junction in a text line of cjk characters | |
JP4720529B2 (ja) | 画像処理装置、画像形成装置、画像処理方法及びプログラム | |
JP2008108114A (ja) | 文書処理装置および文書処理方法 | |
JP2006099681A (ja) | 帳票処理装置 | |
CN112287763A (zh) | 图像处理方法、装置、设备及介质 | |
JP4518212B2 (ja) | 画像処理装置及びプログラム | |
JP2009223612A (ja) | 画像認識装置及びプログラム | |
JP2006127451A (ja) | 帳票処理装置 | |
JP4517822B2 (ja) | 画像処理装置及びプログラム | |
JPH06215184A (ja) | 抽出領域のラベリング装置 | |
JPH0728935A (ja) | 文書画像処理装置 | |
JP4580520B2 (ja) | 文字認識方法および文字認識装置 | |
JP2009223391A (ja) | 画像処理装置及び画像処理プログラム | |
JP2002014981A (ja) | 文書ファイリング装置 | |
CN118865406A (zh) | 一种基于深度学习的文本识别模型的训练方法 | |
JP2022186250A (ja) | 画像処理装置、画像処理方法、及びプログラム | |
JP2005275820A (ja) | 帳票認識装置、方法、プログラムおよび記憶媒体 | |
JPH11242716A (ja) | 画像処理方法および記録媒体 | |
JP2683116B2 (ja) | 罫線の除去方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20060923 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20060929 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20061013 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061215 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090820 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090901 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100105 |