JP2006127451A - 帳票処理装置 - Google Patents

帳票処理装置 Download PDF

Info

Publication number
JP2006127451A
JP2006127451A JP2005086086A JP2005086086A JP2006127451A JP 2006127451 A JP2006127451 A JP 2006127451A JP 2005086086 A JP2005086086 A JP 2005086086A JP 2005086086 A JP2005086086 A JP 2005086086A JP 2006127451 A JP2006127451 A JP 2006127451A
Authority
JP
Japan
Prior art keywords
sub
pattern
table structure
data
cell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005086086A
Other languages
English (en)
Inventor
Junichi Makino
順一 牧野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2005086086A priority Critical patent/JP2006127451A/ja
Publication of JP2006127451A publication Critical patent/JP2006127451A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

【課題】罫線の増減があっても正しく処理対象セルの特定を行うことが可能となる。
【解決手段】罫線により構成される表構造を持つ帳票の基準表構造データを保持する表構造データ辞書と、帳票と同種別の帳票イメージが入力されると、対応する前記表構造データを用いて処理対象のセル領域を特定する処理対象領域決定部を有する帳票処理装置において、さらに前記基準表構造データのバリエーション情報を格納したサブパターン辞書を備え、処理対象領域決定部は、前記帳票イメージの表構造に含まれる罫線情報と前記基準表構造データに含まれる罫線情報が一致しない場合に、前記サブパターン辞書を参照し、処理対象領域の決定を行う。
【選択図】図1

Description

本発明は、罫線により構成される表構造を持つ帳票の、文字認識等の処理対象領域を効率よく決定する帳票処理装置に関するものである。
一般に複数の項目によって構成される帳票は、各項目を罫線によって区切ったセルとして表現した、表構造を持つことが多い。このような帳票を表形式帳票と呼ぶ。近年文字認識分野では、このような表形式の帳票に書かれた文字の認識も行われている。表形式の帳票の例としては、例えば以下の2種類の帳票がある。第1は、縦横の罫線で区分けされているセルの寸法や、帳票の基準点(例えば、画像左上端点)に対する各セルの位置が、所定通りに固定されている帳票(以下、書式固定帳票とする)である。第2は各セル寸法や各セルの帳票基準点に対する絶対的な位置は固定されていないが、各セルの並び順など、各セルの論理的な位置関係が所定通りとされている帳票(以下、様式固定帳票とする)である。具体的には、○○項目の欄の下には△△項目欄があり、かつこれらの項目欄の右側にはそれぞれ、記入欄があるというように論理的な位置関係が所定通りとされている帳票である。
従来方法として、帳票のセルを検出する方法として次のようなものがある。まず、文字認識等の処理を行うべきセル(処理対象セル)を持つ帳票の、基準となる帳票(基準帳票)の罫線情報・セル情報等を基準表構造データとして、予め表構造データ辞書に格納しておく。そして、同種別の帳票のイメージが入力されると、該帳票イメージから罫線を抽出する。そして、該帳票イメージの前記検出した罫線により区分けされるセル領域から、前記表構造データに基づいて、処理対象セル領域を特定する。
(例えば、非特許文献1参照)。
「沖電気研究開発」、沖電気工業株式会社、Vol.65 NO.1 JAN.1998、p.51、「OCR制限緩和技術」(石川、清水、田辺)
ところが、従来方法では、セルの構造の一部にバリエーションがある場合、すなわち罫線の増減がある場合には異なる表構造と扱われるので、基準表構造データでは処理対象セルの決定が出来なかった。このため、罫線が1本でも増減すると、そのような表構造を処理するには、新たな基準表構造データとして表構造データ辞書に登録しなくてはならない。このため、複数の基準表構造データに対して同じ処理を何度も繰り返す必要があった。
そこで、セルの構造の一部にバリエーションがある場合は、その部分のみのバリエーション情報を登録し、その情報より処理対象セルを特定する帳票処理装置が望まれていた。
本発明の帳票処理装置は以下の構成を備える。
<構成1>
罫線により構成される表構造を持つ帳票の基準表構造データを保持する表構造データ辞書と、前記帳票と同種別の帳票イメージが入力されると、対応する前記表構造データを用いて処理対象のセル領域を特定する処理対象領域決定部を有する帳票処理装置において、さらに前記基準表構造データのバリエーション情報を格納したサブパターン辞書を備え、前記処理対象領域決定部は、前記帳票イメージの表構造に含まれる罫線情報と前記基準表構造データに含まれる罫線情報が一致しない場合に、前記サブパターン辞書を参照し、処理対象領域の決定を行う。
<構成2>
前記表構造データは親セル領域ごとに複数の子セル領域の情報を含む階層構造からなり、親セル領域は子セル領域の構造にバリエーションがあるかどうかを示すサブパターン有無情報を持ち、サブパターン辞書に格納された前記バリエーション情報とは前記親セル領域に対応する部分の表構造からなるサブパターンデータであり、前記処理対象領域決定部は、各親セル領域ごとに、前記帳票イメージの表構造に含まれる罫線の数が前記基準表構造データに含まれる罫線の数と一致しない場合、対応する前記サブパターンデータと比較を行う。
<構成3>
前記処理対象領域決定部は、前記親セルごとに、前記帳票イメージの表構造と前記基準表構造データとを比較して子セルの罫線が一致するか否かを判定する対応関係判定手段と、一致しない場合には、前記位置情報により正しい罫線を特定するサブパターン判定手段とを備えており、前記サブパターン判定手段は、前記帳票イメージの各子セルを形成する罫線と、前記サブパターンデータに含まれる罫線一致する場合に該サブパターンを使用すべきことを判定する。
<構成4>
前記サブパターン辞書は1つの親セル領域ごとに1または2以上のサブパターンデータを登録可能であり、前記サブパターン判定手段は、サブパターンデータが複数存在する場合には、前記帳票イメージの各子セルを形成する罫線と、各サブパターンデータとを順次比較し、一致するサブパターンを選択する。
<構成5>
前記表構造データは親セル領域ごとに複数の子セル領域の情報を含む階層構造からなり、親セル領域は子セル領域の構造にバリエーションがあるかどうかを示すサブパターン有無情報を持ち、サブパターン辞書に格納された前記バリエーション情報とは前記親セル領域に対応する部分の表構造からなるサブパターンデータであり、前記処理対象領域決定部は、各親セル領域ごとに、前記帳票イメージの表構造に含まれる罫線の数が前記基準表構造データに含まれる罫線の数と罫線の位置の少なくともいずれか一方が一致しない場合、対応する前記サブパターンデータと比較を行う。
<構成6>
前記処理対象領域決定部は、
前記親セルごとに、前記帳票イメージの表構造と前記基準表構造データとを比較して子セルの罫線が一致するか否かを判定する対応関係判定手段と、一致しない場合には、前記位置情報により正しい罫線を特定するサブパターン判定手段とを備えており、前記サブパターン判定手段は、前記帳票イメージの各子セルを形成する罫線と、前記サブパターンデータに含まれる罫線の数と罫線の位置の少なくともいずれか一方が一致する場合に該サブパターンを使用すべきことを判定する。
<構成7>
前記サブパターン辞書は1つの親セル領域ごとに1または2以上のサブパターンデータを登録可能であり、前記サブパターン判定手段は、サブパターンデータが複数存在する場合には、前記帳票イメージの各子セルを形成する罫線と、各サブパターンデータとを順次比較し、一致するサブパターンを選択する。
辞書に表構造データを登録する際、各セル領域に分割する罫線の位置情報を登録し、その情報より表構造を推測し処理対象セルを特定することにより、罫線の増減があっても正しく処理対象セルの特定を行うことが可能となる。
以下に、本発明の各実施例について説明する。
本実施例において、処理対象セルに対して行う処理は文字認識であり、文字認識装置10に、本実施例の処理対象セル決定処理を行う認識対象領域決定部20を適応している。
<実施例1の構成>
図1は、本発明の第1の実施例を示す構成図である。
文字認識装置10は、認識対象領域決定部20を備える。認識対象領域決定部20は、罫線に区分けされている多数のセルを含む表(すなわち決定対象である入力帳票内の表)のイメージから、特定の1又は複数のセルに対応する領域および又はセル以外の認識対象領域を決定する。
認識対象領域決定部20は、表構造データ辞書21、表別処理制御手段23、罫線検出手段22、対応関係判定手段24、サブパターン判定手段25、セル決定手段26、サブパターン辞書27を具える。
表構造データ辞書21は、基準帳票内の表の罫線情報・セル情報等を基準表構造データとして格納している。表構造データについては後述する。
また、サブパターン辞書27は、基準表構造データの一部にサブパターンが存在する場合に、当該部分のサブパターンデータを格納している。サブパターンは、特に処理対象セルを含む領域に対して設定される。処理対象セルを含まない部分にサブパターンを設定しても、処理対象セルの特定につながらないからである。
なお、基準帳票内の表数は複数の場合もあり得る。その場合は、表別処理制御手段23にて、罫線検出手段22、対応関係判定手段24とセル決定手段26を制御し、基準帳票内の各表ごとに罫線検出、対応関係判定を行う。
また、罫線検出手段22は、処理対象領域を決定すべき入力帳票(入力帳票)のイメージから罫線を検出し、その罫線データを罫線データメモリ61に格納する。
また、対応関係判定手段24は罫線検出手段22で検出し、罫線データメモリ61に格納されている罫線と表構造データ辞書21に格納してある基準表構造データとを比較し、罫線の数が正しいか判定する。
また、サブパターン判定手段25は、対応関係判定手段24が正しいと判定できなかった場合に、サブパターン辞書27を参照し、一致するサブパターンがあるかを判定する。一致するサブパターンがあれば、当該セル領域に対して当該サブパターンを適用すべきことを図示しない記憶部に保存する。
また、セル領域決定手段26は、罫線データメモリ61の罫線データの罫線より区分けされる前記イメージ上の各セル領域から、表構造データ辞書21に格納してある表構造データもしくはサブパターン辞書27に格納押してあるサブパターンデータに基づいて、処理対象セル領域を決定し、その領域データを認識領域データメモリ63に格納する。
また、文字認識手段40は、認識対象領域決定部20で決定され、認識領域データメモリ63に格納されている領域データ内に記入されている文字を認識する。例えば、認識対象領域の文字列から文字を切り出し、該切り出した文字の特徴を抽出する。そして、該抽出した認識対象の文字の特徴を、予め用意した辞書内の各文字の特徴と照合して、候補文字を決定するという手段で構成できる。
また、CPU50は、認識対象領域決定部20および文字認識手段30を制御する。
また、罫線データメモリ61、帳票イメージメモリ62、認識領域データメモリ63は、メモリやハードディスク等、任意好適な記憶媒体で構成されている。
また、この文字認識装置10には、帳票のイメージを該帳票から読み取るためのスキャナ71が備わっている。また、スキャナから読み取ったイメージを格納するための、帳票イメージメモリ73を備えている。
以下、上記の構成についてさらに詳細に説明する。
図2は本発明において処理対象となる表形式帳票の基準帳票の例である。帳票イメージ200は、処理対象となる帳票の基準帳票のイメージである。ここで基準帳票とは、処理対象となる帳票と同じ表構造を持つ帳票を指す。前述の書式固定帳票の場合は、例えば複数枚存在する中から1枚を選択して基準帳票とする。前述の様式固定帳票の場合は、罫線の長さや各セルのサイズがその様式の中で最も平均的な帳票を選択して基準帳票とする。
表領域210aは、表全体を指す。罫線220a〜220dは、表領域210aを各セル領域に区切っている。処理対象領域230aは、セル領域の中で処理対象とすべき領域である。本実施例においては文字認識の対象とする領域であるが、例えば手入力によるデータ入力を行うシステムであれば、イメージを切り出す領域であっても良い。
次に、表構造データ辞書21に格納する表構造データについて説明する。図3は、帳票イメージ200における表領域210aの表構造を解析する過程を示したものである。
まず、図3(a)第1階層では、表領域210aは縦方向の3つのセル領域に分割される。それぞれのセル領域はT1、T2、T3と呼ぶ。次に、図3(b)第2階層では、第1階層の3つのセル領域それぞれに対して、横方向にセル領域に分割する。ここではT1に対してT11、T12の2つのセル領域に、T2に対してT21、T22の2つのセル領域に分割される。T3は内部に罫線を含まないのでこれ以上分割されず、第2階層のセルは含まれない。同様にして、T22はT221、T222の2つのセル領域に分割される。これ以上は内部に罫線を持たないので、この表の階層は3までとなる。また、この表での処理対象領域はT221である。
このように、それぞれのセルを親セルとし、その中に含まれたセルを子セルとし、このような関係を階層的に繰り返すことにより、表構造データを表現する。なお、第1階層のT1、T2、T3の親セル領域は表領域210aが相当し、ここではT0として表現する。
ここで、サブパターンの例について説明する。図4は図2ないし図3に示した基準帳票に対するサブパターンを持つ、サブパターン帳票の例である。
図のとおり、サブパターン帳票は基準帳票のT22に相当する部分440aの子セル領域のパターンが異なっており、罫線420cと罫線420dにより3つの子セル領域に分割され、処理対象領域は真ん中のセルになっている。その他の部分は基準帳票と同じである。
図5(a)は、図3の前述したT0、T1、…T222までのセル領域の階層構造を示す概念図である。ここで、ITxxxは各セル領域のサイズ情報である。具体的には、各親セルにおける各子セルのサイズ情報であり、その子セルの罫線が、親セルの基準罫線からどの位置にあるかを示す情報である。また、どのセルが処理対象セルであるかの情報も含んでいる。この情報は表構造データとして表構造データ辞書21に格納してある。また、T22はサブパターンを持つことが示されている。
図5(b)は、図4のサブパターン帳票のサブパターン部分440aのサブパターンデータを示す概念図である。前述した3つの領域は、親セルT22に対応する新たなT221´、T222´、T223´で示され、真ん中のセルであるT222´が処理対象セルである。この情報はサブパターンデータとしてサブパターン辞書27に格納される。
図6は帳票イメージ200における表構造データ辞書21のデータ構成の例である。
各階層ごとに、親セル領域における子セル領域の解析方向、セル領域名、親セル領域名、孫セル領域の有無、サブパターン有無、処理対象セル情報の各情報を含んでいる。
セル領域名とは、親領域内に存在する子セルの領域を指す。例えば、T0内にはT1、T2、T3のセル領域が存在している。
孫セル領域有無とは、その階層における子セルがさらに子セルを持つかどうかを示す。「あり」の場合はさらに子セルが存在することを示し、「なし」の場合は、その階層が最後であることを示す。
サブパターン有無とは、当該セル領域が持つ子セル領域のパターンが、基準表構造データ以外にも存在する場合、その部分をサブパターン辞書27にサブパターンデータとして登録してあることを示す情報であり、図6では、「○」で表現している。
処理対象セル情報は、そのセルが処理対象セルであることを示す情報であり、図6では「○」で表現している。なお、処理対象セルは、子セルを持たないセル領域に限られる。
図7は図5(b)に示すサブパターンデータに対する、サブパターン辞書27のデータ構成の例である。各データ構成は表構造データ辞書21と同一である。
次に、サブパターン判定手段25の処理について詳細を述べる。
処理対象セル領域を特定すべき入力帳票として、図4に示すサブパターン帳票が入力されたとする。図のとおり基準帳票と比べ、領域440aの部分が異なっている。対応関係判定手段24は入力帳票の罫線の方が多いので、領域440aは領域T22と一致しないと判定し、図示しない記憶部に当該領域が基準表構造データと一致しなかった旨を記録する。
サブパターン判定手段25は、それまでの処理で処理対象セルが特定できたかどうかを確認する。特定できた場合は何も処理を行わない。特定できなかった場合は、表構造データ辞書21を参照し、T22がサブパターンを持つかどうかを確認する。図6に示すとおりT22はサブパターンを持つので、サブパターン辞書27を参照し、T22に相当するサブパターンデータ(図7)を取得する。領域440aに対してサブパターンデータを用いて再度比較を行う。その結果、サブパターンデータと一致するので、処理対象セルとしてT222´を選択することが出来る。
<実施例1の動作>
次に、本実施例の動作について説明する。図8は、本実施例のフローチャートである。
S101:変数iに1をセットする。変数iは現在の階層を示す。
S102:変数nに表構造データ辞書から、対照となる最下階層数をセットする。
S103:iがnを超えたかどうかを確認する。超えた場合はS110に進む。そうでなければS104に進む。
S104:変数jに1をセットする。jは各階層内のセル数のカウンタである。
S105:変数mに変数iの階層におけるセルの数をセットする。
S106:jがmを超えたかどうかを確認する。超えた場合は次の階層へ移る。なお、このときiは1インクリメントされる。超えない場合はS47へ進む。
S107:罫線検出手段22は、入力帳票のイメージから罫線を検出する。なお、検出された罫線は、罫線データメモリ61に保存されるとともに、必要な罫線情報が渡される。この処理は最初の1回行われる。2回目以降は実際には罫線検出処理は行わず、必要な罫線情報は罫線データメモリ61から読み出して渡される。
S108:セル領域決定手段26は、罫線検出手段22が検出した罫線のうち、対応関係判定手段24が正しいと判定した罫線より区分けされる前記イメージ上の各領域から、表構造データ辞書21に格納してある表構造データに基づいて、処理対象セル領域を決定し、そのデータを認識領域データメモリ63に格納する。文字認識手段40は、認識領域データメモリ63に格納されている入力帳票イメージの上記決定された読み取りフィールドに相当する部分から、公知の方法で文字を切り出し、さらに公知の方法で文字認識を行う。処理したセル中に処理対象セル領域が含まれない場合は、この処理は行われない。
S109:jを1インクリメントする。これにより、同一階層の次のセルに対してS106〜S108の処理が繰り返される。
S110: 上記の処理において処理対象セルが見つからなかった場合は、サブパターン検出処理を行う。
以下に、サブパターン検出処理について詳細に説明する。
S201:処理対象セルの検出に成功していた場合は、サブパターンを検出する必要がないため、S205に進む。
S202:表構造データ辞書21を参照して、サブパターンがない場合は、サブパターン検出ができないので、S205に進む。
S203:サブパターン辞書を参照して、サブパターンデータを抽出する。
S204:当該サブパターンに対応する部分について再度比較を行い、処理対象セルを特定する。
S205:処理を終了する。
以上ように、処理対象セル領域が存在する領域にバリエーションがある場合、基準表構造データ以外にサブパターンデータを登録することにより、基準帳票と異なる帳票が入力された場合でも、同一の表構造を持つ部分についての処理を繰り返すことなくサブパターンデータにより処理対象セルを特定することが出来る。

第2の実施例として、サブパターンが複数存在する場合について説明する。
<実施例2の構成>
本実施例の構成は、第1の実施例と同様である。
本実施例においては、第1の実施例のサブパターン(以降第1のサブパターン)に加え、図10に示す第2のサブパターンが存在する。第1の実施例と同じく、基準帳票のT22に相当する部分540aの子セル領域のパターンが異なっており、罫線520cと罫線520dにより3つの子セル領域に分割されている。その他の部分は基準帳票と同じである。
前記第1、第2のサブパターンを第1の実施例と同様に解析した結果、サブパターンデータは図11のとおりとなる。
サブパターン判定手段25は、第1の実施例に加え、複数のサブパターンデータを切り替えて正しいサブパターンを選択する機能を有する。具体的には、サブパターン辞書27を参照すると、対応するサブパターンが複数見つかるので、順次サブパターンデータを切り替えながら入力帳票と比較を行い、一致したサブパターンデータを選択する。なお、サブパターンデータがいくつ存在するかについては、表構造データ辞書21のサブパターン有無フラグに変えて、サブパターン数を格納するようにしてもよい。
<実施例2の動作>
次に、本実施例の動作について説明する。本実施例の動作は、サブパターン検出を除き第1の実施例と同じである。図12は、本実施例のサブパターン検出のフローチャートである。
以下に、サブパターン検出処理について詳細に説明する。
S301:変数Iに1をセットする。
S302:変数Nに、存在するサブパターン数をセットする。本実施例においては2である。
S303:処理対象セルの検出に成功していた場合は、サブパターンを検出する必要がないため、S205に進む。
S304:表構造データ辞書21を参照して、サブパターンがない場合は、サブパターン検出ができないので、S205に進む。
S305:IがNの値を超えたかどうかを確認する。超えた場合はすべてのサブパターンデータの処理を完了しているので、S309へ進む。超えていない場合は、サブパターンが残っているので、S306へ進む。
S306:サブパターン辞書を参照して、I番目のサブパターンデータを抽出する。
S307:当該サブパターンに対応する部分について再度比較を行う。一致した場合はS308へ進む。一致しない場合は、S305へ進む。なお、このときIは1インクリメントされる。
S308:S307で一致したサブパターンデータを使用して、処理対象セルを特定する。
S205:処理を終了する。
以上ように、処理対象セル領域が存在する領域に複数のバリエーションがある場合、基準表構造データ以外に複数のサブパターンデータを登録しておき、基準帳票と異なる帳票が入力された場合でも、複数のサブパターンデータと順次比較することにより、同一の表構造を持つ部分についての処理を繰り返すことなく処理対象セルを特定することが出来る。
本実施例は、実施例1に開示した構成に対し、さらに罫線の位置情報すなわちサイズ情報を参照するものである。
本実施例の構成は、実施例1と同様であるが、表構造データ辞書21、サブパターン辞書27、対応関係判定手段24、サブパターン判定手段25の構成が異なっている。これらの差異については後述する。
まず、サイズ情報について説明する。
図13は図2に示した基準帳票のサイズ情報を表したものである。表中、Ixxxで示しているものが各セルのサイズ情報である。これらのサイズ情報は、図5に示したものと同じものである。また、図14は、図4に示したサブパターン帳票のサイズ情報をあらわしたものである。
図15は、帳票イメージ200における表構造データ辞書21のデータ構成の例である。実施例1におけるデータ構造(図6)に対し、前述のサイズ情報が追加されている。そのほかは図6と同様である。
図16は、帳票イメージ400すなわちサブパターン帳票におけるサブパターン辞書27のデータ構成の例である。実施例1におけるデータ構造(図7)に対し、前述のサイズ情報が追加されている。そのほかは図7と同様である。
対応関係判定手段24は罫線検出手段22で検出し、罫線データメモリ61に格納されている罫線と表構造データ辞書21に格納してある基準表構造データとを比較し、罫線の数およびサイズ情報を比較することにより、基準表構造データと同じ位置に罫線が存在するかを判定する。
次に、サブパターン判定手段25の本実施例令における処理について詳細を述べる。
処理対象セル領域を特定すべき入力帳票として、図13に示すサブパターン帳票が入力されたとする。図のとおり基準帳票と比べ、領域440aの部分が異なっている。対応関係判定手段24は入力帳票の罫線の方が多く、サイズ情報も一致しないのでので、領域440aは領域T22と一致しないと判定し、図示しない記憶部に当該領域が基準表構造データと一致しなかった旨を記録する。
サブパターン判定手段25は、実施例1と同じくそれまでの処理で処理対象セルが特定できたかどうかを確認する。その結果、特定できていないことがわかるので、表構造データ辞書21を参照し、T22がサブパターンを持つかどうかを確認する。図15に示すとおりT22はサブパターンを持つので、サブパターン辞書27を参照し、T22に相当するサブパターンデータ(図16)を取得する。領域440aに対してサブパターンデータを用いて再度比較を行う。その結果、サブパターンデータは罫線の本数、サイズ情報ともに一致するので、処理対象セルとしてT222´を選択することが出来る。
次に、入力帳票として、図18に示す帳票イメージ401が入力されたとする。
その場合、図13に示すサブパターン帳票が入力された場合と同じく、サブパターン辞書27が参照されるが、帳票イメージ401の場合、罫線の本数は一致するが、サイズ情報が一致しない。このため、サブパターン判定手段25は、サブパターン決定を行わずに終了する。
<実施例3の動作>
次に、本実施例の動作について説明する。全体の流れは図8と同様であるが、上述のとおり対応関係判定手段24が罫線のサイズ情報を判定基準に加えるところが異なっている。
図17は、本実施例におけるサブパターン検出処理を表したフローチャートであり、実施例1の図9に対応するものである。
以下に、本実施例のサブパターン検出処理について詳細に説明する。
S401〜S403は、S201〜S203と同様である。
S404:当該サブパターンに対応する部分について再度比較を行い、処理対象セルを特定する。このとき、罫線の数に加え、サイズ情報が一致するか比較を行う。罫線の数、サイズ情報がともに一致する場合は、処理対象セルを特定する。それ以外の場合は、処理対象セルを特定しない。
S405:処理を終了する。
以上ように、処理対象セル領域が存在する領域にバリエーションがある場合、基準表構造データ以外にサブパターンデータを登録することにより、基準帳票と異なる帳票が入力された場合でも、同一の表構造を持つ部分についての処理を繰り返すことなくサブパターンデータにより処理対象セルを特定することが出来る。かつ、罫線の本数だけでなく罫線の位置情報すなわちサイズ情報を参照するようにしたので、罫線の数は一緒であるが位置が異なる帳票を誤って正しい帳票として処理することを防ぐことができる。
第4の実施例として、サブパターンが複数存在する場合について説明する。
<実施例4の構成>
本実施例においては、実施例3の図14に示すサブパターン(以降第1のサブパターン)に加え、図18に示す第2のサブパターンが存在する。第1のサブパターンとの違いは、罫線の位置である。すなわち、サイズ情報が異なっている。
サブパターン判定手段25は、実施例3に加え、第2の実施例と同じく複数のサブパターンデータを切り替えて正しいサブパターンを選択する機能を有する。具体的には、サブパターン辞書27を参照すると、対応するサブパターンが複数見つかるので、順次サブパターンデータを切り替えながら入力帳票と比較を行い、一致したサブパターンデータを選択する。なお、サブパターンデータがいくつ存在するかについては、表構造データ辞書21のサブパターン有無フラグに変えて、サブパターン数を格納するようにしてもよい。
図19は、本実施例における第2のサブパターンのサブパターン辞書27である。
<実施例4の動作>
次に、本実施例の動作について説明する。本実施例の動作は、サブパターン検出を除き第1の実施例と同じである。図12は、本実施例のサブパターン検出のフローチャートである。
以下に、サブパターン検出処理について詳細に説明する。
S501:変数Iに1をセットする。
S502:変数Nに、存在するサブパターン数をセットする。本実施例においては2である。
S503:処理対象セルの検出に成功していた場合は、サブパターンを検出する必要がないため、S509に進む。
S504:表構造データ辞書21を参照して、サブパターンがない場合は、サブパターン検出ができないので、S509に進む。
S505:IがNの値を超えたかどうかを確認する。超えた場合はすべてのサブパターンデータの処理を完了しているので、S509へ進む。超えていない場合は、サブパターンが残っているので、S506へ進む。
S506:サブパターン辞書を参照して、I番目のサブパターンデータを抽出する。
S507:当該サブパターンに対応する部分について再度比較を行い、処理対象セルを特定する。このとき、罫線の数に加え、サイズ情報が一致するか比較を行う。罫線の数、サイズ情報がともに一致する場合は、S508へ進む。一致しない場合は、S505へ進む。なお、このときIは1インクリメントされる。
S508:S307で一致したサブパターンデータを使用して、処理対象セルを特定する。
S509:処理を終了する。
以上のように、処理対象セル領域が存在する領域に複数のバリエーションがある場合、基準表構造データ以外に複数のサブパターンデータを登録しておき、基準帳票と異なる帳票が入力された場合でも、複数のサブパターンデータと順次比較することにより、同一の表構造を持つ部分についての処理を繰り返すことなく処理対象セルを特定することが出来る。かつ、罫線の本数だけでなく罫線の位置情報すなわちサイズ情報を参照するようにしたので、罫線の数は一緒であるが位置が異なる帳票を誤って正しい帳票として処理することを防ぐことができる。
なお、上記の4つの実施例において入力される帳票と基準表構造データとの関係については、入力される帳票の様式の種別が複数種類存在する場合、基準構造データを様式数分用意して表構造データ辞書21に登録しておき、図示しない帳票識別手段によって帳票の様式を特定した後、該当する基準表構造データを選択して上述の処理を行なえばよい。帳票識別の方法には、既知の方式が使用可能である。入力される帳票の様式の種別が1つのみの場合は、帳票識別は必要なく、上述の方法のみで帳票処理を実現できる。
実施例1の構成 基準帳票 解析過程 サブパターン帳票 階層構造を示す概念図 表構造データ辞書のデータ構成 サブパターン辞書のデータ構成 実施例1のフローチャート 実施例1のフローチャート サブパターン帳票 サブパターン辞書のデータ構成 実施例2のフローチャート 基準帳票のサイズ情報 サブパターン帳票のサイズ情報 第3実施襟の表構造データ辞書のデータ構成 第3実施襟のサブパターン辞書のデータ構成 実施例3のフローチャート サブパターン帳票 第4実施例のサブパターン辞書のデータ構成 実施例4のフローチャート
符号の説明
10 文字認識装置
20 認識対象領域決定部
21 表構造データ辞書
23 表別処理制御手段
22 罫線検出手段
24 対応関係判定手段
25 サブパターン判定手段
26 セル決定手段
27 サブパターン辞書
61 罫線データメモリ
63 認識領域データメモリ
71 スキャナ
73 帳票イメージメモリ

Claims (7)

  1. 罫線により構成される表構造を持つ帳票の基準表構造データを保持する表構造データ辞書と、前記帳票と同種別の帳票イメージが入力されると、対応する前記表構造データを用いて処理対象のセル領域を特定する処理対象領域決定部を有する帳票処理装置において、
    さらに前記基準表構造データのバリエーション情報を格納したサブパターン辞書を備え、
    前記処理対象領域決定部は、前記帳票イメージの表構造に含まれる罫線情報と前記基準表構造データに含まれる罫線情報が一致しない場合に、前記サブパターン辞書を参照し、処理対象領域の決定を行う、
    帳票処理装置。
  2. 前記表構造データは親セル領域ごとに複数の子セル領域の情報を含む階層構造からなり、親セル領域は子セル領域の構造にバリエーションがあるかどうかを示すサブパターン有無情報を持ち、サブパターン辞書に格納された前記バリエーション情報とは前記親セル領域に対応する部分の表構造からなるサブパターンデータであり、
    前記処理対象領域決定部は、各親セル領域ごとに、前記帳票イメージの表構造に含まれる罫線の数が前記基準表構造データに含まれる罫線の数と一致しない場合、対応する前記サブパターンデータと比較を行う、
    請求項1に記載の帳票処理装置。
  3. 前記処理対象領域決定部は、
    前記親セルごとに、前記帳票イメージの表構造と前記基準表構造データとを比較して子セルの罫線が一致するか否かを判定する対応関係判定手段と、
    一致しない場合には、前記位置情報により正しい罫線を特定するサブパターン判定手段とを備えており、
    前記サブパターン判定手段は、前記帳票イメージの各子セルを形成する罫線と、前記サブパターンデータに含まれる罫線とが一致する場合に該サブパターンを使用すべきことを判定する、
    請求項2に記載の帳票処理装置。
  4. 前記サブパターン辞書は1つの親セル領域ごとに1または2以上のサブパターンデータを登録可能であり、
    前記サブパターン判定手段は、サブパターンデータが複数存在する場合には、前記帳票イメージの各子セルを形成する罫線と、各サブパターンデータとを順次比較し、一致するサブパターンを選択する、
    請求項3に記載の帳票処理装置。
  5. 前記表構造データは親セル領域ごとに複数の子セル領域の情報を含む階層構造からなり、親セル領域は子セル領域の構造にバリエーションがあるかどうかを示すサブパターン有無情報を持ち、サブパターン辞書に格納された前記バリエーション情報とは前記親セル領域に対応する部分の表構造からなるサブパターンデータであり、
    前記処理対象領域決定部は、各親セル領域ごとに、前記帳票イメージの表構造に含まれる罫線の数が前記基準表構造データに含まれる罫線の数と罫線の位置の少なくともいずれか一方が一致しない場合、対応する前記サブパターンデータと比較を行う、
    請求項1に記載の帳票処理装置。
  6. 前記処理対象領域決定部は、
    前記親セルごとに、前記帳票イメージの表構造と前記基準表構造データとを比較して子セルの罫線が一致するか否かを判定する対応関係判定手段と、
    一致しない場合には、前記位置情報により正しい罫線を特定するサブパターン判定手段とを備えており、
    前記サブパターン判定手段は、前記帳票イメージの各子セルを形成する罫線と、前記サブパターンデータに含まれる罫線の数と罫線の位置の少なくともいずれか一方が一致する場合に該サブパターンを使用すべきことを判定する、
    請求項5に記載の帳票処理装置。
  7. 前記サブパターン辞書は1つの親セル領域ごとに1または2以上のサブパターンデータを登録可能であり、
    前記サブパターン判定手段は、サブパターンデータが複数存在する場合には、前記帳票イメージの各子セルを形成する罫線と、各サブパターンデータとを順次比較し、一致するサブパターンを選択する、
    請求項6に記載の帳票処理装置。
JP2005086086A 2004-09-30 2005-03-24 帳票処理装置 Pending JP2006127451A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005086086A JP2006127451A (ja) 2004-09-30 2005-03-24 帳票処理装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004288007 2004-09-30
JP2005086086A JP2006127451A (ja) 2004-09-30 2005-03-24 帳票処理装置

Publications (1)

Publication Number Publication Date
JP2006127451A true JP2006127451A (ja) 2006-05-18

Family

ID=36722108

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005086086A Pending JP2006127451A (ja) 2004-09-30 2005-03-24 帳票処理装置

Country Status (1)

Country Link
JP (1) JP2006127451A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008015702A (ja) * 2006-07-04 2008-01-24 Tokyo Soft Kk 帳票処理装置
JP2014228914A (ja) * 2013-05-20 2014-12-08 永和 飯島 業務処理システム
WO2020044537A1 (ja) * 2018-08-31 2020-03-05 株式会社Pfu 画像照合装置、画像照合方法、及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH064717A (ja) * 1992-06-19 1994-01-14 Pfu Ltd 漢字住所補正処理方法
JPH11175654A (ja) * 1997-12-08 1999-07-02 Oki Electric Ind Co Ltd セル領域の決定方法、セル領域の決定装置
JPH11282957A (ja) * 1998-03-26 1999-10-15 Oki Electric Ind Co Ltd 認識対象領域の決定方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH064717A (ja) * 1992-06-19 1994-01-14 Pfu Ltd 漢字住所補正処理方法
JPH11175654A (ja) * 1997-12-08 1999-07-02 Oki Electric Ind Co Ltd セル領域の決定方法、セル領域の決定装置
JPH11282957A (ja) * 1998-03-26 1999-10-15 Oki Electric Ind Co Ltd 認識対象領域の決定方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008015702A (ja) * 2006-07-04 2008-01-24 Tokyo Soft Kk 帳票処理装置
JP2014228914A (ja) * 2013-05-20 2014-12-08 永和 飯島 業務処理システム
WO2020044537A1 (ja) * 2018-08-31 2020-03-05 株式会社Pfu 画像照合装置、画像照合方法、及びプログラム
JPWO2020044537A1 (ja) * 2018-08-31 2021-03-18 株式会社Pfu 画像照合装置、画像照合方法、及びプログラム

Similar Documents

Publication Publication Date Title
JP4926004B2 (ja) 文書処理装置、文書処理方法及び文書処理プログラム
US8908969B2 (en) Creating flexible structure descriptions
US10503993B2 (en) Image processing apparatus
JP2008021068A (ja) 帳票認識装置及び帳票認識プログラム
CN112100979A (zh) 基于电子书的排版处理方法、电子设备及存储介质
JP4834351B2 (ja) 文字認識装置及び文字認識方法
JP2006127451A (ja) 帳票処理装置
JP2008108114A (ja) 文書処理装置および文書処理方法
US7756872B2 (en) Searching device and program product
JP2018055256A (ja) 情報処理装置、情報処理方法及びプログラム
JP2008282094A (ja) 文字認識処理装置
JP2010102734A (ja) 画像処理装置及びプログラム
JP4810853B2 (ja) 文字画像切出装置、文字画像切出方法およびプログラム
JP2008310531A (ja) 帳票識別方法及び帳票識別プログラム並びに該帳票識別方法を用いた光学文字読取システム
JP3467437B2 (ja) 文字認識装置及びその方法とプログラム記録媒体
JP2006099681A (ja) 帳票処理装置
US8923625B2 (en) Original image searching device, original image searching method, and computer readable medium
JP2006072520A (ja) 情報処理装置及びその方法及びそのプログラム記録媒体
US11574490B2 (en) Information processing apparatus and non-transitory computer readable medium storing information processing program
JP2009223391A (ja) 画像処理装置及び画像処理プログラム
JPH0728935A (ja) 文書画像処理装置
JP2000132635A (ja) 認識データ確認方法
JP3575969B2 (ja) セル領域の決定方法、セル領域の決定装置
JP2007026263A (ja) 文字認識装置及びコンピュータプログラム
JPH08202711A (ja) 文書編集操作電子装置

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060923

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20060929

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20061013

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091222

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100420