JP4585837B2

JP4585837B2 - 印字データ読取り方法、印字データ読み取り装置、印字データ読み取りプログラム

Info

Publication number: JP4585837B2
Application number: JP2004338345A
Authority: JP
Inventors: 峰伸関; 勝美丸川
Original assignee: Hitachi Computer Peripherals Co Ltd
Current assignee: Hitachi Information and Telecommunication Engineering Ltd
Priority date: 2004-11-24
Filing date: 2004-11-24
Publication date: 2010-11-24
Anticipated expiration: 2024-11-24
Also published as: JP2006146741A

Description

本発明は、帳票などの枠線を含む文書をスキャナで電子化した画像中の印字データを読取る方法に関する。特に、プレ印刷の枠と印字データに大きなずれが生じた場合、また同一紙上でもずれの方向および量が異なる場合にも、各項目の枠へ対応する印字データを正しく割り当て、各項目の枠の読取り結果が対応する印字データの読取り結果のみであるようにする方法に関する。

帳票には、枠線、氏名や金額などの項目名、そしてデータが印刷されおり、OCRは予め定められた枠内に印字されたデータを読取る。従来、複雑かつ多様な枠構造を自動で解析する方式を開発し、これを用いて抽出された枠内のデータを読取っていた。ところが、枠線と項目名が予め印刷(プレ印刷)された帳票に、後からデータを印字する場合が多くあり（本発明におけるデータの印字には手書きによる記入を含む）、プリンタ上に帳票を置いた際の設置位置による印字位置のずれ、帳票用紙の微妙な違い、印字ソフトウエアでの印刷位置設定のずれ、手書き位置のずれのため、印字データがプレ印刷の枠からはみ出してしまう場合、さらには同一紙上でも場所によりずれの方向および量が異なる場合がある。

従来は、読取り枠を少し拡大した領域を読取りフィールドとして設定し、その中に存在する印字データを枠線から分離して読取る方式が行われており、枠線と文字を分離する方法は多く出願されている。それらは特開2003-216894号公報（特許文献１）のようにカラー画像における枠線と文字の色の違いを用いる方法、特開平9-305707号公報（特許文献２）のように濃淡画像における枠線と文字の濃淡の違いを用いる方法、特開平9-185676号公報（特許文献３）のよう２値画像において枠線除去した後に残った黒画素の位置形状から除去された文字成分を補完する方法に分けられる。

特開2003-216894号公報

特開平9-305707号公報特開平9-185676号公報

しかしながら、前記従来方法はいずれも枠から文字を分離することに注力しているだけであり、次の３つの問題がある。１つ目は、大きな印字ずれが起きた場合や一枚の帳票内で異なるずれの方向と量がある場合、各枠内のデータの読取りにおいて、枠線と重なった印字データが隣接した枠内から混入したデータなのか注目する枠からはみ出した読取対象のデータであるかを区別できず、隣接する枠内のデータも含めて認識結果としてしまうことである。２つ目は、大きな印字ずれが起きた場合、拡大した枠に印字データが入りきらず、文字パターンが切断された状態で読取りを行い、誤読してしまうことである。３つ目は、枠線と文字の分離の精度と処理時間の問題である。これは２値画像を用いると分離精度が低く、カラー画像を用いると多くの処理時間がかかるということである。

本発明は、このような問題に鑑みてなされたものである。すなわち前記問題に対し、プレ印刷の枠と印字データに大きなずれが生じてしまった場合、また同一紙上でもずれの方向および量が異なっている場合にも、隣接する枠から混入した印字データを除き、注目する枠からはみ出した読取り対象の印字データのみを認識結果として出力し、処理時間を抑えつつ印字データと枠線の分離を高精度に行う、高精度な印字データ読取り方法を提供することである。

本発明では、前記課題を解決するために、帳票などの枠線を含む文書をスキャナで電子化した画像中の印字データを読取る方法において、
前記画像から罫線を抽出する罫線抽出手段と、
前記抽出された罫線から枠を抽出する枠抽出手段と、
抽出した複数の枠の中から、印字データの読取りを行う枠を抽出する読取りフィールド抽出手段と、
印字データが枠からはみ出している可能性があるすべての枠を検出する印字ずれフィールド検出手段と、
枠線と印字データを分離し、はみ出した印字データを印字ずれデータとする印字ずれデータの確定手段と、
印字ずれデータがどの枠からはみ出した印字データであるかを判別する読取りフィールドへの印字データ割り当て手段と、
印字データの読取りを行う文字列読取り手段と、
を有することを特徴とする印字データ読取り方法を提供する。

前記読取りフィールドへの印字データ割り当て手段は、
データが印字されない領域に混入した印字ずれデータを検出し、検出された印字データのずれの方向を判別し、その方向を利用して他の印字ずれデータを読取りフィールドへ割り当てる非データ記入領域からの伝播型データ割り当て手段と、
枠の領域と印字ずれデータの外接矩形の重なり度を算出し、その重なり度を利用して印字ずれデータが注目する枠からのはみ出した印字データであるか、隣接する枠から混入した印字データなのかを判別する注目枠と矩形の重なり度による判別手段と、
水平方向に繋がる２つの枠にまたがった文字に対し、
その2つの枠を仕切る枠線の位置と、
重なった文字の位置と、
左の枠内にある文字或いは左の枠の中心位置と、
右の枠内にある文字或いは右の枠の中心位置と、
の関係を利用して、枠線と重なった文字を左右どちらの枠に割り当てる水平方向に隣接する枠内文字の判別手段と、
印字ずれデータの外接矩形の高さが枠の高さよりも大きい印字ずれデータと、
印字ずれデータの外接矩形の幅が枠の幅よりも大きい印字ずれデータを他の枠から混入した印字ずれデータと判別する矩形サイズによる判別手段と、
前記非データ記入領域からの伝播型データ割り当て手段と
前記矩形の重なり度による判別手段と
前記水平方向に隣接する枠内文字の判別手段と
前記矩形サイズによる判別手段とによって確定した印字ずれデータのずれの方向を利用して、読取りフィールドへ印字ずれデータを割り当てる大局的な印字ずれ方向による判別手段と
を有することをさらに特徴としている。

前記印字ずれフィールド検出手段は、2値画像処理を用いて印字データがはみ出している可能性があるすべての枠を検出し、前記印字ずれデータの確定処理において、前記検出されて枠の周辺のみのカラー画像処理を行うことを更に特徴としている。

本発明により、帳票などの枠線を含む文書をスキャナで電子化した画像中の印字データを読取る際に、プレ印刷の枠と印字データに大きなずれが生じてしまった場合、また同一紙上でもずれの方向および量が異なる場合にも、どの印字データがどの読取りフィールドに割り当てられるかを判別し、読取りフィールド処理時間を抑えつつ印字データと枠線の分離を高精度に行うことにより、各項目の枠に対応する印字データのみの高精度な文字読取り結果を得る。

図１は、本発明の実施の形態における全体の処理フローである。スキャナやＯＣＲなどで電子化された帳票画像（０１０１）が入力となり、罫線抽出処理（０１０２）、枠抽出処理（０１０３）、読取りフィールド抽出処理（０１０４）、印字ずれフィールド候補の検出処理（０１０５）、印字ずれデータの確定処理（０１０６）、読取りフィールドへの印字データ割り当て処理（０１０７）、文字列読取処理（０１０８）が実行され。所定の読取り項目の枠内のデータを認識した結果（０１０９）が出力される。

本一連の処理は、図２に示すような、（画像などの）データ入力装置（０２０２）、操作端末装置（０２０３）、表示端末装置（０２０４）、外部記憶装置（０２０５）、メモリ（０２０６）、中央演算装置（０２０７）、通信装置（０２０８）で構成される印字データ読取装置（０２０１）で実行される。本装置はネットワーク（０２０９）に接続されている場合もあり、入力データである帳票画像（０１０１）は、ＵＳＢインターフェイスや、ＣＤ／ＤＶＤドライブなどのデータ入力装置（０２０２）や通信装置（０２０８）を介して、外部記憶装置（０２０５）やメモリ（０２０６）に格納される。そして、図１に示した罫線抽出処理（０１０２）、枠抽出処理（０１０３）、読取りフィールド抽出処理（０１０４）、印字ずれフィールド候補の検出処理（０１０５）、印字ずれデータの確定処理（０１０６）、読取りフィールドへの印字データ割り当て処理（０１０７）、文字列読取処理（０１０８）のプログラムデータや読取りフィールド抽出処理に用いる帳票定義知識を含む辞書データ（０１１０）は、外部記憶装置（０２０５）或いはメモリ（０２０６）に格納され、マウスやキーボード等の操作端末装置（０２０３）或いは通信装置（０２０８）からの指示データをトリガーとして、中央演算装置（０２０７）により処理される。以降、図１の処理フローに従い説明する。

図３は、入力される帳票画像の例（０３０１）である。
図４は、帳票画像（０３０１）に対して罫線抽出処理（０１０２）と枠抽出処理（０１０３）を実行した結果を図示したもの（０４０１）である。罫線抽出処理（０１０２）では、水平、垂直方向への連続する黒画素を抽出することで罫線を抽出し、枠抽出処理（０１０３）では、罫線の交点を見つけそれらの位置関係から1つ1つの枠位置が抽出する。この方法には、（非特許文献１：Hiroshi Shinjo、 Eiichi Hadano、 Katsumi Marukawa、 Yoshihiro Shima、 Hiroshi Sako: A Recursive Analysis for Form Cell Recognition. ICDAR 2001: 694-698）など様々な方法がある。

図５は、枠抽出処理結果（０４０１）から、読取りを行う領域（読取りフィールド）を抽出した結果を図示したもの（０５０１）である。読取りフィールドは、予め辞書データ（０１１０）に枠毎の領域の情報として保持されている。そして、この辞書データ（０１１０）と枠抽出処理結果（０４０１）を照合することにより読取りフィールドが抽出される。この照合方法の例として、（非特許文献２：新庄広、高橋寿一、古川直広:DPマッチングを用いた帳票枠構造照合方式、Technical Report of IEICE、 PRMU2002-228 (2003-03)）がある。

図６は、印字ずれフィールド候補検出処理（０１０５）の処理フローである。本処理では、2値画像（０６０１）が入力され、前処理で抽出された各読取りフィールドが印字ずれの可能性のあるフィールドであるか、印字ずれのないフィールドであるか（０６０５）が判定される。本処理は読取りフィールド毎に行われ、この時点では各読取りフィールドは枠と同じ領域である。はじめに枠線が除去される（０６０２）。次に、枠内に残った黒画素の連結成分（上下左右斜め方向に連続する黒画素をまとめた画素の集合）が生成される（０６０３）。次に、連結成分の位置と枠線の位置を比較することにより、各連結成分が枠線に接する或いは近接するか否かを判定し、接する或いは近接する連結成分が存在した読取りフィールドは印字ずれフィールド候補と判定される（０６０４）。本処理では、枠からはみ出した印字データがある読取りフィールドの検出漏れがないようにするため、項目名のプレ印刷された文字やノイズなどが枠線と接触或いは近接して存在する場合にも印字ずれフィールド候補として検出するとよい。

図７は、印字ずれデータ確定処理（０１０６）の処理フローである。本処理では、検出された印字ずれフィールド候補の領域を拡大した部分カラー画像（０７０１）が入力され、印字ずれデータが確定される。本処理は、嶋等による方法（特許文献４：特開2003-196592号公報）をベースとしたカラードロップアウト処理を行うことで枠線と文字が分離される。そして、印字データの検知処理（０７０７）において、枠線と重なる文字パターンと枠内にある文字パターンから文字列が抽出（枠線と重ならず枠の外にある文字パターンは文字列抽出に用いない）され、抽出された文字列と枠線の位置を比較し枠線と重なる文字列を印字ずれデータと確定する。嶋等の方法は、ドロップアウトする色を予め赤、青、緑の3色に限定し、読取りフィールドを拡大した部分画像からプレ印刷と印字データの色を識別し、識別された色成分を持つ画素に対してのみドロップアウト処理する方法である。本実施例では、嶋等の方法に次の３つの処理方法が加えられており、枠線と印字データの分離がより高速、高精度に行われる。

１つ目は、代表フィールドにおけるプレ印刷色・印字データ色の判定処理（０７０３）である。本処理は、予め定められた代表する読取りフィールドでプレ印刷と印字データの色識別を行った結果をすべてのフィールドのカラードロップアウト処理に利用するというものである。これによりカラードロップアウト処理の度にプレ印刷色と印字データ色の判別処理をすることがなくなるため処理時間を短縮できる。また、嶋等の方法は、印字データ色の判定を枠内の中央部のみで行われるため、印字データが中央から大きくずれている場合や印字データがない場合に印字データ色の識別ができない。そのため図１１に示すように、データ文字列存在判定処理（１１０３）にて、枠の中央部に文字列と推定される矩形が存在するかどうかを判定し、存在しないならば別の読取りフィールドを改めて選択しなおす処理が加えられている。

２つ目は、ドロップアウトで残存したプレ印刷成分の除去処理（０７０５）である。枠線の色が濃い場合などにドロップアウトしきれず枠線成分が残ることがある。本処理では、それらを除去するため図８に示すように、枠線の中心線からの距離がmd以下、連結成分の幅mwが一定値(Tw)以上、かつ高さmhが一定値(Th)以下である連結成分（０８０１）を枠線の残りと判定し、除去する。md、Tw、Thは調整可能なパラメータである。

３つ目は、ドロップアウトで除去された文字データ成分の補完処理（０７０６）である。カラードロップアウト処理（０７０４）により、プレ印刷成分と共に文字データの一部が除去される場合がある。このため図９と図１０に示すように、枠線位置と枠線近傍の連結成分の位置の関係から印字データの外接矩形を補完する。
本処理は嶋等の方法をベースとしたが、他の様々なカラードロップアウトの手法を用いても良い。

次に、読取りフィールドへの印字データ割り当て処理（０１０７）を行う。本処理では、印字ずれデータが存在する読取りフィールドにおいて、注目する枠からはみ出した読取対象の印字データなのか、それとも隣接枠から混入した印字データなのかを判別し、読取りフィールドへ読取対象の印字データのみを割り当てる。そして、読取対象の印字データを含みかつ混入してきた隣接枠内の印字データを除くように、読取りフィールドを補正する。例えば、図１２に示す印字ずれデータのある画像に対し、図１３に示すように、金額Ａの下にある金額Ａのデータ印字枠からはみ出した「０」を含むように読取りフィールドを補正し（１３０１）、金額Ｂの下にある金額Ｂのデータ印字枠からはみ出した「１０」を含むように読取りフィールドを補正し（１３０２）、金額Ｃの右にある金額Ｃのデータ印字枠からはみ出した「１３００００」を含み「０」と「１０」を含まないように読取りフィールドを補正する（１３０３）。以下、注目枠からはみ出した印字データとは、本来は注目枠に属する印字データが他の枠にはみ出して印字されているものをいい、注目枠へ混入している印字データとは、本来は注目枠以外の隣接する枠などに属するはずの印字データが注目枠内を含む領域に印字されているものをいう。

このように2値画像処理を用いて印字ずれの可能性のあるフィールドを絞りこみ、絞り込んだ読取りフィールドに対してのみカラー画像処理を行うことで、処理時間を抑えつつ、印字データとプレ印刷を分離することができる。

図１４は、読取りフィールドへの印字データ割り当て処理（０１０７）の処理フローである。本処理では、確定された印字ずれデータを含む読取りフィールドに対し、印字ずれデータが注目する枠からのはみ出しなのか隣接する枠からの混入なのかを判別するために、矩形サイズによる判別処理（１４０１）と水平方向に隣接する枠内文字の判別処理（１４０２）と非データ記入領域からの伝播型データ割り当て処理（１４０３）と注目枠と矩形の重なり度による判別処理T=0.9（１４０４）と注目枠と矩形の重なり度による判別処理T=0.5（１４０６）と大局的な印字ずれ方向による判別処理（１４０５）の６つの判別処理が実行される。

まず、非データ記入領域からの伝播型データ割り当て処理（１４０３）について説明する。本処理では、生年月日やフリガナ等の項目名の文字がプレ印刷された枠領域や帳票の余白領域（非データ記入領域）にはデータが印字されないことを利用し、非データ記入領域に隣接する“読取りフィールドＸ”とその非データ記入領域とにまたがって存在するデータを、“読取りフィールドＸ”からはみ出した印字データであると判別する。そして、このはみ出し方向を利用し、“読取りフィールドＸ”の非データ記入領域とは反対側に隣接する“読取りフィールドＹ”とまたがった印字データを“読取りフィールドＹ”から“読取りフィールドＸ”に混入した印字データであると判別する。そして、この操作を繰り返すことで、連続して隣接する読取りフィールド間にまたがったデータのはみ出し/混入を判別する。ここで、非データ記入領域の情報は、帳票定義知識の一部として辞書データ０１１０に保持されている。

図１５の例を用いて説明すると、はじめに金額５のデータ印字枠（１５０８）の下部にまたがる印字ずれデータ「０」（１５０４）は非データ記入領域である“日”の項目名の枠にまたがるため、枠１５０８からのはみ出しであると判別する。これにより、枠１５０８の中の印字データは下方向へずれているとわかるので、枠１５０８の上部にまたがるデータ「１２０」（１５０３）は枠１５０８への混入かつ金額４のデータ印字枠（１５０７）からのはみ出しと判別される。次に、枠１５０７の印字データも下方向へずれているとわかるので、枠１５０７の上部のデータ「１３００００」は枠１５０７への混入かつ金額３のデータ印字枠（１５０６）からのはみ出しと判別する。同様に、枠１５０６の上部にある印字ずれデータ「０」（１５０１）は枠１５０５からのはみ出しであると判別する。このように本処理は非データ記入領域へのはみ出した情報を用いて他の読取りフィールドの印字ずれの方向を判定する。

注目枠と矩形の重なり度による判別処理（１４０４、１４０６）について説明する。他の枠領域にも重なっていても、注目する枠領域にその大部分が重なる印字データは、注目する枠からはみ出した印字データである可能性が高い。そのため、印字データの外接矩形が注目枠領域に重なる割合を用いる。図１６に示すように、Dinを読取枠内の印字データの高さ、Doutを読取枠外の印字データの高さとし、枠内にある印字データの割合F=Din/(Din+Dout)が閾値Ｔ以上であるならば、印字ずれデータを注目枠からのはみ出しと判別する。閾値Ｔは調整可能であり、本実施例では、0.9と0.5の2種類を用いている。T=0.9の場合は、枠領域に大部分が重なる印字データがはみ出しと判別されるため、はみ出し/混入の判別精度が高い。そのため、本処理の結果は比較的他の判別ルールの結果よりも優先して用いられる。一方、T=0.5の場合は、はみ出し/混入の判別精度は低いが、はみ出しであるか侵入であるか曖昧なデータを判別できる。このため、他の判別ルールをすべて適用した結果判別不可であった印字データに適用される。

次に、水平方向に隣接する枠内文字の判別処理（１４０２）について説明する。水平方向に印字ずれが生じている場合、文字単位ではみ出しか混入かを判別する必要がある。図１７に示すサンプルにおいて、フィールドＡ（１７０２）に対し、カラードロップアウト処理を行い、フィールドＡの枠線に重なる或いは枠内に含まれる印字である“１２３４”が割り当てデータとなり、フィールドＢに対しカラードロップアウト処理を行い、フィールドＢの枠線に重なる或いは枠内に含まれる印字である“４”が割り当てデータとなる。このように、フィールドＡとフィールドＢの両方に「４」が含まれてしまう。本処理では、境界となる枠線とフィールドＡ内の文字とフィールドＢ内の文字の位置関係を利用することで、「４」がフィールドAからのはみ出しかつフィールドBへの混入であることを判別する。これには、重複する文字の外接矩形(Rlap)の位置と、重複する文字を除いたフィールドA内の最も右の外接矩形(Rarit)の位置、重複する文字を除いたフィールドB内の最も左の外接矩形(Rblft)の位置、枠線の位置、枠領域の中心位置、または枠領域のサイズを用いることができ、図１８、図１９、図２０、図２１、図２２に示す５つの判別パターンがある。

図１８は、RaritとRblftが存在する場合の判別パターン（判別パターン１）であり、RaritとRlapとの距離をDma、RbritとRlapとの距離をDmbとし、Dma≦DmbならばRlapはフィールド Aからのはみ出し、Dma >DmbならばRlapはフィールドBからのはみ出しとする。

図１９は、RaritとRblftのどちらかが存在する場合の判別パターン（判別パターン２）である。Raritのみ存在する場合はフィールドBの中心とRlapとの距離をDcbとし、Dma≦DcbならばRlapはフィールドAからのはみ出し、Dma >DcbならばRlapはフィールドBからのはみ出しとする。またRblftのみ存在する場合は、フィールドAの中心とRlapとの距離をDcaとし、Dmb≦DcaならばRlapはフィールドBからのはみ出し、Dmb >DcaならばRlap はフィールドAからのはみ出しとする。

図２０は、RaritとRblftが共に存在しない場合の判別パターン（判別パターン３）であり、RlapのフィールドAへのはみ出し量をDla、フィールドBへのはみ出し量をDlbとし、Dla≦DlbならばRlap はフィールドAからのはみ出し、Dla >DlbならばRlapはフィールドBからのはみ出しとする。

図２１は、Rlapが２つ存在する場合の判別パターン（判別パターン４）であり、左側のRlapをRlapa、右側のRlapをRlapbとし、RlapaはフィールドAからのはみ出し、RlapbはフィールドBからのはみ出しとする。この判別パターンは、フィールドB或いはフィールドＢの枠一杯に文字列が記載されるなどの原因で、左右の印字データが枠に接触したことを判別する。

図２２は、判別パターン１と判別パターン２の特殊な場合であり、判別パターン１と判別パターン２の判別を実行する前に行う。フィールドBの枠幅をWb、フィールドB内の文字とRlapを含む外接矩形の幅をWpbとし、Wb≦WpbならばRlapはAからのはみ出しとする。

１４０２の判別処理は、始めに判別パターン４、判別パターン５、判別パターン１、判別パターン２、判別パターン３の順に処理されるが、判別パターン１と判別パターン２と判別パターン３の適用順番を変えても判別精度は変わらない。ただし、判別精度は変化するが、この５つの判別パターンのいずれか、またはその組み合わせにより実行しても良い。

次に、矩形サイズによる判別処理（１４０１）について説明する。本処理では、枠の大きさに適したサイズでデータは印字されることから、印字ずれデータの外接矩形が注目する枠よりも大きい場合、隣接する読取りフィールドからの混入であると判別する。具体的には、印字データの高さ(Wst)と幅(Hst)、枠の高さ(Wfr)と幅(Hfr)を用い、Wst>Wfr 或いはHst＞Hfrならば、隣接する枠からの混入した印字データであると判別する。

次に、大局的な印字ずれ方向による判別処理（１４０５）について説明する。印字ずれのある多くの帳票では、帳票内の印字ずれデータが一定の方向にずれている。このことから帳票毎に大局的なずれの方向を決定し、その方向を用いてずれの方向が曖昧な印字データのはみ出し/混入を判別する。大局的なずれの方向の決定には、これまで述べてきた判別処理（１４０１、１４０２、１４０３、１４０４、１４０６）により確定された印字ずれの方向を利用する。上下左右の方向へのずれと判別された印字データの数をそれぞれDirUpNum、DirDownNum、 DirLftNum、DirRitNum、大局的な印字ずれの方向をGlobalDir、大局的な印字ずれの方向を上下左右それぞれUp、Down、Lft、Ritとし、次のように決定する。DirUpNum≧DirDownNum+αならばGlobalDirはUp、DirDownNum≧DirUpNum+αならばGlobalDirはDown、DirLftNum≧DirRitNum+αならばGlobalDirはLft、DirRitNum≧DirLftNum+αならばGlobalDirはRitと判別する。判別された文字列の数が少ない場合や、異なる方向へのずれが同数程度である場合の大局的なずれの方向は信頼性が低いため、定数αが導入している。このαは調整可能なパラメータであり、これにより１方向へ偏ったずれがある場合のみ大局的なずれの方向が決まる。

前記６つの判別処理において、印字ずれデータが注目する枠の４隅に混入していた場合、フィールド補正を行う方向を決定するために、印字ずれデータが水平方向からの混入なのか垂直方向からの混入なのかを判別する必要がある。このため、枠領域と混入文字列の外接矩形の重なった部分の高さLhと幅Lwを用いて、水平方向からの混入か垂直方向からの混入かを判別する。（一般に文字は縦長であることから高さをＬｈ×0.5として比較する。）具体的には、幅(Lw)よりも高さ(Lh×)が小さければ垂直方向からの混入（図２３）、幅(Lw)よりも高さ(Lh×)が大きければ垂直方向からの混入(図２４)と判別する。ただし、図２４、図２５のようにLhと比較し、枠外の矩形の高さ(Lh')の長さが非常に長い場合(Lh'≧Lh×2)は垂直方向からの混入と判定する。

以上説明した、読取りフィールドへの印字データ割り当て処理０１０７のための６つの判別処理（１４０１〜１４０６）は、それぞれ独立した処理であり、いずれかのみを利用してもよく、いくつかを組合わせて利用してもよい。また、各判別処理を組合わせる際の処理の順番は問わない。

ただし、判別処理毎にはみ出しか混入かの判別結果が異なる場合があるため、判別処理を実行する順番は重要である。例えば、図１５に示す印字ずれデータに対し、非データ記入領域からの伝播型データ割り当て処理（１４０３）は正しく下方向へのはみ出し文字列として判別できるが、注目枠と矩形の重なり度による判別処理T=0.5を用いると、誤って上方向へずれた文字列と判別し、誤って隣接する枠の印字データの認識結果が出力されてしまう。このように伝播型データ割り当て処理は注目枠と矩形の重なり度による判別処理に比べて精度が高いが、非データ記入領域へのはみ出しがないサンプルには適用できないという性質がある。このような観点で、精度が高い順に判別処理を並べると、矩形サイズによる判別処理（１４０１）、水平方向に隣接する枠内文字の判別処理（１４０２）、非データ記入領域からの伝播型データ割り当て処理（１４０３）、注目枠と矩形の重なり度による判別処理T=0.9（１４０４）、大局的な印字ずれ方向による判別処理（１４０５）、矩形の重なり度による判別処理T=0.5（１４０４）となる。そして、この順番で判別ルールを適用していくことにより、読取りフィールドと印字データとの対応付けの誤りを最小にできる。ただし、帳票内のはみ出し/混入データの性質によってこの適用順番は変わっても良い。そして、各読取りフィールドの領域は割り当てられた印字データのみを含むように補正される。

最後に、補正した読取りフィールド内の印字データに対して文字列読取を行い、認識結果を得る（０１０８）。本処理では、印字ずれフィールド候補検出処理により、印字ずれなしフィールドと判定された読取りフィールド、印字ずれデータ確定処理により印字ずれデータがなかったフィールド、印字ずれデータに対して領域が補正された読取りフィールドのすべての読取りフィールドに対して文字列読取が行われる。

以上のように、印字ずれデータが注目する枠からはみ出した印字データであるか、隣接する枠からの混入した印字データなのかを判別することで、隣接する枠から混入した印字データを除き、注目する枠からはみ出した読取り対象の印字データのみを認識結果とすることができる。

地方自治体で扱われる給与支払報告書をはじめとして、領収書、申込書、振込票、医療機関のレセプトなどの枠線を含む文書画像からの汎用的な印字データ読取りに利用できる。

本発明の実施形態における処理フローを示す図である。本発明の実施形態におけるハードウエア構成を示す図である。本発明の実施形態において入力される帳票画像の例である。本発明の実施形態における枠抽出結果の例を図示したものである。本発明の実施形態における読取りフィールド抽出結果の例を図示したものである。本発明の実施形態における印字ずれフィールド候補検出処理の処理フローを示す図である。本発明の実施形態における印字ずれデータの確定処理の処理フローを示す図である。本発明の実施形態におけるドロップアウトで残存したプレ印刷成分の除去処理の概要を示す図である。本発明の実施形態におけるドロップアウトで除去された文字データ成分の補完処理による1つ目の例である。本発明の実施形態におけるドロップアウトで除去された文字データ成分の補完処理による２つ目の例である。本発明の実施形態における代表フィールドにおけるプレ印刷色・印字データ職の判定処理の処理フローを示す図である。本発明の実施形態における印字ずれデータを含む帳票画像の例である。本発明の実施形態における読取りフィールド補正処理結果を図示したものである。本発明の実施形態における読取りフィールドへの印字データ割り当て処理の処理フローを示す図である。本発明の実施形態における非データ記入領域からの伝播型データ割り当て処理の概要を図示したものである。本発明の実施形態における注目枠と矩形の重なり度による判別処理の概要を示す図である。本発明の実施形態における水平方向に印字ずれが生じている場合のカラードロップアウト処理結果の例を示す図である。本発明の実施形態における水平方向に隣接する枠内文字の判別処理で用いられる１つ目の判別パターンを示す図である。本発明の実施形態における水平方向に隣接する枠内文字の判別処理で用いられる２つ目の判別パターンを示す図である。本発明の実施形態における水平方向に隣接する枠内文字の判別処理で用いられる３つ目の判別パターンを示す図である。本発明の実施形態における水平方向に隣接する枠内文字の判別処理で用いられる４つ目の判別パターンを示す図である。本発明の実施形態における水平方向に隣接する枠内文字の判別処理で用いられる５つ目の判別パターンを示す図である。本発明の実施形態において枠の４隅に混入した印字データの混入方向を判別する処理の１つ目の例である。本発明の実施形態において枠の４隅に混入した印字データの混入方向を判別する処理の２つ目の例である。本発明の実施形態において枠の４隅に混入した印字データの混入方向を判別する処理の３つ目の例である。

符号の説明

０１０１：帳票画像、０１０２：罫線抽出処理、０１０３：枠抽出処理、０１０４：取りフィールド抽出処理、０１０５：印字ずれフィールド候補の検出処理、０１０６：印字ずれデータの確定処理、０１０７：読取りフィールドへの印字データ割り当て処理、０１０８：文字列認識処理、０１０９：文字列認識結果、０１１０：辞書データ、０２０１：印字データ読取装置、０２０２：データ入力装置、０２０３：操作端末装置、０２０４：表示端末装置、０２０５：外部記憶装置、０２０６：メモリ、０２０７：中央演算装置、０２０８：通信装置、０２０９：ネットワーク、０３０１：入力される帳票画像の例、０４０１：枠抽出処理結果の例、０５０１：読取りフィールド抽出結果の例、０６０１：2値画像、０６０２：罫線除去処理、０６０３：連結成分生成処理、０６０４：連結成分の接触判定処理、０６０５：印字ずれフィールド候補検出結果、０７０１：印字ずれフィールド候補を拡大したカラー部分画像、０７０２：帳票全面のカラー画像、０７０３：代表フィールドにおけるプレ印刷色・印字データ色の判定処理、０７０４：フィールド毎のカラードロップアウト処理、０７０５：ドロップアウトで残存したプレ印刷成分の除去処理、０７０６：ドロップアウトで除去された文字データ成分の補完処理、０７０７：印字データの検知処理、０７０８：印字ずれデータの確定結果、０８０１：カラードロップアウトで残存したプレ印刷枠線、０９０１：カラードロップアウトで一部除去された文字パターンの例の左側部分、０９０２：カラードロップアウトで一部除去された文字パターンの例の右側部分、０９０３：ドロップアウトで除去された文字データ成分の補完処理による結果の１つ目の例、１００１：カラードロップアウトで一部除去された文字パターンの例の上側部分、１００２：カラードロップアウトで一部除去された文字パターンの例の下側部分、１００３：ドロップアウトで除去された文字データ成分の補完処理による結果の２つ目の例、１１０２：読取りフィールド選択処理、１１０３：データ文字列存在判定処理、１１０４：データ文字列職の判定処理、１１０５：プレ印刷色の判定処理、１１０６：代表フィールドにおけるプレ印刷色・印字データ色の判定処理結果、１３０１：金額Ａのデータが印字される読取りフィールドの補正結果、１３０２：金額Ｂのデータが印字される読取りフィールドの補正結果、１３０３：金額Ｃのデータが印字される読取りフィールドの補正結果、１４０１：矩形サイズによる判別処理、１４０２：水平方向に隣接する枠内文字の判別処理、１４０３：非データ記入領域からの伝播型データ割り当て処理、１４０４：注目枠と矩形の重なり度による判別(T=0.9)処理、１４０５：大局的な印字ずれ方向による判別処理、１４０６：注目枠と矩形の重なり度による判別(T=0.5)処理、１５０１：印字ずれデータの１つ目の例、１５０２：印字ずれデータの２つ目の例、１５０３：印字ずれデータの３つ目の例、１５０４：印字ずれデータの４つ目の例、１５０５：金額１のデータ印字枠、１５０６：金額３のデータ印字枠、１５０７：金額４のデータ印字枠、１５０８：金額５のデータ印字枠、１７０１：読取りフィールドＡのカラードロップアウト処理領域、１７０２：読取りフィールドＡ、１７０３：読取りフィールドＢ、１７０４：読取りフィールドＡのカラードロップアウト処理結果、１７０５：読取りフィールドＢのカラードロップアウト処理結果。

Claims

枠線を含む文書をスキャナで電子化した画像中の印字データを読取る方法において、
前記画像から罫線を抽出する罫線抽出ステップと、
前記抽出された罫線から枠を抽出する枠抽出ステップと、
予め記憶される帳票定義知識を参照して、前記抽出した複数の枠の中から、印字データの読取りを行う枠を抽出する読取りフィールド抽出ステップと、
前記印字データが枠からはみ出している可能性がある枠を検出する印字ずれフィールド検出ステップと、
枠線と印字データを分離し、枠線と接触すると判定される印字データを印字ずれデータとする印字ずれデータの確定ステップと、
印字ずれデータがどの枠からはみ出した印字データであるかを判別する読取りフィールドへの印字データ割り当てステップと、
印字データの読取りを行う文字列読取りステップとを有し、
前記読取りフィールドへの印字データ割り当てステップにおいて、
データが印字されない領域に混入した印字ずれデータを検出し、検出された印字データのずれの方向を判別し、その方向を利用して他の印字ずれデータを読取りフィールドへ割り当てる非データ記入領域からの伝播型データ割り当てステップと、
枠の領域と印字ずれデータの外接矩形の重なり度を算出し、その重なり度を利用して印字ずれデータが注目する枠からのはみ出した印字データであるか、隣接する枠から混入した印字データなのかを判別する注目枠と矩形の重なり度による判別ステップと、
水平方向に繋がる２つの枠にまたがる文字に対し、
その2つの枠を仕切る枠線の位置と、
重なった文字の位置と、
左の枠内にある文字或いは左の枠の中心位置と、
右の枠内にある文字或いは右の枠の中心位置と、
の関係を利用して、枠線と重なった文字を左右どちらの枠に割り当てる水平方向に隣接する枠内文字の判別ステップと、
印字ずれデータの外接矩形の高さが枠の高さよりも大きい印字ずれデータと、
印字ずれデータの外接矩形の幅が枠の幅よりも大きい印字ずれデータを他の枠から混入した印字ずれデータと判別する矩形サイズによる判別ステップと、
前記非データ記入領域からの伝播型データ割り当てステップと、
前記矩形の重なり度による判別ステップと、
前記水平方向に隣接する枠内文字の判別ステップと、
前記矩形サイズによる判別ステップとによって確定した印字ずれデータのずれの方向を利
用して、読取りフィールドへ印字ずれデータを割り当てる大局的な印字ずれ方向による判
別ステップと、
を有することを特徴とする印字データ読取り方法。
前記読み取りフィールドへの印字データ割り当てステップは、
複数の読み取りフィールドと複数の印字ずれデータとの位置関係に基づいて、各印字ずれ
データがどの読み取りフィールドからはみ出した印字データであるかを判断することを特
徴とする請求項１記載の印字データ読み取り方法。
前記印字ずれフィールド検出ステップにおいて、2値画像処理を用いて印字データがはみ
出している可能性があるすべての枠を検出し、前記印字ずれデータの確定処理において、
前記検出されて枠の周辺のみのカラー画像処理を行うことを更に特徴とする請求項１に記
載の印字データ読取り方法。
印字データ読取装置であって、
帳票などの枠線を含む文書をスキャナで電子化した画像を入力する画像入力部と、帳票定
義知識を含む辞書データを格納するメモリ装置と、演算装置とを有し、
該演算装置は、
前記画像から罫線を抽出し、
前記抽出された罫線から枠を抽出し、
前記メモリ装置に格納される帳票定義知識を参照して、前記抽出した複数の枠の中から、
印字データの読取りを行う枠を抽出し、
前記印字データが枠からはみ出している可能性がある枠を検出し、
枠線と印字データを分離し、枠線と接触すると判定される印字データを印字ずれデータと
分類し、
印字ずれデータがどの枠からはみ出した印字データであるかを判別し、
更に、前記印字データであるかの判別は、
データが印字されない領域に混入した印字ずれデータを検出し、検出された印字データのずれの方向を判別し、その方向を利用して他の印字ずれデータを読取りフィールドへ割り当てる非データ記入領域からの伝播型データ割り当てを行い、
枠の領域と印字ずれデータの外接矩形の重なり度を算出し、その重なり度を利用して印字ずれデータが注目する枠からのはみ出した印字データであるか、隣接する枠から混入した印字データなのかを判別する注目枠と矩形の重なり度による判別を行い、
水平方向に繋がる２つの枠にまたがる文字に対し、
その2つの枠を仕切る枠線の位置と、
重なった文字の位置と、
左の枠内にある文字或いは左の枠の中心位置と、
右の枠内にある文字或いは右の枠の中心位置と、
の関係を利用して、枠線と重なった文字を左右どちらの枠に割り当てる水平方向に隣接する枠内文字の判別を行い、
印字ずれデータの外接矩形の高さが枠の高さよりも大きい印字ずれデータと、
印字ずれデータの外接矩形の幅が枠の幅よりも大きい印字ずれデータを他の枠から混入した印字ずれデータと判別する矩形サイズによる判別を行い、
前記非データ記入領域からの伝播型データ割り当てを行い、
前記矩形の重なり度による判別を行い、
前記水平方向に隣接する枠内文字の判別を行い、
前記矩形サイズによる判別ステップとによって確定した印字ずれデータのずれの方向を利用して、読取りフィールドへ印字ずれデータを割り当てる大局的な印字ずれ方向による判別を行って、
印字データの読取りを行うことを特徴とする印字データ読取り装置。
印字データ読取りプログラムであって、枠線を含む文書をスキャナで電子化した画像を入力する画像入力部と、帳票定義知識を含む辞書データを格納するメモリ装置と、演算装置とを有する印字データ読み取り装置の演算装置に、
前記画像から罫線を抽出する罫線抽出ステップと、
前記抽出された罫線から枠を抽出する枠抽出ステップと、
前記メモリ装置に格納される帳票定義知識を参照して、前記抽出した複数の枠の中から、印字データの読取りを行う枠を抽出する読取りフィールド抽出ステップと、
前記印字データが枠からはみ出している可能性がある枠を検出する印字ずれフィールド検出ステップと、
枠線と印字データを分離し、枠線と接触すると判定される印字データを印字ずれデータとする印字ずれデータの確定ステップと、
印字ずれデータがどの枠からはみ出した印字データであるかを判別する読取りフィールドへの印字データ割り当てステップと、
印字データの読取りを行う文字列読取りステップとを実行させ、
更に、前記読取りフィールドへの印字データ割り当てステップにおいて、
データが印字されない領域に混入した印字ずれデータを検出し、検出された印字データのずれの方向を判別し、その方向を利用して他の印字ずれデータを読取りフィールドへ割り当てる非データ記入領域からの伝播型データ割り当てステップと、
枠の領域と印字ずれデータの外接矩形の重なり度を算出し、その重なり度を利用して印字ずれデータが注目する枠からのはみ出した印字データであるか、隣接する枠から混入した印字データなのかを判別する注目枠と矩形の重なり度による判別ステップと、
水平方向に繋がる２つの枠にまたがる文字に対し、
その2つの枠を仕切る枠線の位置と、
重なった文字の位置と、
左の枠内にある文字或いは左の枠の中心位置と、
右の枠内にある文字或いは右の枠の中心位置と、
の関係を利用して、枠線と重なった文字を左右どちらの枠に割り当てる水平方向に隣接する枠内文字の判別ステップと、
印字ずれデータの外接矩形の高さが枠の高さよりも大きい印字ずれデータと、
印字ずれデータの外接矩形の幅が枠の幅よりも大きい印字ずれデータを他の枠から混入した印字ずれデータと判別する矩形サイズによる判別ステップと、
前記非データ記入領域からの伝播型データ割り当てステップと、
前記矩形の重なり度による判別ステップと、
前記水平方向に隣接する枠内文字の判別ステップと、
前記矩形サイズによる判別ステップとによって確定した印字ずれデータのずれの方向を利
用して、読取りフィールドへ印字ずれデータを割り当てる大局的な印字ずれ方向による判
別ステップと、
を実行させることを特徴とする印字データ読取りプログラム。