JP4864574B2 - 帳票処理装置 - Google Patents

帳票処理装置 Download PDF

Info

Publication number
JP4864574B2
JP4864574B2 JP2006184857A JP2006184857A JP4864574B2 JP 4864574 B2 JP4864574 B2 JP 4864574B2 JP 2006184857 A JP2006184857 A JP 2006184857A JP 2006184857 A JP2006184857 A JP 2006184857A JP 4864574 B2 JP4864574 B2 JP 4864574B2
Authority
JP
Japan
Prior art keywords
image data
frame
detected
line
reference frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006184857A
Other languages
English (en)
Other versions
JP2008015702A (ja
Inventor
憲二 倉島
Original Assignee
東京ソフト株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 東京ソフト株式会社 filed Critical 東京ソフト株式会社
Priority to JP2006184857A priority Critical patent/JP4864574B2/ja
Publication of JP2008015702A publication Critical patent/JP2008015702A/ja
Application granted granted Critical
Publication of JP4864574B2 publication Critical patent/JP4864574B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)

Description

本発明は、各種伝票や各種申し込み用紙などの複数の帳票の画像データを検索して、この画像データがどの帳票に対応するものであるかを識別する帳票処理装置に関する。
各種伝票や申し込み用紙のように、申込者などが自筆で記載した帳票を画像で管理することが行われており、以下の特許文献では、前記帳票に記載されている記載内容からテキストデータを得ることも記載されている。
しかしながら、保険契約や銀行ローンの申し込みなどにおいては、申込者が複数種類の帳票に同時に記入することが多い。このような複数種類の帳票を取り扱う場合、複数の帳票を種類ごとに分類してから、同じ種類の帳票を画像読取機で読み取ることが必要である。そのため、複数種類の帳票を手動で仕分けする作業が必要になる。また、複数種類の帳票を混在させて画像読取機で読み取った場合には、同じ記憶部内に複数種類の帳票に対応する画像データが混在することになり、その後の画像データ処理が煩雑になる。
また、従来、帳票の画像データから、記載枠などを探すときに、この枠を囲む罫線の全体を探しているために、罫線の検索に時間がかかる。また、画像内で帳票の影像が傾いているような場合に、記載枠の特定を高精度にできない問題があった。
特開昭61−59568号公報 特開平7−152861号公報 特開2002−324236号公報 特開2003−303315号公報 特開2004−334913号公報
本発明は、上記従来の課題を解決するものであり、複数種類の帳票の画像データを混在させた場合であっても、画像処理により、どの種類の帳票の画像データであるかを高精度に検出できる帳票処理装置を提供することを目的としている。
また、画像データ内の罫線や枠の検索を短時間に高精度に行うことができる帳票処理装置を提供することを目的としている。
本発明は、複数種類の帳票の画像データが保存された画像データ保存部(3)と、前記画像データ保存部(3)から取り出された画像データがどの種類の帳票であるかを識別する帳票識別処理部(12)とを有しており、
複数種類の前記帳票のそれぞれが、罫線で囲まれた基準枠(20A,20B,20C)を有し、
前記帳票識別処理部(12)では、それぞれの画像データ毎に、前記基準枠(20A)を構成する基準線(41)の端部(A,B)が存在すると予測される位置の近傍の複数箇所において、所定範囲(δy1,δy2)内に、前記基準線(41)の一部が線分(41a,41b)として存在しているか否かを検出し、前記線分(41a,41b)が検出されたときに、前記線分(41a,41b)の端部の座標位置から、画像データ上での基準線(41)の傾きを計算し、
前記基準線(41)の傾きを修正した後に、前記基準枠(20A)を構成する他の基準線(42,43,44)を検出し、
それぞれの帳票において固有の位置に前記基準枠(20A,20B,20C)が存在しているか否かを検出して、その画像データがどの種類の帳票に関するものであるかを識別することを特徴とするものである。
本発明の帳票処理装置では、複数種類の帳票に印刷されている罫線で囲まれた基準枠を検出し、この基準枠の位置と形状を認識することにより、どの帳票に関する画像データであるかを認識できるようにしている。よって、画像データを、それぞれの種類の帳票ごとに分類して保存したり、あるいはそれぞれの帳票ごとに、記載枠の切り出し処理等を行うことができる。
本発明の帳票処理装置では、基準枠を構成する1つの基準線を検出した時点で、画像データ全体の傾きを補正し修正している。したがって、その後の他の基準線や罫線の検索の際に、これら線の傾きが修正されているため、検出が容易になる。
上記構成の帳票処理装置では、基準線(罫線)を検出するときに、この基準線の全体を検出するのではなく、この基準線の少なくとも2つの部分の線分を検出することで、基準線が存在すると推定している。よって、基準線の検索を短時間に行うことができる。
このように、少なくとも2つの線分を検出することで、基準線の存在を類推でき、しかも少なくとも2つの線分を探すことにより、画像データの全体の傾きをも検出することができる。
また、本発明は、前記基準枠(20A)を検出した後に、この基準枠(20)を構成する少なくとも2つの基準線(41,42)を基準として、所定距離だけ離れた位置に罫線が存在しているか否かを検出し、この罫線が検出されたときに、その画像データがどの種類の帳票に関するものであるかを識別するものである。
例えば、前記基準枠(20A)を基準として、この基準枠(20A)と離れた位置にある他の枠(50,55)を検出し、前記他の枠(50,55)が規定された位置に存在していることが検出されたときにその画像データがどの種類の帳票に関するものであるかを識別する。
または、前記基準枠(20A)を形成する基準線(41)を基準として、この基準枠(20A)内に位置する少なくともひとつの他の枠(23,27)を検出し、前記他の枠(23,27)が規定された位置に存在していることが検出されたときにその画像データがどの種類の帳票に関するものであるかを識別する。
本発明では、基準枠が検出されたときに、この基準枠の罫線を基準として、他の記載枠などを検索し、その位置と形状を把握することで、画像データがどの帳票に関するものであるのかを高精度に検出できるようにしている。
本発明の帳票処理装置では、複数種類の帳票の画像データが混在している場合でも、画像処理で、この画像データを帳票の種類ごとに分類できるようになる。したがって、画像データを帳票の種類ごとに分けて保存したり、あるいは帳票の種類ごとに、項目の切り出し処理を行うなど、帳票の種類ごとの効率的な処理を可能にできる。
図1は本発明の実施の形態の帳票処理装置を示す全体構成図、図2(A)(B)(C)は、帳票の例を示す説明図、図3は帳票Aの拡大平面図、図4は罫線の検出例を示す説明図、図5は帳票内の記載枠の特定例を示す説明図、図6と図7は全体の動作を示すフローチャートである。
本発明の実施の形態の帳票処理装置1は、例えば図2(A)(B)(C)に示す帳票A,帳票B,帳票Cの画像データを処理するものである。帳票A,帳票B,帳票Cは、生命保険の申し込み用紙、銀行ローンの申し込み用紙、クレジットカードの入会申し込み用紙などである。この種の申し込みに際しては、記載すべき内容が相違する、異なる種類の帳票A,B,Cを同時に提出する場合が多い。
帳票処理装置1は、混在して読み取られるそれぞれの帳票の画像データを読み取り、読み取られたそれぞれの画像データが、図2(A)(B)(C)に示す帳票A,帳票B,帳票Cのいずれに該当するのかを識別する。さらに、帳票A,帳票B,帳票Cのそれぞれの画像データから、個人情報に対応する項目の記載枠の画像データを部分的に切り出し、さらに切り出した記載枠の画像データのファイル名を暗号化する。
図1は、帳票処理装置1の全体構成の概要を示している。この帳票処理装置1には、複数の画像読取機2a,2b,・・・が設けられている。各画像読取機2a,2b,・・・は、例えば支店や店舗に設置され、支店や店舗において、顧客が記載枠に情報を書き込んだ帳票A,帳票B,帳票Cが画像読取機2a,2b,・・・で読み取られる。画像読取機2a,2b,・・・で読み取られた帳票A,帳票B,帳票Cの画像データは、電話回線やインターネットなど利用して、メインサーバーの入力フォルダ3(画像データ保存部)内に転送される。
帳票処理装置1の主要部である中央制御部10は、演算部とメモリなどから構成されている。中央制御部10は、種々の処理動作を行う部分を有しているが、それぞれの処理動作は、中央制御部10においてソフトウエアに基づいて実行される。ただし、以下の説明では、中央制御部10で実行される処理を便宜上「処理部」と呼ぶことがある。
中央制御部10には、画像自動取得部11が設けられている。この画像自動取得部11は、入力フォルダ3を監視しており、入力フォルダ3に画像データが転送されると、この画像データが画像自動取得部11で引き出され、帳票識別処理部12に転送される。帳票識別処理部12では、転送された画像データが画像処理される。この画像処理では、画像データ内で、帳票の罫線が検出され、その罫線の位置および長さ、および罫線で囲まれた記載枠の形状などから、画像データが、帳票A,帳票B,帳票Cのどれに関するものであるのか識別される。
図2(A)(B)(C)に示す例では、帳票Aにおいて罫線で囲まれた基準枠20A、帳票Bにおいて罫線で囲まれた基準枠20B、帳票Cにおいて罫線で囲まれた基準枠20Cを検出することで、画像データが帳票Aに関するものであるか、帳票Bに関するものであるか、または帳票Cに関するものであるのか、識別される。
さらに、識別された帳票の記載枠の内部に、必要事項が実際に記載されているのか否かの検出も行われる。例えば、図3に示す帳票Aでは、基準枠21A内の、氏名の記載枠21、電話番号の記載枠22、住所の記載枠23および口座番号の記載枠24が、それぞれ必須事項である。
帳票A、帳票B、帳票Cのいずれかであるかの識別ができ、また必須事項が記載されていることを確認できた画像データは、画像切り出し処理部13で処理される。画像切り出し処理部13では、帳票の記載事項のうちの個人情報に関する項目が画像データから切り出される。例えば、図3に示す帳票Aでは、氏名の記載枠21、電話番号の記載枠22、住所の記載枠23、銀行口座番号の記載枠24、E−メールアドレスの記載枠25、および職業の記載枠26などが個人情報である。
画像切り出し処理部13では、帳票Aの個人情報の記載枠21,22,23,24,25,26の画像データが部分的に切り出され、項目フォルダ14のそれぞれに、切り出された記載枠の画像データが保存される。帳票Aの氏名の記載枠21の画像データは、項目フォルダ14のうちの、項目aのフォルダに保存され、帳票Aの電話番号の記載枠22の画像データは、項目bのフォルダに保存される。同様にして、帳票Aの記載枠23の画像データは、項目cのフォルダに、記載枠24,25,26のそれぞれの画像データは、項目d,項目e,項目fのフォルダのそれぞれに個別に保存される。
また、帳票Bの個人情報の記載枠の画像データおよび、帳票Cの個人情報の記載枠の画像データも、それぞれ部分的に切り出され、これらが、項目フォルダ14のそれぞれの項目に振り分けられて保存される。
よって、項目aのフォルダ内には、帳票Aの画像データのうちの、氏名の記載枠21の画像データのみが多数保存され、項目bのフォルダ内には、帳票Aの画像データのうちの電話番号の記載枠22の画像データのみが多数保存されていることになる。項目aのフォルダ内および項目bのフォルダ内などでは、それぞれの記載枠の画像データが所定のファイル名で記録されるが、このファイル名は、どの帳票Aから切り出されたものか後に識別できるように、番号や記号で表しておくことが必要である。
しかし、項目aのフォルダ内および項目bのフォルダ内などで、各画像データのファイル名を、規則性を持った番号や記号で表しておくと、各項目a,b,c,・・・のフォルダ内から、関連するファイル名の画像データを抽出することで、元の帳票Aを復元でき、個人情報を守ることができなくなる。
そこで、中央制御部10には、暗号化処理部15が設けられており、項目フォルダ14のそれぞれのフォルダに保存されている画像データのファイル名が、暗号化される。この暗号化により、項目aのフォルダ、項目bのフォルダ、項目cのフォルダ,・・・内の各画像データを、ファイル名に基づいて結びつけることができなくなり、個人情報を保護することが可能となる。
なお、帳票識別処理部12において、帳票A、帳票B、帳票Cのいずれであるかの識別ができなかった画像データや、必須事項の記載枠21,22,23,24内に情報が記載されていることを確認できなかった画像データは、中央制御部10内のNGフォルダ16内に蓄積される。NGフォルダ16内に蓄積されたフォルダは、手動操作により画面に表示させ、画像データを目視で確認する。記載不備のある帳票は、別のフォルダに保存しあるいは廃棄し、申込者に再度帳票へ記載してもらうなどの対応に移行する。画像データを目視で確認し、記載不備の無い帳票であることが確認できたときには、手動操作、すなわちキー入力やマウス入力などにより、個人情報に関する記載枠の画像データを切り出し、切り出した画像データのファイル名を付して、項目フォルダ14のそれぞれのフォルダに分類して保存する。
暗号化処理部15で暗号化された画像データは、項目a,b,c,d,・・・ごとのデータ群としてまとめられる。すなわち、氏名の記載枠21の画像データのデータ群や、電話番号の記載枠22の画像データのデータ群としてまとめられる。これら画像データのデータ群は、テキストデータに変換される。このテキストデータへの変換は、オペレータが、記載枠21や記載枠22の画像を見ながら、氏名や電話番号などの情報をキーで入力することで行ってもよいし、切り取った画像データに表されている文字や数字を解読できるソフトウエアを使用し、文字や数字のテキストデータに自動変換してもよい。
画像データを元に入力または変換されたテキストデータのファイル名には、前述のように暗号化処理されたファイル名が引き続き使用される。したがって、テキストデータ化された氏名と、テキストデータ化された電話番号とを直接に結び付けることができず、またはどの住所が対応するのかを結びつけることもできない。よって、各帳票に記載された個人情報を保護でき、しかも帳票に申込者が手書きした情報を、テキストデータ群としてデータベース化できる。
また、それぞれの申込者が帳票に記載した内容をデータベースから知る必要があるときには、各項目ごとに付された暗号化されたファイル名を、復号処理して規則性を有する番号や記号のファイル名に戻す。このファイル名の復号化処理により、それぞれの帳票に記載された各記載事項のテキストデータを組み合わせて復元することができ、帳票へ記載された内容に対応したデータベースを構築することができる。
次に、前記帳票識別処理部12による帳票の識別動作を、図4と図5の記載および図6と図7に記載のフローチャートに基づいて説明する。以下においては、フローチャートでの「ステップ1,ステップ2,・・・」を「ST1,ST2,・・・」と記載する。また、以下では、帳票Aの画像データが得られているときを例として説明するが、これは帳票Bや帳票Cの画像データの処理の場合も同じである。
帳票が白色の紙に罫線などが印刷されたものである場合、画像読取機2a,2bで読み取られた帳票の画像データは、基本的には面内が白い部分と黒い部分とを有しており、黒い部分を所定のしきい値を用いて認識することにより、2値化されたデータ群として処理できる。
図3と図4に示すように、帳票Aは左側縁31と右側縁32、下側縁33と上側縁34を有しており、この帳票Aを画像読取機で読み取った画像データの大きさは、ほぼ左側縁31と右側縁32および下側縁33と上側縁34の輪郭で囲まれた範囲と一致している。帳票識別処理部12では、画像データを絶対座標上で処理することで、罫線の検出などが行われる。
まず、帳票に印刷されている基準枠20Aの左端部において縦方向に延びる罫線である縦基準線41を検索する。この縦基準線41の検索では、最初に画像データが帳票Aに関するものであると予測する。この場合に、画像データ内の絶対座標上において、縦基準線41の上端Aと縦基準線41の下端Bがどの座標範囲内に位置しているかを予測できる。この予測のもとに、図6のST1では、図4に示すように、上端Aが存在していると予測される位置から−Y側へ所定の距離(例えば数十ピクセルから数百ピクセル)の位置を起点として、さらに縦方向にδy1の範囲(例えば数十ピクセルから数百ピクセル)で、さらに、縦基準線41が存在していると予測できる位置を基準として±X方向へδx1の範囲(例えば数十ピクセルから数百ピクセル)に、黒と判断されるドットの列が存在しているか否かを検出する。
画像データ上での罫線は、ドット列である。そこで、δy1とδx1の範囲において、Y方向に並ぶドットがどの頻度で存在しているかを検出し、ドットの検出頻度が所定のしきい値を越えたときに、δy1とδx1の範囲内に、縦基準線41の一部である線分41aが存在していると判断する。なお、このときのδy1とδx2は、画像データ上での絶対座標で特定される。
図6のST2では、縦基準線41の下端Bが存在している位置を予測し、その位置から+Y方向へ所定の距離(例えば数十ピクセルから数百ピクセル)離れた位置を起点とし、さらに+Y方向にδy2の範囲で、且つ±X方向へδx2の範囲において(δy2とδx2は、例えば数十ピクセルから数百ピクセル)、縦向きの罫線が存在しているかを前記と同様に検出する。δy2とδx2で囲まれた範囲内に、Y方向へ延びる罫線が存在しているときには、縦基準線41の一部である線分41bが存在していると判断する。
図4に示すように設定されたδy1およびδx1で囲まれた範囲、およびδx2とδy2で囲まれた範囲に、縦向きの罫線を検出できないときには、この画像データが帳票Aに関するものでない確率が高い。この場合には、図2(B)に示す帳票Bの基準枠20Bの縦基準線が存在していること想定し、この縦基準線の上端A1または下端B1の存在が予測される位置を基準として絶対座標上で範囲を絞り、その中に縦向きの罫線が存在しているか否かを検出する。このときに、縦向きの罫線が検出されれば、画像データが帳票Bに関するものであると類推してその後の処理を継続する。上端A1の存在が予測される位置よりも下側に線分が存在しておらず、または下端B1の存在が予測される位置よりも上側に線分が存在していないときには、帳票Bの画像データではない確率が高い。この場合は、帳票Cの基準枠20Cの存在を想定し、この基準枠20Cの縦基準線の上端A2および下端B2を基準として絶対座標上で範囲を絞り、その範囲内に、縦基準線の一部が存在しているか否かを検出する。
図6のST3において、前記帳票Aの基準枠20Aの縦基準線41、帳票Bの基準枠20Bの縦基準線、帳票Cの基準枠20Cの縦基準線のいずれもが検出できないと判断されたときは、ST4において、処理できない画像データであると判断し、図1に示すNGフォルダ16に画像データを転送する。
前記ST3において、帳票Aの基準枠20Aの縦基準線41の一部である線分41aと線分41bが存在していると判断されたときは、ST5に移行する。これは、帳票Bの基準枠20Bの縦基準線の一部や、帳票Cの基準枠20Cの縦基準線の一部を検出できたときも同じである。
ST5では、図4に示す線分41aと線分41bとを結ぶ線である縦基準線41が、Y軸に対して傾きを有しているか否かを検出する。この検出は、線分41aの+Y側の端部の(X座標,Y座標)である(X1,Y1)と、線分41bの−Y側の端部の(X座標,Y座標)である(X2,Y2)から求められる。縦基準線41のY軸に対する傾き角度θは、θ=tan−1{(X1−X2)/(Y1−Y2)}で求めることができ、X1=X2であれば傾き角度θはゼロである。ST5において、前記傾き角度θが許容範囲を越えているときには、ST6に移行し、前記傾き角度θがゼロになる向きに、画像データの向きを修正する。この修正は、画像データ全体を回転させることで行われる。
ST6の傾き補正の後に、ST7とST8において、前記ST1と前記ST2と同様に、δx1とδY1で囲まれる範囲内に位置する前記線分41a、およびδx2とδy2で囲まれる範囲内に位置する前記線分41bを再び検出する。さらに、ST9において、縦基準線41と、Y軸との傾き角度θが許容範囲以内に補正されたか否かを検出する。このように傾き角度の補正を所定回数(図6では2回)行っても、縦基準線41の傾きが解消されない場合には、ST10に移行し、その画像データをNGフォルダ16に移行させる。
ST5またはST9において、前記傾き角度θが許容範囲内であると判断されると、ST11とST12に移行する。ST12とST13では、帳票Aの基準枠20Aの下側に位置する横基準線42を検出する。この検出手法は、縦基準線41を検出した手法と実質的に同じであり、基準枠20Aで位置を想定できるB点から所定の距離を空けた位置においてδx3とδy3で囲まれた領域内に線分42aが存在しているか否かを検出する。また、位置を想定できるC点から所定距離を空けた位置においてδx4とδy4で囲まれた領域内に線分42bが存在しているか否かを検出する。
ST13において、横基準線42の線分42aと線分42bが検出できないと判断したときには、ST14に移行して、その画像データをNGフォルダ16に移行させる。ST13において、基準枠20Aの下側に位置する横基準線42が検出されたら、図7のST15とST16に移行し、基準枠20Aの右側においてY方向に延びる縦基準線43が存在しているか否かを検出する。
この時点では、既に左側の縦基準線41の位置が解っており、しかも縦基準線41のY軸に対する傾きも補正されている。よって、縦基準線41から+X方向へ予め知られている距離XLの部分またはその付近を検索することで、縦基準線43が存在しているか否かを検出できる。すなわち、前記距離XLの部分またはその付近において、C点から+Y方向へ所定距離だけ離れたδy6の範囲に、線分43bが存在しているかを検出し、D点から−Y方向へ所定距離だけ離れたδy5の範囲に線分43aが存在しているかを検出する。ここでは、帳票Aの画像データの分析に関して説明しているが、帳票Bや帳票Cの画像データの場合も、同様にして縦基準線43を検出することができる。
ST17において、縦基準線43の線分43a,43bが検出できないときには、ST18に移行し、画像データがNGフォルダ16に転送される。
ST17において、縦基準線43の線分43aと線分43bを検出できたときには、ST19とST20に移行して、基準枠20Aの上方に位置する横基準線44が存在しているか否かを検出する。この検出時には、下側の横基準線42の位置が解っている。よって、下側の横基準線から+Y方向へ所定距離YLだけ離れた位置またはその付近を検索し、点Aから所定距離だけ離れたδx5の範囲内に線分44aが存在しているかを検出し、同様にD点から所定距離だけ離れた位置のδx6の範囲内に線分44bが存在しているか否かを検出する。
ST21において、線分44a,44bが検出されなかったら、ST22に移行し、画像データをNGフォルダ16に保存する。
ST21において、上方の横基準線44の一部である線分44aおよび線分44bが検出された時点で、基準枠20Aを構成する縦基準線41、横基準線42、縦基準線43および横基準線44の位置を認識でき、その結果、基準枠20AAの4箇所の各点A,B,C,Dの位置も、絶対座標上で特定できる。
なお、前記フローチャートでは、基準枠20Aの基準線を検出する順番を、縦基準線41、横基準線42、縦基準線43および横基準線44の順としたが、この順番以外で検出してもよい。
上記のように、4つの基準線41,42,43,44の位置を特定し、前記各各点A,B,C,Dを特定して、基準線41,42,43,44で囲まれた基準枠20Aの形状を認識することにより、この画像データがどの帳票に関するものであるのかをかなり高い確率で類推できる。この実施の形態では、前記基準線41,42,43,44を検出できた時点で、画像データが帳票Aに関するものであることをかなり高い確率で類推できる。
上記のように画像データが帳票Aに関するものであると類推した後に、さらにST31以下では、この画像データが帳票Aに関するものであるかの判定を行う。中央制御部10内の記憶部には、帳票Aに印刷されている各罫線の位置が、各基準線41,42,43,44を基準位置とする相対座標で記憶されている。ST31では、画像データ上で検出された各基準線41,42,43,44の絶対座標位置と、記憶されていた前記相対座標とから、それぞれの罫線の座標位置を、画像データ上での絶対座標に換算することができる。この絶対座標データに基づいて、画像データの確認を行う。
この画像データの確認動作は、ST31で換算された罫線の絶対座標位置のデータに基づいて、画像データ内に実際にその罫線が存在しているか、さらにはこの罫線で囲まれた枠が存在しているか否かを確認する。この確認は、ST32において、いずれかの枠の内部の上端に位置する横線と下端に位置する横線を検出する。また、ST33では、その枠の内部の左側に位置する縦線と右側に位置する縦線を検出する。ST34では、ST32とST33の検索の結果、帳票Aにおいて、本来存在しているべき場所に枠を構成する罫線が存在していたか否かを判断する。ST34で本来存在しているべき罫線(枠線)が存在していないと判断したら、ST35に移行し、その画像データをNGフォルダ16に移行する。
ST34において、帳票Aにおいて本来存在しているべき罫線(枠線)を検出できたら、ST36に移行し、ST32とST33の罫線検出を指定された回数だけ繰り返す。この罫線検出の回数(どの罫線を検査するか)は、検査する帳票の種類に応じて予め設定されている。
例えば、ST21までのフローで基準線41,42,43,44を検出でき、基準枠20Aの形状と位置が特定された後の、最初のST32とST33において、基準枠20Aの上方に位置する2つの枠50,55の少なくとも一方が存在しているか否かを検出する。例えば、枠50を検出するときには、ST32において、上側の横線51と下側の横線52を検出し、ST33において、左側の縦線53と右側の縦線54を検出する。そして、ST34では、4つの罫線51,52,53,54が検出されたか否かに基づいて枠50が存在しているか否かを確定する。
前記のように、基準枠20Aの外にある別個の枠50,55が存在するか否かを検出することにより、画像データが帳票Aに関するものであるのか(または帳票Bや帳票Cに関するものであるのか)を、さらに高い精度で確定できる。
上記枠50,55の検索で、帳票の種別をかなり高い確率で特定できるが、この実施の形態では、前記枠50,55の検出に加え、さらに基準枠20Aの内部において罫線で区切られた枠のうちの、すくなくとも1つが存在するか否かを検索している。例えば、図3に示す帳票Aの基準枠20A内の、いずれかの枠23と枠27が存在しているか否かを検出する。すなわち、基準枠20A内において典型的な特徴を有する枠23,27の上端と下端の横線をST32で検出し、前記枠23,27の左側と右側の縦線をST33で検出する。ST34において、これら枠23,27の罫線が、正規の位置に存在していることを確認できれば、画像データが帳票Aに関するものであることを、さらに高い確率で特定できる。
さらに、この実施の形態では、ST41以下において、画像データ内に個人情報として切り出すべき記載枠が全て存在しているか否かの検出を行っている。図3に示している帳票Aの例では、個人情報の保護のために切り出すべき記載枠は、氏名の記載枠21、電話番号の記載枠22、住所の記載枠23および口座番号の記載枠24、E−メールアドレスの記載枠25、および職業の記載枠26である。ST41では、前記各記載枠21,22,23,24,25,26の上側の横線と下側の横線が正規の位置に存在しているかを検出し、ST42において、前記各記載枠21,22,23,24,25,26の左側の縦線と右側の縦線が正規の位置に存在しているかを検出する。ST45において、前記各記載枠の検出動作が全ての枠に行き渡るように繰り返される。
ST43において、前記各記載枠21,22,23,24,25,26のいずれかが正規の位置に存在していないと判断されると、ST44において、その画像データがNGフォルダ16に移行させられる。ST43において、切り出すべき記載枠であるそれぞれの記載枠21,22,23,24,25,26が正規の座標位置に存在していると判断し、ST45において、全ての記載枠21,22,23,24,25,26に関する検出が完了すると、この時点で、画像データが帳票Aに関するものであると特定でき、よって帳票の識別動作を完了する。
なお、この実施の形態では、さらに、帳票Aの必須記載事項である、氏名の記載枠21、電話番号の記載枠22、住所の記載枠23および口座番号の記載枠24に、実際に記載がなされているかの検出を行っている。あるいは、前記切り出すべき各記載枠21,22,23,24,25,26の全ての枠内に、実際に記載がなされているかの確認を行うこともできる。
図5は、住所の記載枠23内に実際に記載がなされているか否かを検出する方法を示している。
前記記載枠23内において、Y方向に所定の幅W内において、画像データを+X方向に検索し、次に検索位置を−Y側にずらし、その位置で+X方向へ検索する。この検索を幅Wの全域において行う。記載枠23内には、予め「都」「府」「県」「市」「町」「村」などの文字が印刷されている。したがって、記載枠23内に何も書かれていなくても、前記検索により、黒と判定される部分が所定の面積率で存在する。また記載枠23内に実際に、県名や市名が手書きされていると、前記検索によって黒と判定される部分の面積がさらに広くなる。よって、前記幅Wの範囲内で、画像データのうちの黒と判定される部分の面積の率が所定値を超えた場合には、前記記載枠23内に所定の情報が記入されていると判断する。
必須の記載事項の記載枠内のいずれかに、情報が記入されていないと判断した場合には、その画像データをNGフォルダ16に移行させる。
以上の各種検索で、帳票の種別を確定でき、さらに必要な記載事項が記入されていると判断されたら、図1に示す画像切り出し処理部13により、個人情報となる各記載枠内の画像データが、切り出される。
このデータの切り出し箇所は、画像データで検出された罫線で囲まれた記載枠単位で行われる。この時点で、画像データは、その傾きが補正されており、さらに、切り出すべき記載枠21,22,23,24,25,26を囲む罫線の位置も絶対座標上で認識されている。よって画像データのどの部分がどの個人情報に対応しているのかを理解でき、この記載枠を画像データから部分的に取り出すことができる。前記切り出し処理が、全ての記載枠について完了するまで繰り返して行われる(ST52)。そして、部分的に切り出された画像データは、図1に示す項目フォルダ14のそれぞれの項目フォルダ内に保存される。
そして、前述のように、項目フォルダ14に保存された切り出し画像データの記載内容であるテキストデータとされ、このテキストデータが暗号化されたファイル名により保存される。
本発明の実施の形態の帳票処理装置、 (A)(B)(C)は、各帳票の平面図、 帳票Aの平面図、 帳票Aの罫線の検索動作を示す説明図、 記載枠内に記載が成されているか否かの検索動作を示す説明図、 帳票の識別処理動作および切り出し処理動作を示すフローチャート、 帳票の識別処理動作および切り出し処理動作を示すフローチャート、
符号の説明
1 帳票処理装置
2a,2b 画像読取機
3 入力フォルダ
10 中央制御部
11 画像自動取得部
12 帳票識別処理部
13 画像切り出し処理部
14 項目フォルダ
15 暗号処理部
16 NGフォルダ
20A,20B,20C 基準枠
21,22,23,24,25,26,27 記載枠
41,42,43,44 基準線
50,55 枠

Claims (4)

  1. 複数種類の帳票の画像データが保存された画像データ保存部(3)と、前記画像データ保存部(3)から取り出された画像データがどの種類の帳票であるかを識別する帳票識別処理部(12)とを有しており、
    複数種類の前記帳票のそれぞれが、罫線で囲まれた基準枠(20A,20B,20C)を有し、
    前記帳票識別処理部(12)では、それぞれの画像データ毎に、前記基準枠(20A)を構成する基準線(41)の端部(A,B)が存在すると予測される位置の近傍の複数箇所において、所定範囲(δy1,δy2)内に、前記基準線(41)の一部が線分(41a,41b)として存在しているか否かを検出し、前記線分(41a,41b)が検出されたときに、前記線分(41a,41b)の端部の座標位置から、画像データ上での基準線(41)の傾きを計算し、
    前記基準線(41)の傾きを修正した後に、前記基準枠(20A)を構成する他の基準線(42,43,44)を検出し、
    それぞれの帳票において固有の位置に前記基準枠(20A,20B,20C)が存在しているか否かを検出して、その画像データがどの種類の帳票に関するものであるかを識別することを特徴とする帳票処理装置。
  2. 前記基準枠(20A)を検出した後に、この基準枠(20)を構成する少なくとも2つの基準線(41,42)を基準として、所定距離だけ離れた位置に罫線が存在しているか否かを検出し、この罫線が検出されたときに、その画像データがどの種類の帳票に関するものであるかを識別する請求項記載の帳票処理装置。
  3. 前記基準枠(20A)を基準として、この基準枠(20A)と離れた位置にある他の枠(50,55)を検出し、前記他の枠(50,55)が規定された位置に存在していることが検出されたときにその画像データがどの種類の帳票に関するものであるかを識別する請求項記載の帳票処理装置。
  4. 前記基準枠(20A)を形成する基準線(41)を基準として、この基準枠(20A)内に位置する少なくともひとつの他の枠(23,27)を検出し、前記他の枠(23,27)が規定された位置に存在していることが検出されたときにその画像データがどの種類の帳票に関するものであるかを識別する請求項記載の帳票処理装置。
JP2006184857A 2006-07-04 2006-07-04 帳票処理装置 Expired - Fee Related JP4864574B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006184857A JP4864574B2 (ja) 2006-07-04 2006-07-04 帳票処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006184857A JP4864574B2 (ja) 2006-07-04 2006-07-04 帳票処理装置

Publications (2)

Publication Number Publication Date
JP2008015702A JP2008015702A (ja) 2008-01-24
JP4864574B2 true JP4864574B2 (ja) 2012-02-01

Family

ID=39072667

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006184857A Expired - Fee Related JP4864574B2 (ja) 2006-07-04 2006-07-04 帳票処理装置

Country Status (1)

Country Link
JP (1) JP4864574B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016185557A1 (ja) * 2015-05-19 2016-11-24 楽天株式会社 情報処理装置、情報処理方法、プログラム
JP6734171B2 (ja) * 2016-09-29 2020-08-05 グローリー株式会社 紙葉類集計処理システム及び紙葉類集計処理方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07220023A (ja) * 1994-01-31 1995-08-18 Hitachi Ltd 表認識方法及びその装置
JP2004334913A (ja) * 2004-08-19 2004-11-25 Matsushita Electric Ind Co Ltd 帳票認識装置及び帳票認識方法
JP2006127451A (ja) * 2004-09-30 2006-05-18 Oki Electric Ind Co Ltd 帳票処理装置

Also Published As

Publication number Publication date
JP2008015702A (ja) 2008-01-24

Similar Documents

Publication Publication Date Title
JP5500480B2 (ja) 帳票認識装置及び帳票認識方法
US5040226A (en) Courtesy amount read and transaction balancing system
JP4347677B2 (ja) 帳票ocrプログラム、方法及び装置
EP2220590A1 (en) A method for processing optical character recognition (ocr) data, wherein the output comprises visually impaired character images
JP2008204226A (ja) 帳票認識装置およびそのプログラム
JP2016048444A (ja) 帳票識別プログラム、帳票識別装置、帳票識別システム、および帳票識別方法
US20140268250A1 (en) Systems and methods for receipt-based mobile image capture
JP2013073439A (ja) 文字認識装置及び文字認識方法
JP4864574B2 (ja) 帳票処理装置
JP5630689B2 (ja) 文字認識方法及び文字認識装置
US6694059B1 (en) Robustness enhancement and evaluation of image information extraction
KR20180126352A (ko) 이미지로부터 텍스트 추출을 위한 딥러닝 기반 인식장치
JP3573945B2 (ja) フォーマット認識装置及び文字読み取り装置
JP2008017053A (ja) 帳票処理装置
JP5998090B2 (ja) 画像照合装置、画像照合方法、画像照合プログラム
JP2004164674A (ja) フォーマット認識装置及び文字読み取り装置
JP4347675B2 (ja) 帳票ocrプログラム、方法及び装置
JPWO2010113217A1 (ja) 文字認識装置及び文字認識方法
JP4810853B2 (ja) 文字画像切出装置、文字画像切出方法およびプログラム
JP5134383B2 (ja) Ocr装置、証跡管理装置及び証跡管理システム
US7133556B1 (en) Character recognition device and method for detecting erroneously read characters, and computer readable medium to implement character recognition
JP5169648B2 (ja) 原画像探索装置及び原画像探索プログラム
JPH10222587A (ja) 帳票類の自動判別方法及び装置
JP4221960B2 (ja) 帳票識別装置及びその識別方法
EP4145403A1 (en) Systems and methods for extracting, digitizing, and using engineering drawing data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110921

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111018

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111109

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141118

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees