JP5862396B2 - 帳票判別装置及びプログラム - Google Patents

帳票判別装置及びプログラム Download PDF

Info

Publication number
JP5862396B2
JP5862396B2 JP2012065774A JP2012065774A JP5862396B2 JP 5862396 B2 JP5862396 B2 JP 5862396B2 JP 2012065774 A JP2012065774 A JP 2012065774A JP 2012065774 A JP2012065774 A JP 2012065774A JP 5862396 B2 JP5862396 B2 JP 5862396B2
Authority
JP
Japan
Prior art keywords
binarized data
data
logical operation
area
entry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012065774A
Other languages
English (en)
Other versions
JP2013196611A (ja
Inventor
裕之 金子
裕之 金子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2012065774A priority Critical patent/JP5862396B2/ja
Publication of JP2013196611A publication Critical patent/JP2013196611A/ja
Application granted granted Critical
Publication of JP5862396B2 publication Critical patent/JP5862396B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)

Description

本発明は、帳票判別装置及びプログラムに関する。
帳票とその添付文書(枚数不定)を1組として、複数組を束ねてスキャンを行い、スキャン画像を文書管理システムに登録するときに、帳票と添付文書の組み合わせで1文書になるように、帳票でスキャン画像を区切るニーズは多い。
そのため、従来、バーコードやQRコード(登録商標)などの識別情報を用いずに、帳票の種類を自動的に判別する技術として、帳票の枠の位置などの特徴量を比較して、予め登録された帳票と一致するかどうかで帳票を判別する帳票判別装置が提案されている(例えば、特許文献1参照。)。
特開2001−283152号公報
しかし、従来の帳票判別装置では、枠の少ない帳票に対しては、特徴量が少なくなるため、帳票の判別精度が落ちることがある。
本発明の目的は、枠や罫線を有していない帳票でも予め付与された識別情報に依らずに帳票の判別が可能な帳票判別装置及びプログラムを提供することにある。
本発明の一態様として、以下の帳票判別装置及びプログラムを提供する。
[1]既知の帳票の記入欄が未記入の第1の画像、前記既知の帳票の前記記入欄に既知のパターンが記入された第2の画像、及び判別対象の第3の画像をそれぞれ複数の領域に分割し、前記領域毎に2値化して第1、第2及び第3の2値化データを生成する生成手段と、前記第1、第2及び第3の2値化データ間で論理演算を行い、前記論理演算の結果に基づいて前記判別対象に対して帳票の判別を行う判別手段と、を備えた帳票判別装置。
[2]前記判別手段は、前記第1及び第3の2値化データ間で論理演算を行い、前記既知の帳票の定型部分の一致性を示す第1の指数を求め、前記第2及び第3の2値化データ間で論理演算を行い、前記既知の帳票の定型部分以外の領域の一致性を示す第2の指数を求め、前記第1及び第2の指数に基づいて前記帳票の判別を行う前記[1]に記載の帳票判別装置。
[3]前記判別手段は、前記第1、第2、及び第3の2値化データ間で論理演算を行い、前記記入欄に記入された前記領域の数に対応する第1の度数を求め、前記第1及び第2の2値化データ間で論理演算を行い、前記記入欄の前記領域の数に対応する第2の度数を求め、前記第1の度数と前記第2の度数との関係、及び前記第1及び第2の指数に基づいて前記帳票の判別を行う前記[2]に記載の帳票判別装置。
[4]既知の複数種の帳票について前記生成手段によって生成された複数種の前記第1及び第2の2値化データを記憶する記憶手段をさらに備え、前記判別手段は、前記複数種の第1及び第2の2値化データから選択した前記第1及び第2の2値化データ、及び前記第3の2値化データ間で論理演算を行い、前記論理演算の結果に基づいて前記判別対象に対して帳票の判別を行う前記[1]乃至[3]のいずれかに記載の帳票判別装置。
[5]前記生成手段は、前記第1、第2及び第3の画像をそれぞれ第1のサイズと前記第1のサイズよりも小さい第2のサイズの複数の領域に分割して2つの前記第1、第2及び第3の2値化データを生成し、前記判別手段は、前記第1のサイズの領域に分割されて生成された前記第1、第2及び第3の2値化データ間の前記論理演算を行い、前記帳票の判別を行えなかったとき、前記第2のサイズの領域に分割されて生成された前記第1、第2及び第3の2値化データ間の前記論理演算を行い、前記帳票の判別を行う前記[1]乃至[4]のいずれかに記載の帳票判別装置。
[6]既知の帳票の記入欄が未記入の第1の画像、前記既知の帳票の前記記入欄に既知のパターンが記入された第2の画像、及び判別対象の第3の画像をそれぞれ複数の領域に分割し、前記領域毎に2値化して第1、第2及び第3の2値化データを生成する生成手段と、前記第1、第2及び第3の2値化データ間で論理演算を行い、前記論理演算の結果に基づいて前記判別対象に対して帳票の判別を行う判別手段としてコンピュータに実行させるプログラム。
請求項1、6に係る発明によれば、枠や罫線を有していない帳票でも予め付与する識別情報に依らず、帳票の記入欄である記入領域の情報を用いて、帳票の判別が可能になる。
請求項2に係る発明によれば、定型部分の一致性と、定型部分以外の領域(空白領域)の一致性の両方を用いることで、いずれか一方の一致性のみを用いる場合よりも高い精度で帳票の判別が可能になる。
請求項3に係る発明によれば、さらに記入欄に記入された領域の数に対応する第1の度数と記入欄の領域の数に対応する第2の度数との関係を用いることで、本構成を採用しない場合と比べて、定型部分が類似している帳票の誤判定を少なくすることができる。
請求項4に係る発明によれば、複数種の第1及び第2の2値化データを予め処理をして登録しておくことで、その都度2値化データを生成する場合と比べて、帳票の判別の高速化が図れる。
請求項5に係る発明によれば、比較する帳票データが数多く存在するときに、本構成を採用しない場合と比べて、比較する帳票データを絞り込みながら、計算量を少なくして帳票の判別を行うことができる。
図1は、本発明の第1の実施の形態に係る帳票判別装置の概略の構成例を示す図である。 図2(a)、(b)、(c)の上段は、それぞれ未記入帳票データ、記入済み帳票データ、スキャン画像の要部を示し、図2(a)、(b)、(c)の下段は、それらを2値化した2値化データを示す図である。 図3は、帳票解析部の動作の一例を示すフローチャートである。 図4は、制御部の帳票テンプレート作成部としての動作の一例を示すフローチャートである。 図5は、帳票フォーム判定部の動作の一例を示すフローチャートである。 図6は、帳票記入領域判定部の動作の一例を示すフローチャートである。
以下、本発明の実施の形態について図面を参照して説明する。なお、各図中、実質的に同一の機能を有する構成要素については、同一の符号を付してその重複した説明を省略する。
[第1の実施の形態]
図1は、本発明の実施の形態に係る帳票判別装置の概略の構成例を示す図である。この帳票判別装置1は、各種のプログラムやデータが記憶される記憶部2と、帳票の解析を行う帳票解析部3と、帳票のフォームを判定する帳票フォーム判定部5と、帳票の記入領域を判定する帳票記入領域判定部6と、帳票の種類を判別する帳票判別部7と、本装置1の各部を制御する制御部4とを有して概略構成されている。
制御部4には、帳票の判別対象を光学的に読み取る画像読取装置の一例としてのスキャナ8が接続されている。なお、帳票の判別対象は、スキャン画像に限られず、電子文書を印刷イメージに変換した画像でもよい。また、本帳票判別装置をスキャン機能、複写機能、プリント機能、ファックス送受信機能等の複数の機能と、情報の表示及び選択が可能なタッチパネルとを備えた複合機に適用してもよい。
ここで、帳票解析部3は、2値化データを生成する生成手段の一例である。帳票フォーム判定部5、帳票記入領域判定部6及び帳票判別部7は、帳票の判別を行う判別手段の一例である。これらの詳細については、後述する。
本帳票判別装置1は、帳票として定型の部分である罫線、枠、見出し、タイトル等を含むフォームの部分と、当該フォームで指定される記入欄である記入領域とを区別して処理を行う。なお、帳票として定型の部分は上記に限られず、罫線、枠等を有していないものも含まれる。また、本帳票判別装置1で判別する帳票データは解像度、画素数から求められる寸法が一致するものをそれぞれ比較の対象とする。
記憶部2は、制御部4が本装置1を制御するための後述する図3〜図6に示すようなプログラム20と、登録データとしての帳票テンプレート21と、帳票の判別対象を帳票解析部3で2値化された判別対象2値化データ200Cとを記憶する。また、記憶部2には、帳票テンプレート21として、帳票の種類毎に、識別IDに関連付けて未記入帳票データ(図2(a)の上段参照)100A、記入済み帳票データ(図2(b)の上段参照)100B、未記入2値化データ(図2(a)の下段参照)200A、及び記入済み2値化データ(図2(b)の下段参照)200Bが記憶される。
ここで、「未記入帳票データ」とは、既知の帳票の記入欄に何も記入されていない帳票データ(第1の画像)をいう。「記入済み帳票データ」とは、既知の帳票の記入欄の領域の全体に既知の文字、記号、図形等のパターンが記入された帳票データ(第2の画像)をいう。なお、帳票データ(第2の画像)は、記入欄の領域は予め記入される領域を想定して、パターンを記入する範囲を指定した帳票データである。「未記入2値化データ」とは、未記入帳票データを帳票解析部3で2値化されたデータ(第1の2値化データ)をいう。「記入済み2値化データ」とは、記入済み帳票データを帳票解析部3で2値化されたデータ(第2の2値化データ)をいう。「判別対象2値化データ」とは、スキャナ8で読み取って得られたスキャン画像(第3の画像)を帳票解析部3で2値化されたデータ(第3の2値化データ)をいう。また、「記入欄」は、本特許請求の範囲及び本明細書において、文字等を記入する可能性のある領域をいい、枠で囲まれていない場合や罫線で記入箇所を示されていない場合も含む。
帳票解析部3は、帳票の画像を複数の領域(以下「分割領域」という。)に分割する領域分割部30と、帳票の画像を分割領域毎に2値に変換して2値化データを生成する2値化部31とを備える。具体的には、領域分割部30は、図2に示されるように帳票の画像を縦方向、横方向にそれぞれ一定の間隔でメッシュ状(格子状)に複数の分割領域に分割する。分割領域は、記入される文字のサイズとほぼ等しいか小さい方が好ましい。2値化部31は、分割領域毎に黒画素の数を計数し、黒画素の数が閾値(例えば3つ)未満のときは、当該分割領域を何も記載されていない「空白領域」と判定し、「空白領域」に「0」を割り当て、黒画素の数が閾値(例えば3つ)以上のときは、当該分割領域を何かが記載された「記載領域」と判定し、「記載領域」に「1」を割り当てることで2値化データを生成する。
制御部4は、CPU等を有して構成され、本装置1の各部を制御するとともに、未記入帳票データと記入済み帳票データを帳票解析部3で2値化させて未記入2値化データ及び記入済み2値化データを帳票テンプレート21として作成する帳票テンプレート作成部としても機能する。
帳票フォーム判定部5は、後述のフローに従って、未記入2値化データ200A及び判別対象2値化データ200C間で論理演算を行い、既知の帳票のフォームの一致性を示す帳票不一致指数(第1の指数)を求め、記入済み2値化データ200B及び判別対象2値化データ200C間で論理演算を行い、既知の帳票のフォーム以外の領域の一致性を示す帳票不一致指数(第2の指数)を求め、両者の帳票不一致指数を加算して最終の帳票不一致指数を求める。
具体的には、帳票フォーム判定部5は、未記入2値化データ200Aと判別対象2値化データ200Cとの論理積(AND)をとるAND回路50と、AND回路50の出力データ50aと未記入2値化データ200Aとの排他的論理和(XOR)をとるXOR回路51Aと、記入済み2値化データ200Bと判別対象2値化データ200Cとの論理和(OR)をとるOR回路52と、OR回路52の出力データ52aと記入済み2値化データ200Bとの排他的論理和(XOR)をとるXOR回路51Bと、一方のXOR回路51Aの出力データ(第1の指数)51aと、他方のXOR回路51Bの出力データ(第2の指数)51bとの加算値を帳票不一致指数として帳票判別部7に出力する帳票不一致指数カウンタ53とを備える。
帳票記入領域判定部6は、後述のフローに従って、未記入2値化データ200A、記入済み2値化データ200B及び判別対象2値化データ200C間で論理演算を行い、記入欄に記入された分割領域の数に対応する記入領域一致度数(第1の度数)を求め、未記入2値化データ200A及び記入済み2値化データ200B間で論理演算を行い、記入欄の分割領域の数に対応する記入領域度数(第2の度数)を求め、記入領域一致度数と記入領域度数との関係、例えば記入領域一致度数/記入領域度数比=記入領域一致指数を求める。
具体的には、帳票記入領域判定部6は、記入済み2値化データ200Bと判別対象2値化データ200Cとの論理積(AND)をとるAND回路60と、AND回路60の出力データ60aと未記入2値化データ200Aとの排他的論理和(XOR)をとるXOR回路61Aと、未記入2値化データ200Aと記入済み2値化データ200Bとの排他的論理和(XOR)をとるXOR回路61Bと、XOR回路61Aの出力データ61aを記入領域一致度数として計数する記入領域一致度数カウンタ62と、XOR回路61Bの出力データ61bを記入領域度数として計数する記入領域度数カウンタ63と、記入領域一致度数カウンタ62が保持する記入領域一致度数を記入領域度数カウンタ63が保持する記入領域度数で除算して得られた記入領域一致指数64aを帳票判別部7に出力する除算回路64とを備える。
帳票判別部7は、帳票フォーム判定部5の判定結果と帳票記入領域判定部6の判定結果に基づいて帳票を判別する。具体的には、帳票判別部7は、帳票不一致指数カウンタ53が保持する帳票不一致指数53aと第1の閾値70とを比較し、その比較結果を出力する第1の比較回路71と、除算回路64が出力する記入領域一致指数64aと第2の閾値72とを比較し、その比較結果を出力する第2の比較回路73とを備える。
上記帳票解析部3、制御部4、帳票フォーム判定部5、帳票記入領域判定部6及び帳票判別部7は、それぞれ一部又は全部を再構成可能回路(FPGA:Field Programmable Gate Array)、特定用途向け集積回路(ASIC:Application Specific Integrated Circuit)等のハードウエア回路によって構成してもよい。また、帳票判別装置1のコンピュータにおいて後述する図3乃至図6に示すようなプログラムに従ってCPUが動作することで実現してもよい。
(帳票判別装置の動作)
次に、帳票判別装置1の動作の一例を、図2〜図6を参照して説明する。
図2(a)、(b)、(c)の上段は、それぞれ未記入帳票データ100A、記入済み帳票データ100B、スキャン画像100Cの要部を示し、図2(a)、(b)、(c)の下段は、上段のデータをそれぞれ帳票解析部3で2値化された未記入2値化データ200A、記入済み2値化データ200B、判別対象2値化データ200Cを示す。
図2(a)に示す未記入帳票データ100Aには、「お名前」の見出し120A、及び「様」の見出し120Bが予め記入され、「お名前」の見出し120Aと「様」の見出し120Bとの間に記入欄130が設けられ、記入欄130、すなわち記入される可能性のある領域は未記入になっている。
図2(b)に示す記入済み帳票データ100Bには、図2(a)に示す未記入帳票データ100Aと同様に、「お名前」の見出し120A、及び「様」の見出し120Bが予め記入され、「お名前」の見出し120Aと「様」の見出し120Bとの間に記入欄130が設けられ、記入欄130の領域のすべてに既知のパターン131として「※」が記載されている。
図2(c)に示すスキャン画像100Cには、図2(a)に示す未記入帳票データ100Aと同様に、「お名前」の見出し120A、及び「様」の見出し120Bが予め記入され、「お名前」の見出し120Aと「様」の見出し120Bとの間に記入欄130が設けられ、記入欄130の一部に「富士太郎」の氏名132が記入されている。
(1)帳票解析部の動作
図3は、帳票解析部3の動作の一例を示すフローチャートである。帳票解析部3の動作は、後述する(2)制御部の帳票テンプレート作成部としての動作、(3)帳票フォーム判定部の動作、(4)帳票記入領域判定部の動作において、サブルーチンとして実施されるものである。帳票解析部3は、制御部4から未記入帳票データ100A、記入済み帳票データ100B又はスキャン画像100Cが入力されると(S11)、領域分割部30は、入力された未記入帳票データ100A、記入済み帳票データ100B又はスキャン画像100Cをメッシュ状に複数の分割領域110に分割する(S12)。
2値化部31は、分割領域110毎に黒画素の画素数を計数する(S13)。計数した黒画素の画素数が予め定めた閾値以上か否かを判定する(S14)。黒画素の画素数が閾値未満のときは(S14:No)、当該分割領域110を空白領域と判定して当該分割領域110に「0」を割り当てる(S15)。黒画素の画素数が閾値以上のときは(S14:Yes)、当該分割領域110を記載領域と判定して当該分割領域110に「1」を割り当てる(S16)。
上記ステップS13〜S16を全ての分割領域110について実施すると(S17:Yes)、各分割領域110に割り当てた0/1からなる2値化データ200A、200B、200Cを出力する(S18)。
図2(a)に示す未記入帳票データ100Aの場合は、未記入2値化データ200Aの氏名記入行140の部分は、「00111100000000000000000000110」となっている。図2(b)に示す記入済み帳票データ100Bの場合は、記入済み2値化データ200Bの氏名記入行140の部分は、「00111111111111111111111110110」となっている。図2(c)に示すスキャン画像100Cの場合は、判別対象2値化データの氏名記入行140の部分は、「00111101111100000000000000110」となっている。
(2)制御部の帳票テンプレート作成部としての動作
図4は、制御部4の帳票テンプレート作成部としての動作の一例を示すフローチャートである。制御部4は、記憶部2から未記入帳票データ100Aを取得し(S21)、帳票解析部3に帳票解析を行わせる(S22)。帳票解析部3は、図3のフローチャートに示すように、未記入帳票データ100Aについて帳票解析を行い、図2(a)の下段に示すような0/1からなる未記入2値化データ200Aを生成する(S23)。制御部4は、帳票解析部3が生成した未記入2値化データ200Aを帳票テンプレート21として記憶部2に記憶する。
次に、制御部4は、記憶部2から記入済み帳票データ100Bを取得し(S24)、帳票解析部3に帳票解析を行わせる(S25)。帳票解析部3は、図3のフローチャートに示すように、記入済み帳票データ100Bについて帳票解析を行い、図2(b)の下段に示すような0/1からなる記入済み2値化データ200Bを生成する(S26)。制御部4は、帳票解析部3が生成した記入済み2値化データ200Bを帳票テンプレート21として記憶部2に記憶する。記憶部2には、同一の識別IDに対応して未記入2値化データ200A及び記入済み2値化データ200Bが記憶される。
(3)帳票フォーム判定部の動作
図5は、帳票フォーム判定部5の動作の一例を示すフローチャートである。制御部4の帳票テンプレート作成部としての動作により記憶部2には、帳票テンプレート21として未記入2値化データ200A及び記入済み2値化データ200Bが記憶されている。
制御部4は、スキャナ8で読み取られた図2(c)に示すようなスキャン画像100Cを入力し、記憶部2に記憶するとともに(S31)、そのスキャン画像100Cについて帳票解析部3に帳票解析を行わせる(S32)。帳票解析部3は、図3のフローチャートに示すように、スキャン画像100Cについて帳票解析を行い、図2(c)の下段に示すような0/1からなる判別対象2値化データ200Cを生成する。制御部4は、判別対象2値化データ200Cを記憶部2に記憶する。制御部4は、帳票不一致指数カウンタ53を初期化「0」する(S33)。
帳票フォーム判定部5は、記憶部2から未記入2値化データ200A及び判別対象2値化データ200Cを取得してそれらをAND回路50に入力し、それらの論理積(AND)を行毎にとる(S34)。AND回路50は、氏名記入行140の出力データ50aとして「00111100000000000000000000110」を出力する。
さらに、帳票フォーム判定部5は、AND回路50の出力データ50a及び未記入2値化データ200AをXOR回路51Aに入力し、それらの排他的論理和(XOR)を行毎にとる(S35)。XOR回路51Aは、氏名記入行140の出力データ51aとして「00000000000000000000000000000」を出力する。
次に、帳票フォーム判定部5は、XOR回路51Aの出力データ51aの「1」のビットの数を計数して帳票不一致指数カウンタ53に加算する(S36)。この場合、XOR回路51Aの出力データ51aは、すべてのビットが「0」であるので、「帳票不一致指数」に変更はない。この比較は、既知の帳票のフォームの一致性を判定することを目的としている。
次に、帳票フォーム判定部5は、記憶部2から記入済み2値化データ200B及び判別対象2値化データ200Cを取得してそれらをOR回路52に入力し、それらの論理和(OR)を行毎にとる(S37)。OR回路52は、氏名記入行140の出力データ52aとして「00111111111111111111111110110」を出力する。
さらに、帳票フォーム判定部5は、OR回路52の出力データ52a及び記入済み2値化データ200BをXOR回路51Bに入力し、それらの排他的論理和(XOR)を行毎にとる(S38)。XOR回路51Bは、出力データ51bとして「00000000000000000000000000000」を出力する。
帳票フォーム判定部5は、XOR回路51Bの出力データ51bの「1」のビットの数を帳票不一致指数カウンタ53に加算する(S39)。この場合、XOR回路51Bの出力データ51bは、すべてのビットが「0」であるので、「帳票不一致指数」に変更はない。この比較は、既知の帳票のフォーム以外の領域の一致性、つまり「空白領域」の一致性を判定することを目的としている。上記ステップS34〜S39を全ての行について実施すると(S40)、帳票不一致指数カウンタ53は、帳票不一致指数53aを帳票判別部7に出力する(S41)。以上の、帳票のフォームの一致性と「空白領域」の一致性を基に、行毎に比較した「帳票不一致指数」の結果が小さいほど一致性が高いこと、すなわち判別対象の帳票の種類が比較している帳票テンプレート21の帳票と同一である可能性が高いことを表す。
(4)帳票記入領域判定部の動作
図6は、帳票記入領域判定部6の動作の一例を示すフローチャートである。帳票記入領域判定部6は、判別対象2値化データ200Cを取得する(S51)。帳票記入領域判定部6は、記入領域一致度数カウンタ62を「0」に初期化し(S52)、記入領域度数カウンタ63を「0」に初期化する(S53)。
帳票記入領域判定部6は、記憶部2から記入済み2値化データ200Bを取得し、記入済み2値化データ200B及び判別対象2値化データ200CをAND回路60に入力し、それらの論理積(AND)を行毎にとる(S54)。AND回路60は、出力データ60aとして「00111101111100000000000000110」を出力する。
さらに、帳票記入領域判定部6は、記憶部2から未記入2値化データ200Aを取得し、その未記入2値化データ200AとAND回路60の出力データ60aをXOR回路61Aに入力し、それらの排他的論理和(XOR)を行毎にとる(S55)。XOR回路61Aは、氏名記入行140の出力データ61aとして「00000001111100000000000000000」を出力する。
帳票記入領域判定部6は、XOR回路61Aの出力データ61aの「1」のビットの数を計数して記入領域一致度数カウンタ62に加算する(S56)。この場合、XOR回路61Aの出力データ61aは、「1」のビットの数は「5」であるので、記入領域一致度数カウンタ62に「5」を加算する。この比較は、記入欄130に実際に記入されているか否かと記入欄130に実際に記入されている分割領域110の数を判定することを目的としている。
次に、帳票記入領域判定部6は、未記入2値化データ200A及び記入済み2値化データ200BをXOR回路61Bに入力し、それらの排他的論理和(XOR)を行毎にとる(S57)。XOR回路61Bは、氏名記入行140の出力データ61bとして「00000011111111111111111110000」を出力する。
帳票記入領域判定部6は、XOR回路61Bの出力データ61bの「1」のビットの数を計数して記入領域度数カウンタ63に加算する(S58)。この場合、XOR回路61Bの出力データ61bは、「1」のビットの数が「19」であるので、記入領域度数カウンタ63に「19」を加算する。この比較は、記入欄130の分割領域110の数を判定することを目的としている。
すべての行について判定が終わると(S59)、除算回路64は、記入領域一致度数カウンタ62が保持する「記入領域一致度数」Aを記入領域度数カウンタ63が保持する「記入領域度数」Bで除算して「記入領域一致指数」を算出し(S60)、算出結果の記入領域一致指数64aを出力する(S61)。この場合、「記入領域一致指数」は5/19=0.263となる。これは、記入欄の領域のうち、実際に記入されている領域の割合を表す。
帳票判別部7は、例えば、第1の比較回路71にて帳票不一致指数53aが第1の閾値70以下と判定し、かつ、第2の比較回路73にて記入領域一致指数64aが第2の閾値72以上と判定したときは、判別対象の帳票の種類は、帳票テンプレート21の帳票と同一と判別する。なお、帳票判別部7の判別方法は、上記に限られない。
(第1の実施の形態の効果)
本実施の形態によれば、以下の効果を奏する。
(ア)枠や罫線を有していない帳票でも予め付与された識別情報に依らずに帳票の判別が可能になる。
(イ)帳票のフォームの一致性を示す帳票不一致指数と、フォーム以外の領域(空白領域)の一致性を示す帳票不一致指数の両方を用いることで、いずれか一方の帳票不一致指数のみを用いる場合よりも高い精度で帳票の判別が可能になる。
(ウ)上記帳票不一致指数に加えて、記入欄130に記入された分割領域110の数に対応する記入領域一致度数と記入欄130の分割領域110の数に対応する記入領域一致度数との関係を用いることで、本構成を採用しない場合と比べて、定型部分が類似している帳票の誤判定を少なくすることができる。
(エ)また、本実施の形態では、画像を矩形に分割しているため、原稿が横書きでも縦書きでも、特に支障なく同じロジックで帳票を判別することが可能である。
なお、ここでの説明では帳票不一致指数と記入領域一致指数を続けて判定する流れで説明したが、最初に帳票不一致指数を判定して、登録済みの帳票の中から一致度の高いものに絞り込み、その後記入領域一致指数を判定することで、帳票判別処理の高速化を図ることも可能である。
[第2の実施の形態]
第2の実施の形態では、帳票解析部3は、未記入帳票データ100A、記入済み帳票データ100B及びスキャン画像100Cをそれぞれ第1のサイズと第1のサイズよりも小さい第2のサイズの複数の領域に分割して2種類の未記入2値化データ200A、記入済み2値化データ200B及び判別対象2値化データ200Cを生成し、帳票フォーム判定部5及び帳票記入領域判定部6は、第1のサイズの領域に分割されて生成された未記入2値化データ200A、記入済み2値化データ200B及び判別対象2値化データ200C間の論理演算を行い、帳票判別部7の判別結果として一致性が高い複数の帳票テンプレートが存在するなど、帳票テンプレートが絞り込めない、あるいは一意に定まらないとき、第2のサイズの領域に分割されて生成された未記入2値化データ200A、記入済み2値化データ200B及び判別対象2値化データ200C間の論理演算を行い、帳票判別部7が帳票の判別を行うようにしてもよい。なお、必ずしも帳票テンプレートが一意に定まらなくとも、例えば複合機のタッチパネルに一致性が高い順に判別結果を表示させ、利用者に選択させてもよい。
具体的には、第2の実施の形態は、記憶部2に、複数種類の帳票テンプレートについて、分割領域110の大きさを大中小など、複数の大きさで分割した未記入2値化データ200A及び記入済み2値化データ200Bを複数種類の帳票テンプレートごとにそれぞれ予め処理して登録しておき、帳票フォーム判定部5、帳票記入領域判定部6のフローを、大きな分割領域110で分割した判別対象2値化データ200Cから順に実行し、記憶部2に登録されている未記入2値化データ200A及び記入済み2値化データ200Bと比較を行う。そして、分割領域110の大きさを順に小さくして判定を繰り返し、一致性の高い帳票テンプレート21を順に絞り込んでいく。
例えば、帳票テンプレート21について、10×10、20×20、30×30、・・・70×70などの分割数で予め区分けしておく。最初は分割数の比較的小さなメッシュ(例えば分割数10x10など)で比較し、これで帳票テンプレート21を絞り込んでいく。例えば、3つの帳票テンプレート21まで絞り込んだとした場合には、3つの帳票テンプレート21が識別可能となるメッシュの分割数(例えば、70×70)で比較し、この比較で用いたメッシュの分割数で帳票の判別を行う。
なお、複数の大きさで分割した2値化データ200A、200Bを予め処理して登録しておくと記載したが、必要に応じて2値化データを生成するようにしてもよい。つまり、例えば、分割領域110の大きさを大中小で比較するときに、予め処理して登録しておくのは「大」、「中」とし、分割領域110の大きさが「中」で比較しても帳票テンプレートを絞り込めない場合に、「中」で比較して抽出された帳票テンプレートについて、分割領域110の大きさが「小」の2値化データを生成し、さらに比較する処理を実施して判別する構成としてもよい。
(第2の実施の形態の効果)
本実施の形態によれば、最初は分割数の小さいメッシュ(=少ないデータ量)で計算量を少なくして判定を実行し、絞り込んだ帳票テンプレート21に対してのみ分割数の大きいメッシュ(=多いデータ量)で詳細に判定をすることで、記憶部2に大量に帳票データが保存されているときでも、比較する帳票データを絞り込みながら、計算量を少なくして帳票の判別を行うことが可能になる。
[第3の実施の形態]
本実施の形態は、既知の複数種の帳票について複数種の未記入2値化データ200A及び記入済み2値化データ200Bを帳票テンプレート21として記憶部2に予め処理して登録しておき、帳票フォーム判定部5、帳票記入領域判定部6及び帳票判別部7は、記憶部2が記憶する複数種の未記入2値化データ200A及び記入済み2値化データ200Bから選択した未記入2値化データ200A及び記入済み2値化データ200B、及び判別対象2値化データ200C間で論理演算を行い、帳票の判別を行ってよい。
(第3の実施の形態の効果)
本実施の形態によれば、複数種の未記入2値化データ200A及び記入済み2値化データ200Bを予め処理して登録しておくことで、その都度2値化データを生成する場合と比べて、帳票の判別の高速化が図れる。
以上、本発明の実施の形態を説明したが、本発明は上記の実施の形態に限定されるものではなく、本発明の要旨を変更しない範囲内で種々の変形、実施が可能である。
(変形例1)
本実施の形態は、「記入欄」を「記入しなければいけない領域」と「記入してもよい領域」に分けて判定してもよい。これにより、「記入しなければいけない領域」の「記入領域一致指数」はより高くならなければいけないと判断できるので、帳票の一致性をより精度良く判定できる。さらに、「記入しなければいけない領域」が未記入であることを、操作パネル部で警告することも可能になる。
(変形例2)
スキャンで読み込んだ画像は、上下左右に画像がずれることがある。この場合、登録された帳票データとの比較のとき、スキャン画像の上下左右を数ブロックずらして、位置補正をすることで認識精度を向上することも可能になる。
(変形例3)
本発明は、上記実施の形態の論理演算に限らない。例えば、上記実施の形態では、帳票不一致指数が小さい程、帳票の一致性が高くなるように論理演算を行ったが、帳票一致指数が大きい程、帳票の一致性が高くなるように論理演算を行ってもよい。
また、例えば本発明の要旨を変更しない範囲内で、上記実施の形態の構成要素の一部を省くことが可能であり、上記実施の形態のフローにおいて、ステップの追加、削除、変更、入替え等が可能である。また、上記実施の形態で用いたプログラムをCD−ROM等のコンピュータ読み取り可能な記録媒体に記録して提供することもできる。
1…帳票判別装置、2…記憶部、3…帳票解析部(生成手段)、4…制御部、5…帳票フォーム判定部(判別手段)、6…帳票記入領域判定部(判別手段)、7…帳票判別部(判別手段)、8…スキャナ、20…プログラム、21…帳票テンプレート、30…領域分割部、31…2値化部、50…AND回路、50a…出力データ、51A、51B…XOR回路、51a、51b…出力データ、52…OR回路、52a…出力データ、53…帳票不一致指数カウンタ、53a…帳票不一致指数、60…AND回路、60a…出力データ、61A、61B…XOR回路、61a、61b…出力データ、62…記入領域一致度数カウンタ、63…記入領域度数カウンタ、64…除算回路、64a…記入領域一致指数、70…第1の閾値、71…第1の比較回路、72…第2の閾値、73…第2の比較回路、100A…未記入帳票データ、100B…記入済み帳票データ、100C…スキャン画像、110…分割領域、120A、120B…見出し、130…記入欄、131…パターン、132…氏名、140…氏名記入行、200A…未記入2値化データ、200B…記入済み2値化データ、200C…判別対象2値化データ

Claims (6)

  1. 既知の帳票の記入欄が未記入の第1の画像、前記既知の帳票の前記記入欄に既知のパターンが記入された第2の画像、及び判別対象の第3の画像をそれぞれ複数の領域に分割し、前記領域毎に2値化して第1、第2及び第3の2値化データを生成する生成手段と、
    前記第1、第2及び第3の2値化データ間で論理演算を行い、前記論理演算の結果に基づいて前記判別対象に対して帳票の判別を行う判別手段と、
    を備えた帳票判別装置。
  2. 前記判別手段は、前記第1及び第3の2値化データ間で論理演算を行い、前記既知の帳票の定型部分の一致性を示す第1の指数を求め、前記第2及び第3の2値化データ間で論理演算を行い、前記既知の帳票の定型部分以外の領域の一致性を示す第2の指数を求め、前記第1及び第2の指数に基づいて前記帳票の判別を行う請求項1に記載の帳票判別装置。
  3. 前記判別手段は、前記第1、第2、及び第3の2値化データ間で論理演算を行い、前記記入欄に記入された前記領域の数に対応する第1の度数を求め、前記第1及び第2の2値化データ間で論理演算を行い、前記記入欄の前記領域の数に対応する第2の度数を求め、前記第1の度数と前記第2の度数との関係、及び前記第1及び第2の指数に基づいて前記帳票の判別を行う請求項2に記載の帳票判別装置。
  4. 既知の複数種の帳票について前記生成手段によって生成された複数種の前記第1及び第2の2値化データを記憶する記憶手段をさらに備え、
    前記判別手段は、前記複数種の第1及び第2の2値化データから選択した前記第1及び第2の2値化データ、及び前記第3の2値化データ間で論理演算を行い、前記論理演算の結果に基づいて前記判別対象に対して帳票の判別を行う請求項1乃至3のいずれか1項に記載の帳票判別装置。
  5. 前記生成手段は、前記第1、第2及び第3の画像をそれぞれ第1のサイズと前記第1のサイズよりも小さい第2のサイズの複数の領域に分割して2つの前記第1、第2及び第3の2値化データを生成し、
    前記判別手段は、前記第1のサイズの領域に分割されて生成された前記第1、第2及び第3の2値化データ間の前記論理演算を行い、前記帳票の判別を行えなかったとき、前記第2のサイズの領域に分割されて生成された前記第1、第2及び第3の2値化データ間の前記論理演算を行い、前記帳票の判別を行う請求項1乃至4のいずれか1項に記載の帳票判別装置。
  6. 既知の帳票の記入欄が未記入の第1の画像、前記既知の帳票の前記記入欄に既知のパターンが記入された第2の画像、及び判別対象の第3の画像をそれぞれ複数の領域に分割し、前記領域毎に2値化して第1、第2及び第3の2値化データを生成する生成手段と、
    前記第1、第2及び第3の2値化データ間で論理演算を行い、前記論理演算の結果に基づいて前記判別対象に対して帳票の判別を行う判別手段としてコンピュータを実行させるためのプログラム。

JP2012065774A 2012-03-22 2012-03-22 帳票判別装置及びプログラム Expired - Fee Related JP5862396B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012065774A JP5862396B2 (ja) 2012-03-22 2012-03-22 帳票判別装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012065774A JP5862396B2 (ja) 2012-03-22 2012-03-22 帳票判別装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2013196611A JP2013196611A (ja) 2013-09-30
JP5862396B2 true JP5862396B2 (ja) 2016-02-16

Family

ID=49395413

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012065774A Expired - Fee Related JP5862396B2 (ja) 2012-03-22 2012-03-22 帳票判別装置及びプログラム

Country Status (1)

Country Link
JP (1) JP5862396B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7181445B2 (ja) 2017-11-30 2022-12-01 キヤノンマーケティングジャパン株式会社 情報処理装置、その制御方法とプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62177686A (ja) * 1986-01-31 1987-08-04 Toshiba Corp 光学的文字読取装置
JPH07117985B2 (ja) * 1991-06-28 1995-12-18 日本アビオニクス株式会社 パターン認識方法および装置
JPH09130521A (ja) * 1995-10-31 1997-05-16 Toshiba Corp テキストデータ出力ホワイトボード及びそのデータ出力方法
JP3090070B2 (ja) * 1996-11-26 2000-09-18 日本電気株式会社 帳票識別方法及び装置
JP3842006B2 (ja) * 2000-03-30 2006-11-08 グローリー工業株式会社 帳票類判別装置、帳票類判別方法、およびこれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7181445B2 (ja) 2017-11-30 2022-12-01 キヤノンマーケティングジャパン株式会社 情報処理装置、その制御方法とプログラム

Also Published As

Publication number Publication date
JP2013196611A (ja) 2013-09-30

Similar Documents

Publication Publication Date Title
JP6928876B2 (ja) フォーム種別学習システムおよび画像処理装置
US10984233B2 (en) Image processing apparatus, control method, and non-transitory storage medium that obtain text data for an image
JP2014092899A (ja) 画像処理装置及び画像処理プログラム
JP6642970B2 (ja) 注目領域検出装置、注目領域検出方法及びプログラム
US20090180690A1 (en) Image searching apparatus and image searching method
US11710329B2 (en) Image processing apparatus with automated registration of previously encountered business forms, image processing method and storage medium therefor
JP6607122B2 (ja) 画像解析装置
JP5862396B2 (ja) 帳票判別装置及びプログラム
US8600099B2 (en) Method of detecting embedded data from image data having a plurality of types of data embedded therein
US10638001B2 (en) Information processing apparatus for performing optical character recognition (OCR) processing on image data and converting image data to document data
JP5365440B2 (ja) 画像処理装置及び画像処理プログラム
US20230027065A1 (en) Image processing apparatus, image processing method, and non-transitory recording medium
JP6247103B2 (ja) 帳票項目認識方法、帳票項目認識装置及び帳票項目認識プログラム
JP3186246B2 (ja) 文書読取装置
JP5720182B2 (ja) 画像処理装置及び画像処理プログラム
US20210019554A1 (en) Information processing device and information processing method
JP2014120832A (ja) 画像処理装置及び画像処理プログラム
JP6070302B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム
JP2019153230A (ja) 情報処理装置及び情報処理プログラム
JP2020047138A (ja) 情報処理装置
US11574490B2 (en) Information processing apparatus and non-transitory computer readable medium storing information processing program
US20240236245A1 (en) Image processing apparatus, control method for image processing apparatus, and non-transitory storage medium
JP3186712B2 (ja) 文書読取装置
JP2016053797A (ja) 画像処理装置及び画像処理プログラム
KR101574409B1 (ko) 출판물의 핑거프린트 생성 방법과 이를 이용한 출판물 식별 장치 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151214

R150 Certificate of patent or registration of utility model

Ref document number: 5862396

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees