JP4100885B2 - 帳票認識装置、方法、プログラムおよび記憶媒体 - Google Patents

帳票認識装置、方法、プログラムおよび記憶媒体 Download PDF

Info

Publication number
JP4100885B2
JP4100885B2 JP2001210799A JP2001210799A JP4100885B2 JP 4100885 B2 JP4100885 B2 JP 4100885B2 JP 2001210799 A JP2001210799 A JP 2001210799A JP 2001210799 A JP2001210799 A JP 2001210799A JP 4100885 B2 JP4100885 B2 JP 4100885B2
Authority
JP
Japan
Prior art keywords
data
search
binary image
image data
format data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001210799A
Other languages
English (en)
Other versions
JP2003030672A (ja
Inventor
恵子 中西
北洋 金田
健一 数見
浩紀 福田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2001210799A priority Critical patent/JP4100885B2/ja
Priority to EP02254747.5A priority patent/EP1300779B1/en
Priority to US10/190,819 priority patent/US7277584B2/en
Publication of JP2003030672A publication Critical patent/JP2003030672A/ja
Application granted granted Critical
Publication of JP4100885B2 publication Critical patent/JP4100885B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns

Description

【0001】
【発明の属する技術分野】
本発明は、帳票の認識を行う帳票認識装置、方法、プログラム及び記憶媒体に関するものである。
【0002】
【従来の技術】
従来、帳票認識装置は、複数の検索基準となる帳票(以下、登録帳票と記載する)の書式データを記憶手段に予め登録しておき、検索対象の帳票(以下、検索帳票と記載する)の書式データと比較することによって類似度を求め、該入力された検索帳票と同じフォーマットを有する登録帳票を特定することにより、検索帳票を識別していた。
【0003】
その登録帳票の書式データは、スキャナから読み取った登録帳票の帳票画像データを所定の閾値で2値化処理することによって、1つの2値画像データを生成し、該2値画像データから特徴量を抽出し、この画像特徴量に基づいて書式データを生成することによって作成されていた。
【0004】
また、コンピュータ上で白黒で登録帳票を作成した場合などは、対象とする画像は当然2値画像であり、その2値画像から特徴量を抽出して、登録帳票の書式データを作成していた。
【0005】
【発明が解決しようとする課題】
しかしながら、検索帳票の劣化(色あせや黄ばみなど)やスキャナの読み取り具合によって、同じ閾値で2値化したとしても検索帳票の2値画像データが変わり書式データも変わる場合があり、従来技術では、登録帳票の書式データを作成する際、1つの2値画像データから特徴量を抽出して作成しているので、検索帳票の2値画像が変動すると、該検索帳票を識別できないことがあり、検索帳票の認識率が悪くなっていた。
【0006】
本発明は、検索帳票の認識率を向上させることを目的とする。
【0007】
【課題を解決するための手段】
上記課題を解決するために、本発明の帳票認識装置は、登録帳票の帳票画像データを入力する入力手段と、前記入力された帳票画像データが2値画像であるか多値画像であるか判定する判定手段と、前記判定手段で2値画像であると判定した場合に、前記入力された帳票画像データを多値画像データに変換する変換手段と、前記判定手段で2値画像であると判定した場合の前記変換手段で変換した多値画像データ及び前記判定手段で多値画像であると判定した場合の前記入力された帳票画像データに対し、複数の2値化閾値を用いて2値化処理することにより、複数の2値画像データを得る2値画像取得手段と、前記複数の2値画像データそれぞれから帳票種別を識別するための帳票書式データを作成することによって、複数の帳票書式データを作成する帳票書式データ作成手段と、前記登録帳票の帳票種別を表す1つの識別コードに対して、前記帳票書式データ作成手段で作成された複数の前記帳票種別を識別するための帳票書式データを対応付けて記憶する記憶手段と、検索対象となる検索帳票の画像データを所定の閾値を用いて2値化することにより前記検索帳票の2値画像データを得る検索2値画像取得手段と、前記検索2値画像取得手段で得た該検索帳票の2値画像データから該検索帳票の帳票書式データを得て、当該得た検索帳票の帳票書式データと前記記憶手段に記憶されている登録帳票の複数の帳票書式データとを比較して類似度を計算することにより、該検索帳票に類似する登録帳票の帳票種別を表す識別コードを得る帳票識別手段と、を有することを特徴とする。
【0008】
また、上記課題を解決するために、本発明の帳票認識方法は、判定手段が、入力手段から入力された登録帳票の帳票画像データが2値画像であるか多値画像であるか判定する判定ステップと、変換手段が、前記判定ステップで2値画像であると判定された場合に、前記入力された帳票画像データを多値画像データに変換する変換ステップと、2値画像取得手段が、前記判定ステップで2値画像であると判定された場合の前記変換ステップで変換された多値画像データ及び前記判定ステップで多値画像であると判定された場合の登録帳票の帳票画像データに対し、複数の2値化閾値を用いて2値化処理することにより、複数の2値画像データを取得する2値画像取得ステップと、帳票書式データ作成手段が、前記複数の2値画像データそれぞれから帳票種別を識別するための帳票書式データを作成することによって、複数の帳票書式データを作成する帳票書式データ作成ステップと、記憶手段が、前記登録帳票の帳票種別を表す1つの識別コードに対して、前記前記帳票書式データ作成ステップで作成された複数の前記帳票種別を識別するための帳票書式データを対応付けてメモリに記憶させる記憶ステップと、検索2値画像取得手段が、検索対象となる検索帳票の画像データを所定の閾値を用いて2値化することにより前記検索帳票の2値画像データを得る検索2値画像取得ステップと、帳票識別手段が、前記検索2値画像取得ステップで得た該検索帳票の2値画像データから該検索帳票の帳票書式データを得て、当該得た検索帳票の帳票書式データと前記メモリに記憶されている登録帳票の複数の帳票書式データとを比較して類似度を計算することにより、該検索帳票に類似する登録帳票の帳票種別を表す識別コードを得る帳票識別ステップと、を有することを特徴とする。
また、上記課題を解決するための本発明のプログラムは、コンピュータを、入力手段から入力された帳票画像データが2値画像であるか多値画像であるか判定する判定手段、前記判定手段で2値画像であると判定した場合に、前記入力された帳票画像データを多値画像データに変換する変換手段、前記判定手段で2値画像であると判定した場合の前記変換手段で変換した多値画像データ及び前記判定手段で多値画像であると判定した場合の前記入力された登録帳票の帳票画像データに対し、複数の2値化閾値を用いて2値化処理することにより、複数の2値画像データを得る2値画像取得手段、前記複数の2値画像データそれぞれから帳票種別を識別するための帳票書式データを作成することによって、複数の帳票書式データを作成する帳票書式データ作成手段、前記登録帳票の帳票種別を表す1つの識別コードに対して、前記帳票書式データ作成手段で作成された複数の前記帳票種別を識別するための帳票書式データを対応付けてメモリに記憶させる記憶手段、検索対象となる検索帳票の画像データを所定の閾値を用いて2値化することにより前記検索帳票の2値画像データを得る検索2値画像取得手段、前記検索2値画像取得手段で得た該検索帳票の2値画像データから該検索帳票の帳票書式データを得て、当該得た検索帳票の帳票書式データと前記メモリに記憶されている登録帳票の複数の帳票書式データとを比較して類似度を計算することにより、該検索帳票に類似する登録帳票の帳票種別を表す識別コードを得る帳票識別手段、として機能させるためのプログラムである。
【0009】
【発明の実施の形態】
図1は、本実施形態に係る帳票認識装置の基本構成を示すブロック図である。
【0010】
11は、帳票を光電変換して帳票画像データを得るスキャナなどの画像読み取り装置である。なお、読み取った帳票画像データはメモリ15に格納される。また、このスキャナの代わりに、デジタルカメラなどを用いて画像データを得てもよい。
【0011】
12はプロセッサであり、メモリ15に格納された制御プログラム15dを実行することにより、帳票画像データを2値化する2値化処理12a、2値データに基づいて特徴量を抽出する特徴量抽出処理12b、抽出した特徴量から書式データを作成する書式データ作成処理12c、登録帳票の書式データと検索帳票の書式データを比較して帳票認識する帳票認識処理12dなどが実行される。具体的には、図2乃至図5に記載のフローチャートに対応する制御プログラムを読み込んで実行する。なお、本実施形態では制御プログラムはメモリに格納されているものとするが、ネットワークを介して他の装置から制御プログラムを適宜読み込んで実行するよう構成してもよい。
【0012】
キーボード13は、ユーザの操作により、帳票の登録や検索などの指示操作を行う。14は、補助記憶装置として機能するディスクであり、ハードディスクやフロッピーディスクなどである。15は、制御プログラムやスキャナ11で読み込んだ帳票画像データなどの各種データを蓄積したり、プロセッサ12において処理制御情報を作成する際の一時データ記憶などに用いられるメモリである。なお、制御プログラムや各種データは、ディスク14に格納しておき、必要に応じてメモリ15に読み出すような構成としてもよい。
【0013】
16は、認識結果等の各種情報を出力するディスプレイなどの出力手段である。これらの構成要素がバス20を介して相互に接続されている。
【0014】
また、帳票認識装置は、他の装置とネットワークを介して接続するためのネットワークインターフェース(不図示)を有してもよい。
【0015】
スキャナ11で読み取った画像データは、帳票画像データ15cとしてメモリ15に格納される。帳票画像データは2値化処理12aにより2値画像に変換され、画像特徴量抽出処理12bに送られ、ヒストグラム法や輪郭線追跡などの手法により、テーブル、テキスト、ピクチャなどのブロックに領域分割されて属性分類される。その分類された情報から、書式データ作成処理12cにより、書式データを作成して、メモリ又はディスクに保存する。登録帳票をメモリに登録する場合は、書式データ15aと識別コード15bとを対応づけて保存する。
【0016】
<実施形態1>
図2は、本実施形態1における登録帳票をメモリに登録する際の帳票登録処理手順を示すフローチャートである。
【0017】
まず、ステップS21において、スキャナ11を用いて登録帳票を読み取って、多値の帳票画像データとしてメモリ15に転送する。なお、本実施形態では、スキャナを介して登録帳票を読み取るものとするが、多値の登録帳票画像データであればよく、例えばネットワークを介して他の装置から入力されるものであってもよい。
【0018】
ステップS22において、その帳票画像データを2値化処理して、2値画像データを取得する。ここで、複数の閾値を用いて2値化処理を行うことによって、複数の2値画像データを取得する。この2値化処理に用いる閾値は、任意の値を複数用いてもよいし、値が等間隔になるような閾値を用いてもよいし、2値化の結果が大きく変化しやすい範囲で多くの閾値をとるようにしてもよい。
【0019】
また、2値化の閾値を帳票画像全体に対して均一に適用するようにしてもよいし、帳票画像を複数の小領域に分割(例えば、表部分や文章部分などの属性毎の小領域に分割)して、該小領域毎に適用する閾値を変えるようにしてもよい。
【0020】
ステップS23において、該取得した複数の2値画像データそれぞれに対し、領域分割や属性分類などを行なって、特徴量データ(テーブル、テキストブロック等の領域の位置や属性や、テーブル構成などからなるデータ)を抽出する。複数の2値画像データそれぞれに対して行なうので、複数の特徴量データが抽出されることになる。
【0021】
ステップS24において、該抽出された複数の特徴量データそれぞれから、必要な情報を抽出し、書式データを作成する。つまり1つの画像データから複数の書式データが作成されることになる。
【0022】
そして、ステップS25において、該作成した複数の書式データを1つの識別コードに対応づけて登録する。なお、この識別コードは、帳票の種別を表すためのコードである。
【0023】
図3は、本実施形態1における検索帳票を識別するための検索処理手順を示すフローチャートである。
【0024】
まず、ステップS31において、スキャナ11で、検索対象となる検索帳票を読み取って、検索帳票の画像データをメモリ15に転送する。
【0025】
ステップS32において、その画像データに対し、所定の閾値を用いて2値化処理を行い、2値画像を取得する。
【0026】
次に、ステップS33において、該取得した2値画像から、領域分割や属性分類などを行なって、特徴量データ(テーブル、テキストブロック等の領域の位置や属性や、テーブル構成などからなるデータ)を抽出する。
【0027】
次に、ステップS34において、抽出された特徴量データから、必要な情報を抽出して、書式データを作成する。
【0028】
そして、ステップS35において、作成した検索帳票の書式データを、登録されている登録帳票の書式データと比較し、類似度を計算する。
【0029】
そして、ステップS36において、検索帳票と類似度が高い登録帳票の識別コードを出力する。
【0030】
帳票種別を表す1つの識別コードに対し、複数の書式データが登録されているので、検索帳票の書式データは、登録帳票のいずれかの書式データと類似する確率が高くなるので、認識精度が高くなる。
【0031】
<実施形態2>
図4は、本実施形態2における登録帳票をメモリに登録する際の帳票登録処理手順を示すフローチャートである。
【0032】
実施形態1では、登録帳票は多値画像として入力されたが、本実施形態では入力された登録帳票が2値画像であった場合にも対応することを目的とする。
【0033】
まず、ステップS41において、登録帳票の画像データが入力され、メモリ15に転送する。この登録帳票の画像データは、登録帳票の画像データで有ればいずれから入力されるものであってもよく、スキャナ11から入力されるものであっても、ネットワークを介して他の装置から入力されるものであってもよい。
【0034】
そして、ステップS42において、該入力された画像が2値画像か否かを判断する。2値画像でないと判断された場合は、ステップS44に進む。2値画像であると判断された場合は、ステップS43に進む。
【0035】
ステップS43では、2値画像を多値画像に変換する。この2値画像を多値画像に変換する際、平滑化フィルター等の任意のぼかしフィルターを使用して、該2値画像に対してぼかす処理を施し、多値画像に変換する。
【0036】
ステップS44において、多値画像データに対して、2値化処理を行い、2値画像を取得する。ここでは、実施形態1のステップS22と同様に、複数の閾値を用いて2値化処理を行うことによって、複数の2値画像データを取得する。
【0037】
ステップS45において、該取得した複数の2値画像データそれぞれに対し、領域分割や属性分類などを行なって、特徴量データ(テーブル、テキストブロック等の領域の位置や属性や、テーブル構成などからなるデータ)を抽出する。複数の2値画像データそれぞれに対して行なうので、複数の特徴量データが抽出されることになる。
【0038】
ステップS46において、該抽出された複数の特徴量データそれぞれから、必要な情報を抽出し、書式データを作成する。つまり、ステップS41で入力された画像データが多値・2値にかかわらず、1つの画像データから複数の書式データが作成されることになる。
【0039】
そして、ステップS47で、該作成した複数の書式データを1つの識別コードに対応づけて登録する。なお、この識別コードは、帳票の種別を表すためのコードである。
【0040】
そして、検索帳票を識別する際は、図3の実施形態1と同様の処理を適用することができる。
【0041】
以上、述べたように、入力された登録帳票の画像データが2値画像であっても、複数の書式データを得ることができるので、検索帳票の識別時の認識精度が高くなる。
【0042】
<実施形態3>
図5は、実施形態3における検索帳票を識別するための検索処理手順を示すフローチャートである。
【0043】
まず、ステップS51で、スキャナ11から検索する帳票を読み取り、検索帳票の多値画像データとしてメモリ15に転送する。
【0044】
ステップS52において、その帳票画像データを2値化処理して、2値画像データを取得する。ここで、複数の閾値を用いて2値化処理を行うことによって、複数の2値画像データを取得する。この2値化処理に用いる閾値は、任意の値を複数用いてもよいし、値が等間隔になるような閾値を用いてもよいし、2値化の結果が大きく変化しやすい範囲で多くの閾値をとるようにしてもよい。
【0045】
ステップS53において、該取得した複数の2値画像データそれぞれに対し、領域分割や属性分類などを行なって、特徴量データ(テーブル、テキストブロック等の領域の位置や属性や、テーブル構成などからなるデータ)を抽出する。複数の2値画像データそれぞれに対して行なうので、複数の特徴量データが抽出されることになる。
【0046】
ステップS54において、該抽出された複数の特徴量データそれぞれから、必要な情報を抽出し、書式データを作成する。つまり、1つの画像データから複数の書式データが作成されることになる。
【0047】
ステップS55において、該作成した複数の書式データを登録帳票の書式データと比較し、類似度を計算する。
【0048】
そして、ステップS56において、検索帳票と類似度が高い登録帳票の識別コードを出力する。
【0049】
検索帳票の書式データを複数作成して比較を行なうので、複数の書式データのどれかと登録帳票の類似度が高くなり、認識精度が高くなる。
【0050】
なお、ステップS55において、登録帳票の書式データは、実施形態1や実施形態2で示した手順で作成された、1つの識別コードに対して複数の書式データが対応付けられているものであってもよいし、所定の1つの閾値を用いて2値化された登録帳票画像データから作成された1つの識別コードに対して1つの書式データが対応付けられているものであってもよい。なお、実施形態1または実施形態2で示した帳票登録処理手順で登録されたものの方が、登録帳票の書式データが多くなるので認識精度は高くなる。
【0051】
また、ステップS51において、スキャナ11が2値画像として読み取るスキャナであった場合などは、入力される検索帳票の画像データは2値画像であるので、実施形態2のステップS43と同様に、該入力された2値画像を多値画像に変換すればよい。この2値画像を多値画像に変換する際、平滑化フィルター等(ガウスフィルターなど)の任意のぼかしフィルターを使用して、該2値画像に対してぼかす処理を施し、多値画像に変換する。このように検索帳票の入力画像が2値画像であった場合も、複数の書式データを作成するので、認識精度を高めることができる。
【0052】
【発明の効果】
以上説明したように、本発明によれば、帳票画像を複数の閾値を用いて複数の2値画像に変換し、該複数の2値画像それぞれから書式データを作成するので、認識率を向上させることができる。
【0053】
また、入力された帳票画像が2値画像であっても、複数の書式データを作成できるので、認識率を向上させることができる。
【図面の簡単な説明】
【図1】本発明の実施形態に係る帳票認識装置の基本構成を示すブロック図である。
【図2】本実施形態1における帳票登録処理手順を示すフローチャートである。
【図3】本実施形態1における帳票検索処理手順を示すフローチャートである。
【図4】本実施形態2における帳票登録処理手順を示すフローチャートである。
【図5】本実施形態3における帳票検索処理手順を示すフローチャートである。
【符号の説明】
11 スキャナ(画像入力手段)
12 プロセッサ
13 キーボード
14 ディスク
15 メモリ
16 ディスプレイ(出力手段)
20 バス

Claims (10)

  1. 登録帳票の帳票画像データを入力する入力手段と、
    前記入力された帳票画像データが2値画像であるか多値画像であるか判定する判定手段と、
    前記判定手段で2値画像であると判定した場合に、前記入力された帳票画像データを多値画像データに変換する変換手段と、
    前記判定手段で2値画像であると判定した場合の前記変換手段で変換した多値画像データ及び前記判定手段で多値画像であると判定した場合の前記入力された帳票画像データに対し、複数の2値化閾値を用いて2値化処理することにより、複数の2値画像データを得る2値画像取得手段と、
    前記複数の2値画像データそれぞれから帳票種別を識別するための帳票書式データを作成することによって、複数の帳票書式データを作成する帳票書式データ作成手段と、
    前記登録帳票の帳票種別を表す1つの識別コードに対して、前記帳票書式データ作成手段で作成された複数の前記帳票種別を識別するための帳票書式データを対応付けて記憶する記憶手段と
    検索対象となる検索帳票の画像データを所定の閾値を用いて2値化することにより前記検索帳票の2値画像データを得る検索2値画像取得手段と、
    前記検索2値画像取得手段で得た該検索帳票の2値画像データから該検索帳票の帳票書式データを得て、当該得た検索帳票の帳票書式データと前記記憶手段に記憶されている登録帳票の複数の帳票書式データとを比較して類似度を計算することにより、該検索帳票に類似する登録帳票の帳票種別を表す識別コードを得る帳票識別手段と、
    を有することを特徴とする帳票認識装置。
  2. 前記検索2値画像取得手段は、前記検索帳票の画像データを、複数の2値化閾値を用いて2値化処理することにより、複数の2値画像データを得るものであって、
    前記帳票識別手段は、前記検索2値画像取得手段で得た複数の2値画像データから、該検索帳票の帳票書式データを複数得て、当該得た複数の検索帳票の帳票書式データと前記記憶手段に記憶されている登録帳票の複数の帳票書式データと比較して類似度を計算することにより、該検索帳票に類似する登録帳票の帳票種別を表す識別コードを得ることを特徴とする請求項1に記載の帳票認識装置。
  3. 前記帳票書式データ作成手段は、前記複数の2値画像データそれぞれに対して、領域分割処理を行うことにより得た領域に関するデータを抽出し、当該抽出したデータを用いて前記帳票種別を識別するための帳票書式データを作成することにより、前記複数の帳票書式データを作成することを特徴とする請求項1に記載の帳票認識装置。
  4. 前記作成される帳票書式データは、前記領域分割処理を行うことにより得た領域の位置と、テーブルの構成とに関するデータを含むことを特徴とする請求項に記載の帳票認識装置。
  5. 判定手段が、入力手段から入力された登録帳票の帳票画像データが2値画像であるか多値画像であるか判定する判定ステップと、
    変換手段が、前記判定ステップで2値画像であると判定された場合に、前記入力された帳票画像データを多値画像データに変換する変換ステップと、
    2値画像取得手段が、前記判定ステップで2値画像であると判定された場合の前記変換ステップで変換された多値画像データ及び前記判定ステップで多値画像であると判定された場合の登録帳票の帳票画像データに対し、複数の2値化閾値を用いて2値化処理することにより、複数の2値画像データを取得する2値画像取得ステップと、
    帳票書式データ作成手段が、前記複数の2値画像データそれぞれから帳票種別を識別するための帳票書式データを作成することによって、複数の帳票書式データを作成する帳票書式データ作成ステップと、
    記憶手段が、前記登録帳票の帳票種別を表す1つの識別コードに対して、前記前記帳票書式データ作成ステップで作成された複数の前記帳票種別を識別するための帳票書式データを対応付けてメモリに記憶させる記憶ステップと
    検索2値画像取得手段が、検索対象となる検索帳票の画像データを所定の閾値を用いて2値化することにより前記検索帳票の2値画像データを得る検索2値画像取得ステップと、
    帳票識別手段が、前記検索2値画像取得ステップで得た該検索帳票の2値画像データから該検索帳票の帳票書式データを得て、当該得た検索帳票の帳票書式データと前記メモリに記憶されている登録帳票の複数の帳票書式データとを比較して類似度を計算することにより、該検索帳票に類似する登録帳票の帳票種別を表す識別コードを得る帳票識別ステップと、
    を有することを特徴とする帳票認識方法。
  6. 前記検索2値画像取得ステップでは、前記検索帳票の画像データを、複数の2値化閾値を用いて2値化処理することにより、複数の2値画像データ取得され
    前記帳票識別ステップでは、前記検索2値画像取得ステップで得た複数の2値画像データから、該検索帳票の帳票書式データを複数得て、当該得た複数の検索帳票の帳票書式データと前記メモリに記憶されている登録帳票の複数の帳票書式データと比較して類似度を計算することにより、該検索帳票に類似する登録帳票の帳票種別を表す識別コードを得る帳票識別ステップとを、
    更に有することを特徴とする請求項に記載の帳票認識方法。
  7. 前記帳票書式データ作成ステップにおいて、前記帳票書式データ作成手段が、前記複数の2値画像データそれぞれに対して、領域分割処理を行うことにより得た領域に関するデータを抽出し、当該抽出したデータを用いて前記帳票種別を識別するための帳票書式データを作成することにより、前記複数の帳票書式データを作成することを特徴とする請求項に記載の帳票認識方法。
  8. 前記作成される帳票書式データは、前記領域分割処理を行うことにより得た領域の位置と、テーブルの構成とに関するデータを含むことを特徴とする請求項に記載の帳票認識方法。
  9. コンピュータを、
    入力手段から入力された帳票画像データが2値画像であるか多値画像であるか判定する判定手段、
    前記判定手段で2値画像であると判定した場合に、前記入力された帳票画像データを多値画像データに変換する変換手段、
    前記判定手段で2値画像であると判定した場合の前記変換手段で変換した多値画像データ及び前記判定手段で多値画像であると判定した場合の前記入力された登録帳票の帳票画像データに対し、複数の2値化閾値を用いて2値化処理することにより、複数の2値画像データを得る2値画像取得手段、
    前記複数の2値画像データそれぞれから帳票種別を識別するための帳票書式データを作成することによって、複数の帳票書式データを作成する帳票書式データ作成手段、
    前記登録帳票の帳票種別を表す1つの識別コードに対して、前記帳票書式データ作成手段で作成された複数の前記帳票種別を識別するための帳票書式データを対応付けてメモリに記憶させる記憶手段、
    検索対象となる検索帳票の画像データを所定の閾値を用いて2値化することにより前記検索帳票の2値画像データを得る検索2値画像取得手段、
    前記検索2値画像取得手段で得た該検索帳票の2値画像データから該検索帳票の帳票書式データを得て、当該得た検索帳票の帳票書式データと前記メモリに記憶されている登録帳票の複数の帳票書式データとを比較して類似度を計算することにより、該検索帳票に類似する登録帳票の帳票種別を表す識別コードを得る帳票識別手段、
    として機能させるためのプログラム。
  10. 請求項項に記載のプログラムを格納した、コンピュータ読み取り可能な記憶媒体。
JP2001210799A 2001-07-11 2001-07-11 帳票認識装置、方法、プログラムおよび記憶媒体 Expired - Fee Related JP4100885B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2001210799A JP4100885B2 (ja) 2001-07-11 2001-07-11 帳票認識装置、方法、プログラムおよび記憶媒体
EP02254747.5A EP1300779B1 (en) 2001-07-11 2002-07-08 Form recognition system, form recognition method, program and storage medium
US10/190,819 US7277584B2 (en) 2001-07-11 2002-07-09 Form recognition system, form recognition method, program and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001210799A JP4100885B2 (ja) 2001-07-11 2001-07-11 帳票認識装置、方法、プログラムおよび記憶媒体

Publications (2)

Publication Number Publication Date
JP2003030672A JP2003030672A (ja) 2003-01-31
JP4100885B2 true JP4100885B2 (ja) 2008-06-11

Family

ID=19046213

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001210799A Expired - Fee Related JP4100885B2 (ja) 2001-07-11 2001-07-11 帳票認識装置、方法、プログラムおよび記憶媒体

Country Status (3)

Country Link
US (1) US7277584B2 (ja)
EP (1) EP1300779B1 (ja)
JP (1) JP4100885B2 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4713107B2 (ja) * 2004-08-20 2011-06-29 日立オムロンターミナルソリューションズ株式会社 景観中文字列認識方式および装置
JP4266920B2 (ja) * 2004-12-03 2009-05-27 オリンパス株式会社 分類装置及び分類方法
US7426510B1 (en) * 2004-12-13 2008-09-16 Ntt Docomo, Inc. Binary data categorization engine and database
JP4682747B2 (ja) * 2005-08-17 2011-05-11 富士ゼロックス株式会社 文書処理装置、ルールデータ生成方法およびプログラム
US7734092B2 (en) * 2006-03-07 2010-06-08 Ancestry.Com Operations Inc. Multiple image input for optical character recognition processing systems and methods
US20080065606A1 (en) * 2006-09-08 2008-03-13 Donald Robert Martin Boys Method and Apparatus for Searching Images through a Search Engine Interface Using Image Data and Constraints as Input
JP5303865B2 (ja) * 2007-05-23 2013-10-02 株式会社リコー 情報処理装置、及び、情報処理方法
JP2010009589A (ja) * 2008-06-26 2010-01-14 Toshiba Corp 画像認識装置、画像読取装置及び画像認識装置の画像認識方法
JP5121599B2 (ja) * 2008-06-30 2013-01-16 キヤノン株式会社 画像処理装置、画像処理方法およびそのプログラムならびに記憶媒体
US8396301B2 (en) 2009-09-24 2013-03-12 Gtech Corporation System and method for document location and recognition
JP5662675B2 (ja) * 2009-12-04 2015-02-04 キヤノン株式会社 画像形成装置及びその制御方法
US9235458B2 (en) 2011-01-06 2016-01-12 International Business Machines Corporation Methods and systems for delegating work objects across a mixed computer environment
US20120185677A1 (en) * 2011-01-14 2012-07-19 International Business Machines Corporation Methods and systems for storage of binary information that is usable in a mixed computing environment
CN104008384B (zh) * 2013-02-26 2017-11-14 山东新北洋信息技术股份有限公司 字符识别方法和字符识别装置
CN104111949A (zh) * 2013-04-19 2014-10-22 朱世交 检索视频图像的定位方法
JP6402469B2 (ja) * 2014-04-04 2018-10-10 富士電機株式会社 安全制御装置および安全制御システム
US9495343B2 (en) * 2014-09-30 2016-11-15 Konica Minolta Laboratory U.S.A., Inc. Horizontal and vertical line detection and removal for document images
CN106296578B (zh) * 2015-05-29 2020-04-28 阿里巴巴集团控股有限公司 一种图像处理方法及装置
CN105035287A (zh) * 2015-07-23 2015-11-11 牛永友 一种基于数据通信的水下遗体探寻方法
JP2020019250A (ja) 2018-08-02 2020-02-06 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
JP6736742B1 (ja) * 2019-10-28 2020-08-05 Tis株式会社 帳票処理プログラム、帳票処理装置、帳票処理方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US52892A (en) * 1866-02-27 Improvement in organs
US4196452A (en) * 1978-12-01 1980-04-01 Xerox Corporation Tone error control for image contour removal
EP0082236B1 (en) * 1981-12-23 1986-03-12 International Business Machines Corporation Method of recognizing characters in an optical document reader
US4672678A (en) * 1984-06-25 1987-06-09 Fujitsu Limited Pattern recognition apparatus
US5159667A (en) * 1989-05-31 1992-10-27 Borrey Roland G Document identification by characteristics matching
US5796410A (en) * 1990-06-12 1998-08-18 Lucent Technologies Inc. Generation and use of defective images in image analysis
US6104833A (en) * 1996-01-09 2000-08-15 Fujitsu Limited Pattern recognizing apparatus and method
JP4077919B2 (ja) * 1998-01-30 2008-04-23 キヤノン株式会社 画像処理方法及び装置及びその記憶媒体
JP4454789B2 (ja) * 1999-05-13 2010-04-21 キヤノン株式会社 帳票分類方法及び装置
US6449396B1 (en) * 1999-07-07 2002-09-10 Xerox Corporation Compact rendering for processing binary high addressability images
US6674900B1 (en) * 2000-03-29 2004-01-06 Matsushita Electric Industrial Co., Ltd. Method for extracting titles from digital images
JP3733310B2 (ja) 2000-10-31 2006-01-11 キヤノン株式会社 文書書式識別装置および識別方法

Also Published As

Publication number Publication date
EP1300779A2 (en) 2003-04-09
JP2003030672A (ja) 2003-01-31
EP1300779A3 (en) 2004-07-21
EP1300779B1 (en) 2014-01-29
US7277584B2 (en) 2007-10-02
US20030012440A1 (en) 2003-01-16

Similar Documents

Publication Publication Date Title
JP4100885B2 (ja) 帳票認識装置、方法、プログラムおよび記憶媒体
US7623712B2 (en) Image processing method and apparatus
JP4208918B2 (ja) 文書画像からテキストを抽出する方法及び装置並びにコンピュータプログラム及びその記憶媒体
US7965892B2 (en) Image processing apparatus, control method thereof, and program
KR101617681B1 (ko) 히스토그램들을 갖는 다중 층 연결 요소들을 사용하는 텍스트 검출
JP6188976B2 (ja) 画像に含まれるテキストを検出する方法、装置及びコンピュータ読み取り可能な記録媒体
JPWO2007063705A1 (ja) パターン認識装置、パターン認識方法、およびパターン認識プログラム
US11935314B2 (en) Apparatus for generating a binary image into a white pixel, storage medium, and method
JP2005148987A (ja) オブジェクト識別方法とその装置、プログラム及び記録媒体
JP2008011484A (ja) 文字図形列抽出装置,文字図形列抽出方法,その方法を実行するプログラム,そのプログラムを記録した記録媒体
US6269186B1 (en) Image processing apparatus and method
JP4565396B2 (ja) 画像処理装置および画像処理プログラム
JP2010146218A (ja) 画像処理装置、画像処理方法、コンピュータプログラム
JP4441300B2 (ja) 画像処理装置、画像処理方法、画像処理プログラムおよびこのプログラムを記憶した記録媒体
JP5979008B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP4537097B2 (ja) パターン検出方法及び装置
JP2861860B2 (ja) 宛名行抽出装置
JP2020047138A (ja) 情報処理装置
JP4383187B2 (ja) 画像処理装置、画像処理用プログラム及び記憶媒体
JP2003123023A (ja) 文字認識方法及び文字認識装置、文字認識プログラム並びにそのプログラムを記録した記録媒体
JP6493559B2 (ja) 文字認識装置及び文字認識方法
JP2023034823A (ja) 画像処理装置、画像処理装置の制御方法およびプログラム
JP2001291056A (ja) 文書画像認識装置及び記録媒体
JP2005208979A (ja) 特徴量抽出装置および特徴量抽出方法、ならびに文書ファイリング装置
JP2003346083A (ja) 文字認識装置、文字認識方法、プログラムおよび記憶媒体、および文字認識システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070802

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070807

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071009

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071127

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080128

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20080212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080311

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080318

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110328

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120328

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130328

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140328

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees