JP2005157938A - 帳票認識装置、方法、プログラムおよび記憶媒体 - Google Patents

帳票認識装置、方法、プログラムおよび記憶媒体 Download PDF

Info

Publication number
JP2005157938A
JP2005157938A JP2003398425A JP2003398425A JP2005157938A JP 2005157938 A JP2005157938 A JP 2005157938A JP 2003398425 A JP2003398425 A JP 2003398425A JP 2003398425 A JP2003398425 A JP 2003398425A JP 2005157938 A JP2005157938 A JP 2005157938A
Authority
JP
Japan
Prior art keywords
similarity
image
color information
color
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003398425A
Other languages
English (en)
Inventor
Hiroaki Ikeda
裕章 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2003398425A priority Critical patent/JP2005157938A/ja
Priority to US10/997,537 priority patent/US7508986B2/en
Publication of JP2005157938A publication Critical patent/JP2005157938A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

【課題】 白黒2値帳票とカラー帳票とを高い認識率で統合的に処理する。
【解決手段】 評価対象とされた登録帳票と検索帳票との対応構成要素、たとえば表枠の対応セル、対応罫線、対応文字などについて色情報を比較し、同一色と判断された場合、形状特徴量について得られた類似度に所定の数値を加算する。
【選択図】 図7

Description

本発明は、帳票の自動認識を行う帳票認識装置、方法、プログラムおよび記憶媒体に関する。
帳票を、あらかじめ登録された帳票書式ごとに自動分類する帳票認識処理は、大量の帳票の入力・分類処理を行う上で大変有効な方法である。
入力・分類処理に際しては、スキャナ等から読み取った帳票画像のデータから特徴量を抽出して、帳票書式データを生成し、入力帳票と登録帳票の書式データの類似度を求め、類似度の最も高い登録帳票を、認識結果とする。
書式データの類似度の判定方法として、以下の従来例が存在する。
(1)帳票の表枠に着目し、各表枠の面積の全表枠の面積の合計に対する割合を、人の視覚的な感覚に近い類似度として、使用する帳票認識処理(例えば特許文献1)。この帳票認識処理では、罫線の形状が類似している帳票画像において高い類似度が得られ、その値を比較することで、登録されている帳票から、同一帳票を特定する。
(2)帳票の特定部分(カラーID領域)の色情報に注目する帳票認識処理(例えば特許文献2)。
(3)帳票画像の特徴量として複数種類の特徴量を使用し、1つの特徴量で判別できなかったときに、該特徴量で候補を絞り込んだ後、他の特徴量を用いて帳票を認識する(例えば特許文献3)。
特開2000−285187号公報 特開2001−109842号公報 特開2000−285190号公報
特許文献1の帳票認識処理では、検索帳票と登録帳票における形状の特徴量が類似していても、帳票画像の色、例えば罫線の色が異なる場合、検索帳票と登録帳票の類比判別が困難であった。
特許文献2の帳票認識処理は、帳票IDとして色を使用したものであり、帳票ID領域を帳票に持つ必要があるため、帳票の形状に制限が設けられてしまうという問題がある。
特許文献3の従来例では、当初使用した特徴で帳票を判別できなかった場合、当該特徴で絞り込んだ帳票の候補の中から更に新たな特徴を用いて絞り込んでいくものである。したがって、特徴量を順番に使用するため、評価に用いる特徴量の順番に応じて認識結果が大きく左右されてしまうという問題がある。
本発明はこのような従来の問題点を解消すべく創案されたもので、白黒2値帳票とカラー帳票とを高い認識率で統合的に処理することを目的とする。
本発明は、帳票画像の特徴量を、登録帳票の特徴量と比較して、登録帳票の中から類似する登録帳票を抽出して、帳票画像の認識結果とする帳票認識装置であって、前記帳票画像に含まれる構成要素から形状の特徴量を抽出する形状特徴量抽出手段と、前記帳票画像がカラー画像であるときに前記帳票画像の色情報を抽出する色情報抽出手段と、前記抽出された形状の特徴量によって登録帳票との類似度を計算する類似度計算手段と、前記抽出された色情報についての類似度を算出し、前記類似度計算手段によって計算された類似度に、前記色情報についての類似度を加算する色情報類似度加算手段と、前記色情報類似度加算手段によって求められた類似度に基づいて、類似する登録帳票を決定する決定手段とを有する。これによって、白黒2値帳票とカラー帳票とを高い認識率で統合的に処理し得る。
本発明に係る帳票認識装置において、前記カラー画像とは、カラー多値画像と、カラー2値画像と、白黒多値画像とのうち、少なくともいずれかであることが望ましい。
本発明に係る帳票認識装置において、前記帳票画像がカラー画像でないときに、前記決定手段は、前記形状特徴量抽出手段で抽出された特徴量に基づいて、類似する登録帳票を決定することが望ましい。
本発明に係る帳票認識装置において、前記色情報類似度加算手段は、前記形状の特徴量から計算された類似度が閾値以上のときのみ、前記色情報についての類似度を算出し、前記類似度計算手段によって得られた類似度に、前記色情報についての類似度を加算することが望ましい。
本発明に係る帳票認識装置において、前記色情報類似度加算手段は、前記帳票画像および比較対象の登録帳票の両者がカラー画像である場合に、前記色情報についての類似度を算出し、前記類似度計算手段によって得られた類似度に、前記色情報についての類似度を加算するが望ましい。
本発明に係る帳票認識装置において、前記色情報抽出手段は、前記構成要素それぞれについて前記色情報を抽出することが望ましい。
本発明に係る帳票認識装置において、前記色情報とは表枠内のセルの色、文字の色、表枠の罫線色のうちの少なくともいずれかであることが望ましい。
本発明に係る帳票認識装置において、前記帳票画像の前記色情報と前記比較対象の登録帳票の前記色情報の差が所定値以下のとき、前記帳票画像と前記比較対象の登録帳票を同一色と判断することが望ましい。
本発明に係る帳票認識装置において、前記色情報類似度加算手段は、形状特徴量の類似度と色情報の類似度とを重み付き加算することが望ましい。
本発明に係る帳票認識装置において、重み付き加算の重みは可変であることが望ましい。
本発明は、帳票画像の特徴量を、登録帳票の特徴量と比較して、登録帳票の中から類似する登録帳票を抽出して、帳票画像の認識結果とする帳票認識方法であって、前記帳票画像に含まれる構成要素から形状の特徴量を抽出する形状特徴量抽出工程と、前記帳票画像がカラー画像であるときに前記帳票画像の色情報を抽出する色情報抽出工程と、前記抽出された形状の特徴量によって登録帳票との類似度を計算する類似度計算工程と、前記抽出された色情報についての類似度を算出し、前記類似度計算工程で計算された類似度に、前記色情報についての類似度を加算する色情報類似度加算工程と、前記色情報類似度加算工程で求められた類似度に基づいて、類似する登録帳票を決定する決定工程とを有する。
本発明によれば、白黒2値帳票とカラー帳票とを高い認識率で統合的に処理し得る。
次に本発明に係る帳票認識装置および帳票認識方法の実施例1を図面に基づいて説明する。
図1は、本発明に係る帳票認識装置の実施例1を示すブロック図、図2は、図1の帳票認識装置で実施される帳票認識方法の実施例1における登録処理を示すフローチャート、図3は、図1の帳票認識装置で処理される表枠の一例を示す図、図4は、図1の帳票認識装置で実施される帳票認識方法におけるセル内の色情報抽出処理を示すフローチャート、図5は、図1の帳票認識装置で実施される帳票認識方法における文字色抽出処理を示すフローチャート、図6は、図1の帳票認識装置で実施される帳票認識方法における罫線色抽出処理を示すフローチャート、図7は、図1の帳票認識装置で実施される帳票認識方法における認識処理を示すフローチャート、図8は、本発明に係る帳票認識装置で読みだし可能な各種データ処理プログラムを格納する記憶媒体のメモリマップを説明する図である。
図1において、帳票認識装置は、磁気ディスク等の外部記憶装置104およびイメージスキャナ108を備え、帳票の画像データを外部記憶装置104から読み込み、あるいは原稿を直接イメージスキャナ108で読み取る。帳票認識装置は全体制御のためのCPU101を備え、CPU101の制御プログラムはROM102に格納されている。イメージスキャナ108から入力された画像はRAM103に保持され、ROM102内の制御プログラムにより、帳票認識のための処理を実行する。帳票認識のための認識辞書は制御プログラムとともにROM102に格納され、あるいは必要な字種ごとに、外部記憶装置104からRAM103に読み込まれる。
なお必要に応じ、帳票認識に先立ってノイズ除去等の前処理を実行する。
図1において、105はディスプレイ、106はキーボード、107はマウス等のポインティングデバイスである。また、109はネットワークインターフェースであり、図示しない遠隔地に存在する装置と通信し、プログラム、認識辞書、データ等を送受信し得る。
本発明は汎用的なコンピュータでも実施可能であり、その場合、媒体等で提供される制御プログラムを外部記憶装置104に記憶し、オペレータの指示等によりCPU101で実行し得るように構成してもよい。また、本発明の処理手順をコンピュータに実行させるためのコンピュータプログラムは、ネットワーク等を介して実行できるようになっていてもよい。
次に、図1の帳票認識装置において実行される帳票認識方法の実施例1を図面に基づいて説明する。
[帳票認識方法]
図2において、帳票を登録する処理は以下の各ステップにより実行される。
ステップS201:まずイメージスキャナ108等から登録すべき帳票画像を入力する。
ステップS202:S201で入力された帳票画像が白黒2値画像か否かを判断し、白黒2値画像の場合はステップS204に進み、その他の画像の場合はステップS203に進む。なお「その他の画像」には、カラー多値画像、カラー2値画像、グレースケール(白黒多値)画像が含まれる。
ステップS203:カラー多値画像その他の画像を白黒2値画像に変換し、ステップS204に進む。
ステップS204:白黒2値画像において形状に関する特徴量の抽出を行う。形状の特徴量とは、帳票内にある構成要素(例えば表枠や文字など)についての大きさ、位置、数、セル数などである。次にステップS205に進む。
ステップS205:再び、入力帳票画像が白黒2値画像か否か判定し、白黒2値画像であれば色情報なしとしてステップS208に進み、その他の画像であればステップS206に進む。
ステップS206:元の画像(カラー多値画像等その他の画像)において、S204で抽出された各構成要素について、色情報を抽出(例えば、RGB(赤・緑・青)それぞれ8ビット(256階調)のいずれに属するか判別)する。次にステップS207に進む。
ステップS207:ステップS206で抽出された色情報を特徴量として、S204で抽出された形状の特徴量に追加する。
ステップS208:ステップS204、ステップS207で得られた特徴量を帳票書式データとして登録する。
以上の登録処理により登録帳票の帳票書式データが認識辞書に追加される。
図3〜図6を用いて、図2の処理におけるステップS206について、より詳細に説明する。
図3において、枠線301によって輪郭が設定された表枠に、複数(図3では3行3列の9個)のセル(便宜的に描いた矩形302等で示す。)が設けられ、各セルには、必要に応じて文字等が記入されている。図3では、1行1列のセル302に文字は含まれず、1行2列のセルには「2002」の文字(文字領域301)が含まれ、1行3列のセルには「2003」の文字(文字領域303)が含まれ、2行1列のセルには「A」の文字が含まれ、2行2列のセルには「123456」および「777」の2行の文字が含まれ、2行3列のセルには文字は含まれず、3行1列のセルには「B」の文字が含まれ、3行2列のセルには文字は含まれず、3行3列のセルには「99988」の文字が含まれる。すなわち1行2列、1行3列、2行1列、2行2列、3行1列および3行3列の各セルは文字領域である。また1行1列、3行2列のセルは文字領域ではない。
図4において、図3の表枠におけるセル内の色情報抽出は以下のステップにより実行される。
ステップS401:入力されたその他の画像において、表枠内の文字領域、すなわち1行2列、1行3列、2行1列、2行2列、3行1列および3行3列の各文字領域(点線の矩形領域部分)を除去する。
ステップS402:ステップS401で除去された文字領域以外の領域に基づいて各セルの色情報の平均値を算出し、この平均値をセル色の色情報とする。
図5において、図3の表枠における文字色抽出処理は以下のステップにより実行される。
ステップS501:図3の表枠における1行2列、1行3列、2行1列、2行2列、3行1列および3行3列の文字領域について、文字の画素を「1」、背景画素を「0」とする2値画像を生成し、この2値画像と元のカラー画像との論理積を取る。これによって、文字画素のみが抽出される。
ステップS502:ステップS501で抽出された文字のカラー画素群について、色情報の平均値を算出し、この平均値を文字色の色情報とする。
図6において、図3の表枠における罫線色抽出処理は以下のステップにより実行される。
ステップS601:図3の表枠における全てのセル内領域を除去し、罫線のみのカラー画像を生成する。
ステップS602:S601で残った罫線部分の画素の平均値を罫線色の色情報とする。
このように、図4〜6で抽出された各色情報を、ステップS206で抽出される色情報とする。
図2の処理により登録された帳票書式データ等により構成される認識辞書を用いて、入力帳票画像との類似度が最も高い登録帳票を抽出する認識処理は図7の各ステップによって実行される。
ステップS701:図2のステップS201と同様に、イメージスキャナ108等から認識対象の帳票画像(検索帳票)を入力する。
ステップS702:図2のステップS202と同様に、ステップS701で入力された帳票画像が白黒2値画像かを判断し、白黒2値画像の場合はステップS704に進み、その他の画像の場合はステップS703に進む。
ステップS703:図2のステップS203と同様に、その他の画像を白黒2値画像に変換し、ステップS704に進む。
ステップS704:図2のステップS204と同様に、白黒2値画像において形状に関する特徴量を抽出する。
ステップS705:図2のステップS205と同様に、再び、入力帳票画像が白黒2値画像か否か判定し、白黒2値画像であればステップS707に進み、その他の画像であれば、ステップS706に進む。
ステップS706:元のカラー画像において、S704で抽出された各構成要素について、図2のステップS206の処理と同様にして色情報を抽出する。次にステップS707に進む。
ステップS707:形状の特徴量を用いて、検索帳票と、認識辞書中の1個の登録帳票との類似度を算出する。
ステップS708:ステップS707で評価対象となった登録帳票と、検索帳票との両者がカラー帳票であるか否かを判断する。検索帳票、登録帳票の両者がカラー帳票(白黒多値帳票を含む。以下同じ。)であったときは、ステップS709に進み、検索帳票、登録帳票のいずれかがカラー帳票でなかったときはステップS710にジャンプする。
ステップS709:ステップS707で評価対象とされた登録帳票と検索帳票との対応構成要素、たとえば表枠の対応セル、対応罫線、対応文字などについて色情報を比較し、同一色と判断された場合、ステップS707で得られた類似度に所定の数値を加算する。色の同一の判断は、R、G、Bの各色成分について所定の許容範囲内であれば、同一と判断する。これは、帳票画像の印刷による発色、スキャナによる色の検出精度にばらつきが生じる可能性があることによる。
加算する類似度(Scとする。)は実験等により最適値が求められ、例えば、形状特徴量による類似度(Sf)の最大値に対し、所定比率r(例えば20%)を上限とし、色情報の比較対照となった構成要素(K個とする。)のうち、同一色と判断された構成要素(k個とする。)の比率(k/K)に基づいて加算する類似度(Sc=rkSf/K)を求める。
例えば、構成要素K=9個のうち、k=2個の構成要素の色が一致したとき、r=0.2とすると、Sc=(0.2*2/9)*Sf=0.044*Sfの数値を形状特徴量の類似度Sfに加算する。
また、色情報に関して同一色の構成要素の評価に重みを与え、例えばセル、罫線、文字の色の一致による加算値を変化させてもよい。
ステップS710:ステップS709に続いて、検索帳票とすべての登録帳票との類似度計算が完了したか否か判断し、完了したときはステップS711に進み、まだ類似度を算出していない登録帳票が存在するときはステップS707に戻る。
ステップS711:ステップS707またはステップS709で算出された類似度をソートし、最も類似度が高い登録帳票を帳票認識結果とする。
なお、最も高い類似度があらかじめ定められた閾値に達しない場合は、入力帳票が登録帳票内になかったと判断するようにしてもよい。
以上説明したように、実施例1は、色情報を持たない帳票については、形状特徴量のみによる類似度を計算し、色情報を持つ帳票については、類似度に色情報の評価結果を加味するので、カラー帳票と白黒2値帳票を統一的に認識処理でき、カラー帳票はより高精度に帳票認識できる。
これによって当初白黒2値帳票のみを認識処理していた環境において、容易にカラー帳票を導入し得る。
図8において、図1の帳票認識装置で実行可能な各種データ処理プログラムを格納する記憶媒体のメモリマップは、ディレクトリ情報を格納する領域と、図2のフローチャートの各ステップに対応するプログラムコード群を格納する領域、および図7のフローチャートの各ステップに対応するプログラムコード群を格納する領域が設けられる。
なお、特に図示しないが、各種プログラムに従属するデータ、例えば認識辞書なども上記ディレクトリ情報の領域において管理され、各種プログラムをコンピュータにインストールするためのプログラム等が記憶媒体に記憶される場合もある。
次に、図1の帳票認識装置において実行される帳票認識方法の実施例2を図面に基づいて説明する。図9は、図1の帳票認識装置で実施される帳票認識方法の実施例2における認識処理を示すフローチャートである。
実施例2は、形状特徴量の類似度が低い登録帳票については色情報に基づく類似度評価を省略する。
図9において、実施例2の認識処理は以下の各ステップによって実行される。
ステップS901:図7のステップS701と同様に、イメージスキャナ108等から検索帳票の画像を入力する。
ステップS902:図7のステップS702と同様に、ステップS701で入力された帳票画像が白黒2値画像か否かを判断し、白黒2値画像の場合はステップS911に進み、その他の画像の場合はステップS903に進む。
ステップS903:図7のステップS703と同様に、その他の画像を白黒2値画像に変換し、ステップS904に進む。
ステップS904:図7のステップS704と同様に、白黒2値画像において形状に関する特徴量を抽出する。
ステップS905:図7のステップ707と同様に、形状の特徴量を用いて、検索帳票と、認識辞書中の1個の登録帳票との類似度を算出する。
ステップS906:ステップS905で算出された類似度が所定の閾値以上か否かを判断する。類似度が閾値以上のときはステップS907に進み、類似度が閾値未満のときはステップS910にジャンプする。これによって類似度が低い登録帳票の色情報評価を省略する。
実施例1では、検索帳票、登録帳票の両者に色情報が存在する場合、色情報の類似度を加算するように構成したが、類似しない帳票同士では対応する構成要素が存在しない可能性が高いので、対応構成要素の色情報評価は無意味となることが多い。実施例2では、類似度が低い登録帳票の色情報評価を省略するので、認識精度を低下させることなく、処理速度を向上し得る。
ステップS907:検索帳票の色情報が既に抽出されているか否か判断する。色情報抽出が未処理であったときはステップS908に進み、色情報が既に抽出されていたときはステップS909にジャンプする。
ステップS908:検索帳票の色情報を抽出し、ステップS909に進む。
ステップS909:図7のステップS707と同様、ステップS908で抽出された色情報を使用し、ステップS905で評価対象とされた登録帳票と検索帳票との対応構成要素の色情報を比較し、同一色と判断された場合、ステップS905で得られた類似度に所定の数値を加算する。
ステップS910:図7のステップS710と同様に、ステップS909に続いて、検索帳票とすべての登録帳票との類似度計算が完了したか否か判断し、完了したときはステップS914に進み、未処理の登録帳票が存在するときはステップS906に戻る。
ステップS911:ステップS902で白黒2値画像と判断された場合は、ステップS904と同様に、検索帳票の形状の特徴量を抽出し、ステップS911に進む。
ステップS912:ステップS905と同様に、形状の特徴量を用いて、検索帳票と、認識辞書中の1個の登録帳票との類似度を算出する。
ステップS913:ステップS910と同様に、ステップS912に続いて、検索帳票とすべての登録帳票との類似度計算が完了したか否か判断し、完了したときはステップS914に進み、未処理の登録帳票が存在するときはステップS912に戻る。
ステップS914:ステップS905、ステップS909またはステップS912で算出された類似度をソートし、最も類似度が高い登録帳票を帳票認識結果とする。
以上説明したように、実施例2は、形状特徴量の類似度が低い登録帳票について、色情報による処理を行わないので、計算量が減少する効果がある。
上述した実施例1又は2では、検索帳票画像がグレースケール(白黒多値)画像である場合も、色情報を抽出(S705又はS908)して登録帳票と比較(S709又はS909)していた。
本実施例3では、検索帳票画像がグレースケール(白黒多値)画像であるときに、比較対象の登録帳票画像がカラー多値画像或いはカラー2値画像であれば、当該登録帳票画像をグレースケールに変換してから、色情報の類似度を算出する。
また、本発明の操作画面上にモノクロコピー画像検索ボタンを設け、該ボタンがONにされていると、検索帳票画像がグレースケール(白黒多値)画像であるときに、比較対象の登録帳票画像がカラー多値画像或いはカラー2値画像であれば、当該登録帳票画像をグレースケールに変換してから、色情報の類似度を算出するようにしてもよい。
このようにすることによって、モノクロコピー機によってコピーされて作成された帳票をスキャンして検索する場合においても、元のカラー帳票画像を高精度に検索可能となる。
また、上述した実施例1又は2では、画像が白黒2値か否か判断(S202、S205、S702、S705、S902)して処理を変えていたが、白黒(2値・多値)とカラー(2値・多値)とのいずれであるか判断して処理を変えるようにしてもよい。
例えば、操作画面上に、他機種コピー画像検索ボタンを設け、該ボタンがONにされていると、白黒(2値・多値)とカラー(2値・多値)とのいずれであるか判断して処理を変えるようにする。このようにすることによって、カラーモノクロ変換処理のアルゴリズムが本装置と異なるモノクロコピー機によってコピーされて作成された帳票をスキャンして検索する場合においても、色情報を用いずに形状に基づいて類似度を算出するので高精度に検索可能となる。
本発明に係る帳票認識装置の実施例1を示すブロック図である。(実施例1) 図1の帳票認識装置で実施される帳票認識方法の実施例1における登録処理を示すフローチャートである。(実施例1) 図1の帳票認識装置で処理される表枠の一例を示す図である。(実施例1) 図1の帳票認識装置で実施される帳票認識方法におけるセル内の色情報抽出処理を示すフローチャートである。(実施例1) 図1の帳票認識装置で実施される帳票認識方法における文字色抽出処理を示すフローチャートである。(実施例1) 図1の帳票認識装置で実施される帳票認識方法における罫線色抽出処理を示すフローチャートである。(実施例1) 図1の帳票認識装置で実施される帳票認識方法における認識処理を示すフローチャートである。(実施例1) 本発明に係る帳票認識装置で読みだし可能な各種データ処理プログラムを格納する記憶媒体のメモリマップを説明する図である。(実施例1) 図1の帳票認識装置で実施される帳票認識方法の実施例2における認識処理を示すフローチャートである。(実施例2)
符号の説明
101・・・CPU
102・・・ROM
103・・・RAM
104・・・外部記憶装置
105・・・ディスプレイ
106・・・キーボード
107・・・ポインティングデバイス
108・・・スキャナ部
109・・・ネットワークインターフェース

Claims (22)

  1. 帳票画像の特徴量を、登録帳票の特徴量と比較して、登録帳票の中から類似する登録帳票を抽出して、帳票画像の認識結果とする帳票認識装置であって、
    前記帳票画像に含まれる構成要素から形状の特徴量を抽出する形状特徴量抽出手段と、
    前記帳票画像がカラー画像であるときに前記帳票画像の色情報を抽出する色情報抽出手段と、
    前記抽出された形状の特徴量によって登録帳票との類似度を計算する類似度計算手段と、
    前記抽出された色情報についての類似度を算出し、前記類似度計算手段によって計算された類似度に、前記色情報についての類似度を加算する色情報類似度加算手段と、
    前記色情報類似度加算手段によって求められた類似度に基づいて、類似する登録帳票を決定する決定手段と、
    を有することを特徴とする帳票認識装置。
  2. 前記カラー画像とは、カラー多値画像と、カラー2値画像と、白黒多値画像とのうち、少なくともいずれかであることを特徴とする請求項1に記載の帳票認識装置。
  3. 前記帳票画像がカラー画像でないときに、前記決定手段は、前記形状特徴量抽出手段で抽出された特徴量に基づいて、類似する登録帳票を決定することを特徴とする請求項1に記載の帳票認識装置。
  4. 前記色情報類似度加算手段は、前記形状の特徴量から計算された類似度が閾値以上のときのみ、前記色情報についての類似度を算出し、前記類似度計算手段によって得られた類似度に、前記色情報についての類似度を加算することを特徴とする請求項1乃至3のいずれかに記載の帳票認識装置。
  5. 前記色情報類似度加算手段は、前記帳票画像および比較対象の登録帳票の両者がカラー画像である場合に、前記色情報についての類似度を算出し、前記類似度計算手段によって得られた類似度に、前記色情報についての類似度を加算することを特徴とする請求項1乃至4のいずれかに記載の帳票認識装置。
  6. 前記色情報抽出手段は、前記帳票画像に含まれる構成要素それぞれについて前記色情報を抽出することを特徴とする請求項1に記載の帳票認識装置。
  7. 前記色情報とは表枠内のセルの色、文字の色、表枠の罫線色のうちの少なくともいずれかであることを特徴とする請求項1に記載の帳票認識装置。
  8. 前記帳票画像の前記色情報と前記比較対象の登録帳票の前記色情報の差が所定値以下のとき、前記帳票画像と前記比較対象の登録帳票を同一色と判断することを特徴とする請求項1に記載の帳票認識装置。
  9. 前記色情報類似度加算手段は、形状特徴量の類似度と色情報の類似度とを重み付き加算することを特徴とする請求項1に記載の帳票認識装置。
  10. 重み付き加算の重みは可変であることを特徴とする請求項9に記載の帳票認識装置。
  11. 帳票画像の特徴量を、登録帳票の特徴量と比較して、登録帳票の中から類似する登録帳票を抽出して、帳票画像の認識結果とする帳票認識方法であって、
    前記帳票画像に含まれる構成要素から形状の特徴量を抽出する形状特徴量抽出工程と、
    前記帳票画像がカラー画像であるときに前記帳票画像の色情報を抽出する色情報抽出工程と、
    前記抽出された形状の特徴量によって登録帳票との類似度を計算する類似度計算工程と、
    前記抽出された色情報についての類似度を算出し、前記類似度計算工程で計算された類似度に、前記色情報についての類似度を加算する色情報類似度加算工程と、
    前記色情報類似度加算工程で求められた類似度に基づいて、類似する登録帳票を決定する決定工程と、
    を有することを特徴とする帳票認識方法。
  12. 前記カラー画像とは、カラー多値画像と、カラー2値画像と、白黒多値画像とのうち、少なくともいずれかであることを特徴とする請求項11に記載の帳票認識方法。
  13. 前記帳票画像がカラー画像でないときに、前記決定工程では、前記形状特徴量抽出工程で抽出された特徴量に基づいて、類似する登録帳票を決定することを特徴とする請求項11に記載の帳票認識方法。
  14. 前記色情報類似度加算工程は、前記形状の特徴量から計算された類似度が閾値以上のときのみ、前記色情報についての類似度を算出し、前記類似度計算手段によって得られた類似度に、前記色情報についての類似度を加算することを特徴とする請求項11乃至13のいずれかに記載の帳票認識方法。
  15. 前記色情報類似度加算工程では、前記帳票画像および比較対象の登録帳票の両者がカラー画像である場合に、前記色情報についての類似度を算出し、前記類似度計算工程で得られた類似度に、前記色情報についての類似度を加算することを特徴とする請求項11乃至14のいずれかに記載の帳票認識方法。
  16. 前記色情報抽出工程は、前記帳票画像に含まれる構成要素それぞれについて前記色情報を抽出することを特徴とする請求項11に記載の帳票認識方法。
  17. 前記色情報とは表枠内のセルの色、文字の色、表枠の罫線色のうちの少なくともいずれかであることを特徴とする請求項11に記載の帳票認識方法。
  18. 前記帳票画像の前記色情報と前記比較対象の登録帳票の前記色情報の差が所定値以下のとき、前記帳票画像と前記比較対象の登録帳票を同一色と判断することを特徴とする請求項11に記載の帳票認識方法。
  19. 前記色情報類似度加算工程は、形状特徴量の類似度と色情報の類似度とを重み付き加算することを特徴とする請求項11に記載の帳票認識方法。
  20. 重み付き加算の重みは可変であることを特徴とする請求項19に記載の帳票認識方法。
  21. 請求項11乃至20のいずれかに記載の帳票認識方法をコンピュータによって実現させるためのコンピュータ実行可能プログラム。
  22. 請求項11乃至20のいずれかに記載の帳票認識方法をコンピュータによって実現させるためのコンピュータ読取可能なプログラムを格納する記憶媒体。
JP2003398425A 2003-11-28 2003-11-28 帳票認識装置、方法、プログラムおよび記憶媒体 Pending JP2005157938A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003398425A JP2005157938A (ja) 2003-11-28 2003-11-28 帳票認識装置、方法、プログラムおよび記憶媒体
US10/997,537 US7508986B2 (en) 2003-11-28 2004-11-23 Document recognition device, document recognition method and program, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003398425A JP2005157938A (ja) 2003-11-28 2003-11-28 帳票認識装置、方法、プログラムおよび記憶媒体

Publications (1)

Publication Number Publication Date
JP2005157938A true JP2005157938A (ja) 2005-06-16

Family

ID=34723272

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003398425A Pending JP2005157938A (ja) 2003-11-28 2003-11-28 帳票認識装置、方法、プログラムおよび記憶媒体

Country Status (1)

Country Link
JP (1) JP2005157938A (ja)

Similar Documents

Publication Publication Date Title
CN107093172B (zh) 文字检测方法及系统
JP5298831B2 (ja) 画像処理装置及びプログラム
JP4065460B2 (ja) 画像処理方法及び装置
JP4859025B2 (ja) 類似画像検索装置、類似画像検索処理方法、プログラム及び情報記録媒体
US7623712B2 (en) Image processing method and apparatus
JP3792747B2 (ja) 文字認識装置及び方法
JP4607633B2 (ja) 文字方向識別装置、画像形成装置、プログラム、記憶媒体および文字方向識別方法
JP3727974B2 (ja) 画像処理装置及び方法
US20040213458A1 (en) Image processing method and system
JP2010062911A (ja) 画像処理装置、画像処理方法およびプログラム
US7277584B2 (en) Form recognition system, form recognition method, program and storage medium
JP4772819B2 (ja) 画像検索装置および画像検索方法
EP0933719B1 (en) Image processing method and apparatus
US6944340B1 (en) Method and apparatus for efficient determination of recognition parameters
CN110210467B (zh) 一种文本图像的公式定位方法、图像处理装置、存储介质
JP4867620B2 (ja) 画像処理装置及び画像処理プログラム
CN112560857B (zh) 文字区域边界检测方法、设备、存储介质及装置
US7508986B2 (en) Document recognition device, document recognition method and program, and storage medium
CN105868768A (zh) 一种识别图片是否带有特定标记的方法及系统
JP2005157938A (ja) 帳票認識装置、方法、プログラムおよび記憶媒体
JP2020047138A (ja) 情報処理装置
JP4328511B2 (ja) パターン認識装置、パターン認識方法、プログラムおよび記憶媒体
JP4697387B2 (ja) 原稿画像判定装置、原稿画像判定方法及びそのプログラム
JP4973603B2 (ja) 画像処理装置および画像処理プログラム
JP2002269574A (ja) 囲み領域抽出アルゴリズムの性能を向上させるランレングスに基づく連結成分と輪郭追跡

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050613

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060606

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080204

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080304