JP2001283152A - 帳票類判別装置、帳票類判別方法、およびこれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents

帳票類判別装置、帳票類判別方法、およびこれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number
JP2001283152A
JP2001283152A JP2000095514A JP2000095514A JP2001283152A JP 2001283152 A JP2001283152 A JP 2001283152A JP 2000095514 A JP2000095514 A JP 2000095514A JP 2000095514 A JP2000095514 A JP 2000095514A JP 2001283152 A JP2001283152 A JP 2001283152A
Authority
JP
Japan
Prior art keywords
image
image data
feature amount
reference image
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000095514A
Other languages
English (en)
Other versions
JP3842006B2 (ja
Inventor
Masatoshi Onishi
昌利 大西
Hiroshi Kameyama
博史 亀山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Glory Ltd
Original Assignee
Glory Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Glory Ltd filed Critical Glory Ltd
Priority to JP2000095514A priority Critical patent/JP3842006B2/ja
Priority to TW090105576A priority patent/TW504656B/zh
Priority to CNB011114630A priority patent/CN1162803C/zh
Priority to CA002341108A priority patent/CA2341108A1/en
Priority to US09/810,709 priority patent/US6813381B2/en
Priority to EP01302487A priority patent/EP1139272A3/en
Publication of JP2001283152A publication Critical patent/JP2001283152A/ja
Application granted granted Critical
Publication of JP3842006B2 publication Critical patent/JP3842006B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 帳票類の本質的特徴である罫線を利用して該
帳票類を判別する場合に、画像の変動に起因する判別精
度の低下を防ぎ、もって精度良く帳票類を判別するこ
と。 【解決手段】 罫線特徴抽出部102が判別対象となる
帳票の黒画素割合を求めるとともに、該黒画素割合をブ
ロックごとに加算して罫線特徴を抽出し、罫線特徴照合
部106が罫線特徴辞書104に登録済みの罫線特徴と
照合して帳票の種別を判定し、これでも判定できない場
合には、詳細判定部107が特定領域の画像データを特
定領域辞書105に登録した画像データ(文字など)と
照合する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、判別対象となる
帳票類の入力画像の画像データの特徴量をあらかじめ記
憶した参照画像の画像データの特徴量と比較して該帳票
類を判別する帳票類判別装置、帳票類判別方法、および
これらの方法をコンピュータに実行させるプログラムを
記録したコンピュータ読み取り可能な記録媒体に関し、
特に、帳票類の本質的特徴である罫線を利用して該帳票
類を判別する場合に、画像の変動に起因する判別精度の
低下を防ぎ、もって精度良く帳票類を判別することがで
きる帳票類判別装置、帳票類判別方法、および記録媒体
に関する。
【0002】
【従来の技術】従来、異なる種類の帳票を連続して印鑑
照合したり、該帳票に書き込まれた文字を認識するよう
な場合に、各帳票のフォーマットはそれぞれ異なるた
め、毎回帳票の種類を判別し、判別した帳票のフォーマ
ットに基づいて印鑑照合や文字認識をおこなう必要があ
る。
【0003】ここで、各帳票の所定の位置に判別コード
や判別マークをあらかじめ印刷しておき、この判別コー
ドや判別マークを確認して帳票の種類を判別することが
多いが、必ずしも各企業間で判別コードや判別マークを
付与するルールが合意されているわけではないので、こ
の判別コードや判別マークのみで帳票を正確に判別でき
ない場合がある。
【0004】このため、判別コードや判別マークによる
ことなく帳票を判別する技術が知られており、たとえば
特開平4−268685号公報には、入力された帳票画
像データから罫線の水平、垂直方向の線分を抽出して複
数エリアに分割し、エリアごとに抽出された線分の方
向、長さ、位置を用いて、ベクトルパターン化して標準
パターンの特徴ベクトルと比較照合する帳票類の種類判
別方法が開示されている。
【0005】
【発明が解決しようとする課題】しかしながら、この従
来技術のように線分を抽出して特徴量とする場合には、
画像の変動、たとえばスキャナの特性や回転補正などで
線分が途切れてしまうことがある。このため、線分間の
距離がある一定のしきい値以下であれば2線分をつなぐ
補間処理などをおこなう必要が生ずる。
【0006】しかし、かかる2線分の距離は画像の変動
によって変化するものであり、線分の距離がしきい値付
近の場合には、補間処理において、参照画像の特徴量抽
出時と判別処理時で異なった動作をする可能性があり、
帳票を正確に判別できなくなるという問題がある。
【0007】具体的には、スキャナの特性や回転補正な
どで途切れた線分を補間する処理をおこなう場合には、
所定の距離内の線分をつなぐことになるので、途切れた
線分だけでなく、本来別個の2本の線分までをもつない
でしまう可能性がある。たとえば、図6に示す帳票の住
所欄の郵便番号記入欄の各矩形枠を、2本の水平方向の
直線として捉えてしまい、登録時と異なる動作(つなぎ
処理をおこなったり、おこなわなかったり)をすること
により、特徴量の変動が大きく、性能が不安定である。
【0008】そこで、帳票の本質的特徴である罫線を利
用して該帳票を判別する場合に、画像の変動に起因する
判別精度の低下をいかに低減するかが極めて重要な課題
となっている。
【0009】この発明は、上述した従来技術による問題
点を解消するためになされたものであり、帳票類の本質
的特徴である罫線を利用して該帳票類を判別する場合
に、画像の変動などに起因する判別精度の低下を防ぎ、
もって精度良く帳票類を判別することができる帳票類判
別装置、帳票類判別方法、およびこれらの方法をコンピ
ュータに実行させるプログラムを記録したコンピュータ
読み取り可能な記録媒体を提供することを目的とする。
【0010】
【課題を解決するための手段】上述した課題を解決し、
目的を達成するため、請求項1の発明に係る帳票類判別
装置は、判別対象となる帳票類の入力画像の画像データ
の特徴量をあらかじめ記憶した参照画像の画像データの
特徴量と比較して前記帳票類を判別する帳票類判別装置
において、前記入力画像または参照画像の画像データの
各画素から水平方向または垂直方向にそれぞれ連接する
所定数の画素列内に所在する黒画素の割合を示す黒画素
割合を画素ごとに算定する算定手段と、前記画像データ
を複数のブロックに分割し、該分割した各ブロックごと
にブロック内に位置する各画素の黒画素割合を加算して
前記画像データの特徴量を抽出する抽出手段と、を備え
たことを特徴とする。
【0011】また、請求項2の発明に係る帳票類判別装
置は、請求項1の発明において、前記抽出手段により抽
出された参照画像に対応する特徴量を記憶する記憶手段
と、前記抽出手段により前記入力画像に対応する特徴量
が抽出された際に、該入力画像に対応する特徴量を前記
記憶手段に記憶した参照画像に対応する特徴量と比較し
て前記帳票類を判別する判別手段と、をさらに備えたこ
とを特徴とする。
【0012】また、請求項3の発明に係る帳票類判別装
置は、請求項2の発明において、前記判別手段は、前記
記憶手段に記憶した参照画像の特徴量と前記入力画像に
対応する特徴量との類似度にしたがって複数の帳票類候
補を取得する候補取得手段と、前記候補取得手段により
取得された各帳票類候補の参照画像の画像データと前記
入力画像の画像データに基づいて前記入力画像に対応す
る参照画像を特定する特定手段と、を備えたことを特徴
とする。
【0013】また、請求項4の発明に係る帳票類判別方
法は、判別対象となる帳票類の入力画像の画像データの
特徴量をあらかじめ記憶した参照画像の画像データの特
徴量と比較して前記帳票類を判別する帳票類判別方法に
おいて、前記入力画像または参照画像の画像データの各
画素から水平方向または垂直方向にそれぞれ連接する所
定数の画素列内に所在する黒画素の割合を示す黒画素割
合を画素ごとに算定する算定工程と、前記画像データを
複数のブロックに分割し、該分割した各ブロックごとに
ブロック内に位置する各画素の黒画素割合を加算して前
記画像データの特徴量を抽出する抽出工程と、を含んだ
ことを特徴とする。
【0014】また、請求項5の発明に係る帳票類判別方
法は、請求項4の発明において、前記抽出工程により抽
出された参照画像に対応する特徴量を記憶部に格納する
格納工程と、前記抽出工程により前記入力画像に対応す
る特徴量が抽出された際に、該入力画像に対応する特徴
量を前記記憶部に格納された参照画像に対応する特徴量
と比較して前記帳票類を判別する判別工程と、をさらに
含んだことを特徴とする。
【0015】また、請求項6の発明に係る帳票類判別方
法は、請求項7の発明において、前記判別工程は、前記
記憶部に格納された参照画像の特徴量と前記入力画像に
対応する特徴量との類似度にしたがって複数の帳票類候
補を取得する候補取得工程と、前記候補取得工程により
取得された各帳票類候補の参照画像の画像データと前記
入力画像の画像データに基づいて前記入力画像に対応す
る参照画像を特定する特定工程と、を含んだことを特徴
とする。
【0016】また、請求項7の発明に係る記録媒体は、
請求項4〜6のいずれか一つに記載された方法をコンピ
ュータに実行させるプログラムを記録したことで、その
プログラムを機械読み取り可能となり、これによって、
請求項4〜6のいずれか一つの動作をコンピュータによ
って実現することができる。
【0017】
【発明の実施の形態】以下に添付図面を参照して、この
発明に係る帳票類判別装置、帳票類判別方法、およびそ
の方法をコンピュータに実行させるプログラムを記録し
たコンピュータ読み取り可能な記録媒体の好適な実施の
形態を詳細に説明する。
【0018】図1は、本実施の形態で用いる帳票判別装
置の構成を示す機能ブロック図である。同図に示す帳票
判別装置10は、あらかじめ参照画像の特徴量を辞書と
して登録しておき、判別対象となる帳票の画像を入力し
たならば、この入力画像の特徴量を抽出して辞書と比較
することにより、帳票の種別を判定する装置である。
【0019】ここで、この帳票判別装置10で用いる特
徴量は、帳票にあらかじめ印刷された該帳票の本質的内
容をなす罫線を考慮した黒画素割合であるが、この装置
10では、線分補間処理などはおこなっていない。その
理由は、かかる線分補間処理をおこなうと判別精度が低
下するおそれがあるからである。なお、この黒画素割合
とは、注目画素から水平方向または垂直方向の所定区間
の画素列内に含まれる黒画素の割合のことであり、画像
データの各画素ごとに求める値である。
【0020】また、たとえば、罫線が全く同一で、印刷
される文字のみが異なるというように、この罫線を考慮
した黒画素割合のみでは帳票種別が判定できない場合が
あるので、この帳票判別装置10では、かかる場合に特
定領域内の画像データそのもの(文字など)を利用して
詳細判別をおこなうこととしている。
【0021】図1に示すように、この帳票判別装置10
は、画像入力部101と、罫線特徴抽出部102と、辞
書作成部103と、罫線特徴辞書104と、特定領域辞
書105と、罫線特徴照合部106と、詳細判定部10
7と、出力部108とからなる。なお、この罫線特徴抽
出部102は請求項1の算定手段および抽出手段に対応
し、罫線特徴辞書104は請求項2の記憶手段に対応
し、罫線特徴照合部106および詳細判定部107は請
求項2の判別手段に対応する。
【0022】画像入力部101は、帳票の画像データを
光学的に入力するスキャナであり、入力した画像データ
を罫線特徴抽出部102に出力する。なお、この画像入
力部101では、白画素が’0’の画素値を持ち黒画素
が’1’の画素値となる2値画像を罫線特徴抽出部10
2に出力するものとする。
【0023】罫線特徴抽出部102は、画像入力部10
1から受け取った2値画像データから罫線特徴(特徴
量)を抽出する処理部であり、具体的には、参照画像を
入力した場合には、この罫線特徴および画像データを辞
書作成部103に出力し、判別対象となる画像を入力し
た場合には、この罫線特徴および画像データを罫線特徴
照合部106に出力する。なお、参照画像の登録または
入力画像の判別は、図示しない切換スイッチなどを用い
ておこなう。
【0024】辞書作成部103は、罫線特徴抽出部10
2から参照画像の罫線特徴および画像データを受け取っ
た際に、これらの情報に基づいて辞書の作成または追加
をおこなう処理部であり、具体的には、罫線特徴および
帳票の種別を対応づけて罫線特徴辞書104に登録する
とともに、該帳票の一部(特定領域)の画像データを帳
票の種別と対応づけて特定領域辞書105に登録する。
【0025】罫線特徴辞書104は、各帳票の種別ごと
に罫線特徴を対応づけて記憶した辞書であり、特定領域
辞書105は、各帳票の種別ごとに特定領域の画像デー
タを対応づけて記憶した辞書である。なお、この特定領
域辞書105は、各帳票の種別ごとに特定領域の画像デ
ータに含まれる文字の内容をテキストデータとして記憶
することもできる。この際、画像データ自身は記憶しな
い。
【0026】罫線特徴照合部106は、判別対象となる
帳票の画像データの罫線特徴(特徴量)と罫線特徴辞書
104に記憶した各参照画像の罫線特徴(特徴量)とを
照合し、判別対象となる画像データとの距離に基づい
て、複数の候補を選択して画像データとともに詳細判定
部107に出力する処理部である。
【0027】なお、かかる照合処理としては、従来の文
字認識などで広く使用されている手法を適用することが
でき、たとえばユークリッド距離などに基づいて識別す
ることができる。
【0028】詳細判定部107は、罫線特徴照合部10
6から受け取った複数の候補のうちいずれの候補が最も
入力画像に近いかを詳細判定する処理部であり、具体的
には、罫線特徴照合部106から受け取った判別対象と
なる帳票の画像データから特定の領域の画像データを切
り出し、この画像データを特定領域辞書105に登録し
た画像データと照合する。
【0029】たとえば、図7(a)および(b)に示す
ように、2つの帳票の罫線が全く同一である場合には、
罫線特徴だけでは帳票の種別を判定することができない
ので、入力画像と参照画像の各特定領域内に含まれる文
字(帳票タイトルや会社名などの帳票の特徴をなす文字
列やロゴなど)を切り出して比較する。
【0030】また、参照画像の各特定領域内に含まれる
文字(帳票タイトルや会社名などの帳票の特徴をなす文
字列など)を切り出して、文字認識および知識処理を施
し、参照画像の特定領域として登録した文字の内容のテ
キストデータと比較する。
【0031】出力部108は、詳細判定部107から受
け取った判定結果を出力する処理部である。この判定結
果としては、判別対象となる帳票に最も近い登録帳票を
出力することができるが、複数の候補を順番付けして出
力することもできる。
【0032】次に、図1に示した罫線特徴抽出部102
による罫線特徴の抽出処理についてさらに具体的に説明
する。図2は、図1に示した罫線特徴抽出部102によ
る罫線特徴の抽出処理の概念を説明するための説明図で
ある。
【0033】同図(a)および(b)に示すように、こ
の罫線特徴抽出部102では、注目画素を中心として、
水平・垂直方向それぞれについて区間Pi(i=1,
2,3,…,K)(区間長pi×2+1(ドット))の
中に含まれる黒画素の割合(黒画素割合)を算出してい
る。
【0034】具体的には、同図(a)に示す水平方向の
区間1の場合には、注目画素から左右に8画素までの画
素値を調べる。ここでは、 区間長 = 8×2+1 =17ドット 区間内の黒画素数 = 11ドット となる。
【0035】ただし、ノイズや垂直方向の罫線(計数方
向とは違う方向の罫線)などの影響をなくすために、黒
画素の連続数があるしきい値以下のものは計数しないこ
ととする。たとえば、同図(a)では、黒画素Aおよび
Bはその連続数が1であるので計数しない。
【0036】このため、 黒画素割合 = (11―2)/17 = 0.529 となる。なお、水平方向の区間2および3、同図(b)
に示す垂直方向についても同様に求めることになる。
【0037】その後、帳票の画像をM×Nのブロックに
分割し、該ブロック内の各画素の黒画素割合を加算して
罫線特徴とする。なお、かかる罫線特徴の次元数はM×
N×2(水平・垂直)×K次元となる。
【0038】この際、黒画素割合があるしきい値よりも
大きいときのみ加算することとすれば、ノイズや手書き
記入文字などの変動要因を省くことができる。なぜな
ら、手書き記入文字やノイズは、罫線と比べて短い線分
の集まりであり、区間中の黒画素割合も小さくなるから
である。
【0039】次に、図1に示した罫線特徴抽出部102
による罫線特徴の抽出例についてさらに具体的に説明す
る。図3は、図1に示した罫線特徴抽出部102による
罫線特徴の抽出例を示す説明図である。
【0040】同図(a)に示す「ロの字」の入力画像が
ある場合に、区間の種類を1、区間長を3ドットとし、
連続数のしきい値を考えないものとすると、水平方向に
ついての各画素の黒画素割合は同図(b)に示すように
なり、垂直方向についての各画素の黒画素割合は同図
(c)のようになる。
【0041】そして、同図(d)に示すように画像を3
×3のブロックに分割し、同図(b)に示す水平方向の
各画素の黒画素割合をブロックごとに加算すると、同図
(e)に示す罫線特徴が得られる。また、同図(c)に
示す垂直方向の各画素の黒画素割合をブロックごとに加
算すると、同図(f)に示す罫線特徴が得られる。
【0042】このように、この罫線特徴抽出部102で
は、黒画素割合および罫線特徴を特徴量としたので、罫
線の線分の途切れを補間する処理を必要とせず、また、
回転補正などの処理で罫線の線分がとぎれたとしても安
定して特徴量を取得することができる。
【0043】また、図2に示したように区間を複数持つ
と、様々な長さの罫線の特徴を忠実に得ることができ
る。なお、本実施の形態ではおこなっていないが、特徴
抽出前に入力画像について罫線を太めるような処理をお
こない、回転による変動を押さえることもできる。ま
た、ぼかし処理などの文字認識で広く知られた認識率を
あげるための様々な処理を適用して、位置ずれに強い特
徴量などを取得することもできる。
【0044】次に、帳票を判別時の比較対象として辞書
登録する場合の処理手順について説明する。図4は、帳
票を判別時の比較対象として辞書登録する場合の処理手
順を示すフローチャートである。
【0045】同図に示すように、帳票を判別時の比較対
象として辞書登録する場合には、まず最初に帳票の画像
を画像入力部101から取り込み(ステップS40
1)、必要に応じて画像の前処理をおこなう(ステップ
S402)。ただし、この前処理には線分の補間処理な
どは含まれない。
【0046】その後、罫線特徴抽出部102が、あらか
じめ指定された区間についての水平・垂直方向の黒画素
割合を算定し(ステップS403)、この黒画素割合を
ブロックごとに加算して罫線特徴を抽出する(ステップ
S404)
【0047】そして、辞書作成部103は、罫線特徴抽
出部102により抽出された罫線特徴を罫線特徴辞書1
04に登録した後(ステップS405)、この罫線特徴
を罫線特徴辞書104に過去に登録された罫線特徴と照
合して判別可能であるか否かを確認する(ステップS4
06〜S407)。その結果、判別可能でない場合には
(ステップS407否定)、特定領域辞書105に特定
領域情報(特定領域の画像データ)を追加登録する処理
を繰り返し(ステップS408)、判別可能となった時
点で(ステップS407肯定)、処理を終了する。
【0048】たとえば、文字列によって詳細判定をおこ
なう場合には、あらかじめ各帳票上の特徴のある特定領
域(タイトルや会社名等の文字列)内の文字列(テキス
トデータ)とその位置を登録することになる。
【0049】上記一連の処理をおこなうことにより、帳
票の判別に先立って、各種帳票の罫線特徴および画像デ
ータを罫線特徴辞書104および特定領域辞書105に
それぞれ辞書登録することができる。
【0050】次に、図1に示した帳票判別装置10によ
る帳票の判別処理手順について説明する。図5は、図1
に示した帳票判別装置10による帳票の判別処理手順を
示すフローチャートである。
【0051】同図に示すように、帳票の種別を判別する
場合には、まず最初に帳票の画像を画像入力部101か
ら取り込み(ステップS501)、必要に応じて画像の
前処理をおこなう(ステップS502)。ただし、この
前処理には線分の補間処理などは含まれない。
【0052】その後、罫線特徴抽出部102が、あらか
じめ指定された区間についての水平・垂直方向の黒画素
割合を算定し(ステップS503)、この黒画素割合を
ブロックごとに加算して罫線特徴を抽出する(ステップ
S504)
【0053】そして、罫線特徴照合部106が、罫線特
徴抽出部102により抽出された罫線特徴と罫線特徴辞
書104に登録された罫線特徴と照合して(ステップS
505)、距離値が所定のしきい値以内であるか否かを
調べ、この距離順にしたがって帳票の候補を近い順にソ
ートしておく。
【0054】そして、所定のしきい値以内である場合に
は、詳細判定部107により詳細判定をおこなって(ス
テップS506)、判定結果を出力し(ステップS50
7)、所定のしきい値内でない場合には、そのまま詳細
判定部107を介して判定結果を出力する(ステップS
507)。
【0055】すなわち、かかる帳票の候補のうち、1位
と2位との間があるしきい値以上離れていれば1位のも
のを判定結果として出力することになるが、両者が離れ
ていないときには、特定領域の文字列を認識し、それで
も駄目なら別の特定領域も認識することになる。
【0056】上記一連の処理をおこなうことにより、罫
線特徴辞書104および特定領域辞書105に基づく罫
線特徴並びに特定領域内の画像データを利用した帳票の
判別をおこなうことができる。なお、特定領域内から切
り出した文字列を文字認識してテキストデータと比較し
て判別をおこなってもよい。
【0057】上述してきたように、本実施の形態では、
罫線特徴抽出部102が判別対象となる帳票の黒画素割
合を求めるとともに、該黒画素割合をブロックごとに加
算して罫線特徴を抽出し、罫線特徴照合部106が罫線
特徴辞書104に登録済みの罫線特徴と照合して帳票を
判別し、これでも判別できない場合には、詳細判定部1
07が特定領域の画像データを特定領域辞書105に登
録した画像データ(文字など)と照合するよう構成した
ので、入力画像の罫線の情報の変動や手書き記入文字な
どの変動要因を含んでいる場合であっても、安定した特
徴量を取得することができ、もって帳票の種類を精度良
く判別することができる。なお、区間長としては、たと
えば、1cm、2cm、4cm、8cmなどを用いると
よい。
【0058】
【発明の効果】以上説明したように、請求項1の発明に
よれば、入力画像または参照画像の画像データの各画素
から水平方向または垂直方向にそれぞれ連接する所定数
の画素列内に所在する黒画素の割合を示す黒画素割合を
画素ごとに算定しておき、画像データを複数のブロック
に分割し、該分割した各ブロックごとにブロック内に位
置する各画素の黒画素割合を加算して画像データの特徴
量を抽出するよう構成したので、入力画像の罫線の情報
の変動や手書き記入文字などの変動要因を含んでいる場
合であっても、安定した特徴量を取得することができ、
もって帳票の種類を精度良く判別することが可能な帳票
類判別装置が得られるという効果を奏する。
【0059】また、請求項2の発明によれば、抽出され
た参照画像に対応する特徴量を記憶手段に記憶してお
き、入力画像に対応する特徴量が抽出された際に、該入
力画像に対応する特徴量を記憶手段に記憶した参照画像
に対応する特徴量と比較して帳票類を判別するよう構成
したので、入力画像と参照画像の照合および判別を迅速
かつ効率良くおこなうことが可能な帳票類判別装置が得
られるという効果を奏する。
【0060】また、請求項3の発明によれば、記憶手段
に記憶した参照画像の特徴量と入力画像に対応する特徴
量との類似度にしたがって複数の帳票類候補を取得し、
取得した各帳票類候補の参照画像の画像データと入力画
像の画像データに基づいて入力画像に対応する参照画像
を特定するよう構成したので、罫線に基づく特徴量によ
って帳票類が判別できない場合であっても、該帳票類に
印刷された文字などに基づいて帳票類を正確に判別する
ことが可能な帳票類判別装置が得られるという効果を奏
する。
【0061】また、請求項4の発明によれば、入力画像
または参照画像の画像データの各画素から水平方向また
は垂直方向にそれぞれ連接する所定数の画素列内に所在
する黒画素の割合を示す黒画素割合を画素ごとに算定し
ておき、画像データを複数のブロックに分割し、該分割
した各ブロックごとにブロック内に位置する各画素の黒
画素割合を加算して画像データの特徴量を抽出するよう
構成したので、入力画像の罫線の情報の変動や手書き記
入文字などの変動要因を含んでいる場合であっても、安
定した特徴量を取得することができ、もって帳票の種類
を精度良く判別することが可能な帳票類判別方法が得ら
れるという効果を奏する。
【0062】また、請求項5の発明によれば、抽出され
た参照画像に対応する特徴量を記憶部に格納しておき、
入力画像に対応する特徴量が抽出された際に、該入力画
像に対応する特徴量を記憶手段に記憶した参照画像に対
応する特徴量と比較して帳票類を判別するよう構成した
ので、入力画像と参照画像の照合および判別を迅速かつ
効率良くおこなうことが可能な帳票類判別方法が得られ
るという効果を奏する。
【0063】また、請求項6の発明によれば、記憶部に
格納した参照画像の特徴量と入力画像に対応する特徴量
との類似度にしたがって複数の帳票類候補を取得し、取
得した各帳票類候補の参照画像の画像データと入力画像
の画像データに基づいて入力画像に対応する参照画像を
特定するよう構成したので、罫線に基づく特徴量によっ
て帳票類が判別できない場合であっても、該帳票類に印
刷された文字などに基づいて帳票類を正確に判別するこ
とが可能な帳票類判別方法が得られるという効果を奏す
る。
【0064】また、請求項7の発明によれば、請求項4
〜6のいずれか一つに記載された方法をコンピュータに
実行させるプログラムを記録したことで、そのプログラ
ムを機械読み取り可能となり、これによって、請求項4
〜6のいずれか一つの動作をコンピュータによって実現
することが可能な記録媒体が得られるという効果を奏す
る。
【図面の簡単な説明】
【図1】この発明の実施の形態で用いる帳票判別装置の
構成を示す機能ブロック図である。
【図2】図1に示した罫線特徴抽出部による罫線特徴の
抽出処理の概念を説明するための説明図である。
【図3】図1に示した罫線特徴抽出部による罫線特徴の
抽出例を示す説明図である。
【図4】帳票を判別時の比較対象として辞書登録する場
合の処理手順を示すフローチャートである。
【図5】図1に示した帳票判別装置による帳票の判別処
理手順を示すフローチャートである。
【図6】本実施の形態で判別対象とする帳票の一例を示
す図である。
【図7】図1に示した詳細判定部により詳細判定される
帳票を説明するための説明図である。
【符号の説明】
10 帳票判別装置 101 画像入力部 102 罫線特徴抽出部 103 辞書作成部 104 罫線特徴辞書 105 特定領域辞書 106 罫線特徴照合部 107 詳細判定部 108 出力部
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5B029 BB02 CC13 CC26 EE12 5B075 ND08 NK06 PP04 PP12 5L096 BA08 BA18 EA04 FA03 FA54 GA19 GA28 HA08 JA11 JA16

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 判別対象となる帳票類の入力画像の画像
    データの特徴量を、あらかじめ記憶した参照画像の画像
    データの特徴量と比較して前記帳票類を判別する帳票類
    判別装置において、 前記入力画像または参照画像の画像データの各画素から
    水平方向または垂直方向にそれぞれ連接する所定数の画
    素列内に所在する黒画素の割合を示す黒画素割合を画素
    ごとに算定する算定手段と、 前記画像データを複数のブロックに分割し、該分割した
    各ブロックごとにブロック内に位置する各画素の黒画素
    割合を加算して前記画像データの特徴量を抽出する抽出
    手段と、 を備えたことを特徴とする帳票類判別装置。
  2. 【請求項2】 前記抽出手段により抽出された参照画像
    に対応する特徴量を記憶する記憶手段と、前記抽出手段
    により前記入力画像に対応する特徴量が抽出された際
    に、該入力画像に対応する特徴量を前記記憶手段に記憶
    した参照画像に対応する特徴量と比較して前記帳票類を
    判別する判別手段と、をさらに備えたことを特徴とする
    請求項1に記載の帳票類判別装置。
  3. 【請求項3】 前記判別手段は、前記記憶手段に記憶し
    た参照画像の特徴量と前記入力画像に対応する特徴量と
    の類似度にしたがって複数の帳票類候補を取得する候補
    取得手段と、前記候補取得手段により取得された各帳票
    類候補の参照画像の画像データと前記入力画像の画像デ
    ータに基づいて前記入力画像に対応する参照画像を特定
    する特定手段と、を備えたことを特徴とする請求項2に
    記載の帳票類判別装置。
  4. 【請求項4】 判別対象となる帳票類の入力画像の画像
    データの特徴量を、あらかじめ記憶した参照画像の画像
    データの特徴量と比較して前記帳票類を判別する帳票類
    判別方法において、 前記入力画像または参照画像の画像データの各画素から
    水平方向または垂直方向にそれぞれ連接する所定数の画
    素列内に所在する黒画素の割合を示す黒画素割合を画素
    ごとに算定する算定工程と、 前記画像データを複数のブロックに分割し、該分割した
    各ブロックごとにブロック内に位置する各画素の黒画素
    割合を加算して前記画像データの特徴量を抽出する抽出
    工程と、 を含んだことを特徴とする帳票類判別方法。
  5. 【請求項5】 前記抽出工程により抽出された参照画像
    に対応する特徴量を記憶部に格納する格納工程と、前記
    抽出工程により前記入力画像に対応する特徴量が抽出さ
    れた際に、該入力画像に対応する特徴量を前記記憶部に
    格納された参照画像に対応する特徴量と比較して前記帳
    票類を判別する判別工程と、をさらに含んだことを特徴
    とする請求項4に記載の帳票類判別方法。
  6. 【請求項6】 前記判別工程は、前記記憶部に格納され
    た参照画像の特徴量と前記入力画像に対応する特徴量と
    の類似度にしたがって複数の帳票類候補を取得する候補
    取得工程と、前記候補取得工程により取得された各帳票
    類候補の参照画像の画像データと前記入力画像の画像デ
    ータに基づいて前記入力画像に対応する参照画像を特定
    する特定工程と、を含んだことを特徴とする請求項5に
    記載の帳票類判別方法。
  7. 【請求項7】 前記請求項4〜6のいずれか一つに記載
    された方法をコンピュータに実行させるプログラムを記
    録したことを特徴とするコンピュータ読み取り可能な記
    録媒体。
JP2000095514A 2000-03-30 2000-03-30 帳票類判別装置、帳票類判別方法、およびこれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 Expired - Fee Related JP3842006B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2000095514A JP3842006B2 (ja) 2000-03-30 2000-03-30 帳票類判別装置、帳票類判別方法、およびこれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
TW090105576A TW504656B (en) 2000-03-30 2001-03-09 Device and method for discrimination of forms and computer readable recording medium stored with program for allowing computer to execute the same method
CNB011114630A CN1162803C (zh) 2000-03-30 2001-03-14 票单类判别装置和方法
CA002341108A CA2341108A1 (en) 2000-03-30 2001-03-16 Method and apparatus for identification of documents, and computer product
US09/810,709 US6813381B2 (en) 2000-03-30 2001-03-19 Method and apparatus for identification of documents, and computer product
EP01302487A EP1139272A3 (en) 2000-03-30 2001-03-19 Method and apparatus for identification of documents, and computer product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000095514A JP3842006B2 (ja) 2000-03-30 2000-03-30 帳票類判別装置、帳票類判別方法、およびこれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JP2001283152A true JP2001283152A (ja) 2001-10-12
JP3842006B2 JP3842006B2 (ja) 2006-11-08

Family

ID=18610410

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000095514A Expired - Fee Related JP3842006B2 (ja) 2000-03-30 2000-03-30 帳票類判別装置、帳票類判別方法、およびこれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Country Status (6)

Country Link
US (1) US6813381B2 (ja)
EP (1) EP1139272A3 (ja)
JP (1) JP3842006B2 (ja)
CN (1) CN1162803C (ja)
CA (1) CA2341108A1 (ja)
TW (1) TW504656B (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005267408A (ja) * 2004-03-19 2005-09-29 Canon Inc 帳票認識装置及びその制御方法、プログラム
JP2013196611A (ja) * 2012-03-22 2013-09-30 Fuji Xerox Co Ltd 帳票判別装置及びプログラム
JP2017021550A (ja) * 2015-07-10 2017-01-26 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP2017090974A (ja) * 2015-11-02 2017-05-25 富士ゼロックス株式会社 画像処理装置及びプログラム

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3925112B2 (ja) 2001-06-20 2007-06-06 富士ゼロックス株式会社 画像処理装置
US20040030780A1 (en) * 2002-08-08 2004-02-12 International Business Machines Corporation Automatic search responsive to an invalid request
US7207004B1 (en) * 2004-07-23 2007-04-17 Harrity Paul A Correction of misspelled words
US8369655B2 (en) 2006-07-31 2013-02-05 Ricoh Co., Ltd. Mixed media reality recognition using multiple specialized indexes
US7702673B2 (en) 2004-10-01 2010-04-20 Ricoh Co., Ltd. System and methods for creation and use of a mixed media environment
US8838591B2 (en) 2005-08-23 2014-09-16 Ricoh Co., Ltd. Embedding hot spots in electronic documents
US9530050B1 (en) 2007-07-11 2016-12-27 Ricoh Co., Ltd. Document annotation sharing
US7970171B2 (en) 2007-01-18 2011-06-28 Ricoh Co., Ltd. Synthetic image and video generation from ground truth data
US8335789B2 (en) 2004-10-01 2012-12-18 Ricoh Co., Ltd. Method and system for document fingerprint matching in a mixed media environment
US8825682B2 (en) 2006-07-31 2014-09-02 Ricoh Co., Ltd. Architecture for mixed media reality retrieval of locations and registration of images
US8176054B2 (en) 2007-07-12 2012-05-08 Ricoh Co. Ltd Retrieving electronic documents by converting them to synthetic text
US8600989B2 (en) 2004-10-01 2013-12-03 Ricoh Co., Ltd. Method and system for image matching in a mixed media environment
US8510283B2 (en) 2006-07-31 2013-08-13 Ricoh Co., Ltd. Automatic adaption of an image recognition system to image capture devices
US8195659B2 (en) 2005-08-23 2012-06-05 Ricoh Co. Ltd. Integration and use of mixed media documents
US8385589B2 (en) 2008-05-15 2013-02-26 Berna Erol Web-based content detection in images, extraction and recognition
US9171202B2 (en) 2005-08-23 2015-10-27 Ricoh Co., Ltd. Data organization and access for mixed media document system
US9373029B2 (en) * 2007-07-11 2016-06-21 Ricoh Co., Ltd. Invisible junction feature recognition for document security or annotation
US8856108B2 (en) 2006-07-31 2014-10-07 Ricoh Co., Ltd. Combining results of image retrieval processes
US9384619B2 (en) 2006-07-31 2016-07-05 Ricoh Co., Ltd. Searching media content for objects specified using identifiers
US8868555B2 (en) 2006-07-31 2014-10-21 Ricoh Co., Ltd. Computation of a recongnizability score (quality predictor) for image retrieval
US8156116B2 (en) 2006-07-31 2012-04-10 Ricoh Co., Ltd Dynamic presentation of targeted information in a mixed media reality recognition system
US8184155B2 (en) 2007-07-11 2012-05-22 Ricoh Co. Ltd. Recognition and tracking using invisible junctions
US8156427B2 (en) 2005-08-23 2012-04-10 Ricoh Co. Ltd. User interface for mixed media reality
US9405751B2 (en) 2005-08-23 2016-08-02 Ricoh Co., Ltd. Database for mixed media document system
US8332401B2 (en) 2004-10-01 2012-12-11 Ricoh Co., Ltd Method and system for position-based image matching in a mixed media environment
US8949287B2 (en) 2005-08-23 2015-02-03 Ricoh Co., Ltd. Embedding hot spots in imaged documents
US8276088B2 (en) 2007-07-11 2012-09-25 Ricoh Co., Ltd. User interface for three-dimensional navigation
US8989431B1 (en) 2007-07-11 2015-03-24 Ricoh Co., Ltd. Ad hoc paper-based networking with mixed media reality
US8521737B2 (en) 2004-10-01 2013-08-27 Ricoh Co., Ltd. Method and system for multi-tier image matching in a mixed media environment
JP2006148578A (ja) * 2004-11-19 2006-06-08 Sharp Corp 画像処理装置、画像読取装置、及び画像記録装置
US20060167929A1 (en) * 2005-01-25 2006-07-27 Amit Chakraborty Method for optimizing archival of XML documents
US9063952B2 (en) 2006-07-31 2015-06-23 Ricoh Co., Ltd. Mixed media reality recognition with image tracking
US8201076B2 (en) 2006-07-31 2012-06-12 Ricoh Co., Ltd. Capturing symbolic information from documents upon printing
US9020966B2 (en) 2006-07-31 2015-04-28 Ricoh Co., Ltd. Client device for interacting with a mixed media reality recognition system
US8489987B2 (en) 2006-07-31 2013-07-16 Ricoh Co., Ltd. Monitoring and analyzing creation and usage of visual content using image and hotspot interaction
US9176984B2 (en) 2006-07-31 2015-11-03 Ricoh Co., Ltd Mixed media reality retrieval of differentially-weighted links
US8676810B2 (en) 2006-07-31 2014-03-18 Ricoh Co., Ltd. Multiple index mixed media reality recognition using unequal priority indexes
JP4791295B2 (ja) * 2006-08-31 2011-10-12 富士通株式会社 罫線抽出プログラム、罫線抽出装置、罫線抽出方法
US20100100813A1 (en) * 2008-10-20 2010-04-22 Kabushiki Kaisha Toshiba Document processing apparatus and document processing method
JP5361524B2 (ja) * 2009-05-11 2013-12-04 キヤノン株式会社 パターン認識システム及びパターン認識方法
US8385660B2 (en) 2009-06-24 2013-02-26 Ricoh Co., Ltd. Mixed media reality indexing and retrieval for repeated content
JP4940270B2 (ja) * 2009-07-06 2012-05-30 シャープ株式会社 画像形成装置
US8363947B2 (en) * 2010-07-31 2013-01-29 International Business Machines Corporation Handwritten character recognition based on frequency variations in characters
US9360959B2 (en) 2010-10-12 2016-06-07 Tactonic Technologies, Llc Fusing depth and pressure imaging to provide object identification for multi-touch surfaces
US9058331B2 (en) 2011-07-27 2015-06-16 Ricoh Co., Ltd. Generating a conversation in a social network based on visual search results
US8489585B2 (en) * 2011-12-20 2013-07-16 Xerox Corporation Efficient document processing system and method
US10372981B1 (en) 2015-09-23 2019-08-06 Evernote Corporation Fast identification of text intensive pages from photographs
CN105184946B (zh) * 2015-10-20 2017-10-20 山大鲁能信息科技有限公司 一种防止选票堆积的电子票箱及其工作方法
US11275933B2 (en) * 2018-08-24 2022-03-15 Genpact Luxembourg S.Á R.L Systems and methods for segmentation of report corpus using visual signatures
JP2021152696A (ja) * 2020-03-24 2021-09-30 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
US11409981B1 (en) * 2021-03-31 2022-08-09 Intuit, Inc. Document classification using signal processing

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3096481B2 (ja) * 1991-02-22 2000-10-10 グローリー工業株式会社 帳票類の種類判別方法
GB2272594A (en) * 1992-11-04 1994-05-18 Ibm Determining the type of document image
JPH0721310A (ja) * 1993-06-30 1995-01-24 Matsushita Electric Ind Co Ltd 文書認識装置
US5521991A (en) * 1993-10-29 1996-05-28 International Business Machines Corporation Method and system for fast forms recognition of document form images
US6226402B1 (en) * 1996-12-20 2001-05-01 Fujitsu Limited Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
US6327387B1 (en) * 1996-12-27 2001-12-04 Fujitsu Limited Apparatus and method for extracting management information from image
JP3369088B2 (ja) 1997-11-21 2003-01-20 富士通株式会社 紙葉鑑別装置
JP4235286B2 (ja) * 1998-09-11 2009-03-11 キヤノン株式会社 表認識方法及び装置
JP3204245B2 (ja) * 1999-04-27 2001-09-04 インターナショナル・ビジネス・マシーンズ・コーポレーション 罫線除去方法および装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005267408A (ja) * 2004-03-19 2005-09-29 Canon Inc 帳票認識装置及びその制御方法、プログラム
JP2013196611A (ja) * 2012-03-22 2013-09-30 Fuji Xerox Co Ltd 帳票判別装置及びプログラム
JP2017021550A (ja) * 2015-07-10 2017-01-26 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP2017090974A (ja) * 2015-11-02 2017-05-25 富士ゼロックス株式会社 画像処理装置及びプログラム

Also Published As

Publication number Publication date
US20020018071A1 (en) 2002-02-14
CN1162803C (zh) 2004-08-18
TW504656B (en) 2002-10-01
JP3842006B2 (ja) 2006-11-08
EP1139272A2 (en) 2001-10-04
CN1315715A (zh) 2001-10-03
CA2341108A1 (en) 2001-09-30
EP1139272A3 (en) 2005-01-12
US6813381B2 (en) 2004-11-02

Similar Documents

Publication Publication Date Title
JP3842006B2 (ja) 帳票類判別装置、帳票類判別方法、およびこれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3639126B2 (ja) 住所認識装置及び住所認識方法
US5539841A (en) Method for comparing image sections to determine similarity therebetween
US6038351A (en) Apparatus and method for multi-entity, mixed document environment document identification and processing
US6259812B1 (en) Key character extraction and lexicon reduction cursive text recognition
JP2734386B2 (ja) 文字列読み取り装置
KR100412317B1 (ko) 문자인식/수정방법및장치
JPH05242292A (ja) 分離方法
CN109389115B (zh) 文本识别方法、装置、存储介质和计算机设备
CN111401099A (zh) 文本识别方法、装置以及存储介质
JP2000315247A (ja) 文字認識装置
CN114463767A (zh) 信用证识别方法、装置、计算机设备和存储介质
US6198846B1 (en) Character recognition system
US20030123730A1 (en) Document recognition system and method using vertical line adjacency graphs
JP2001022883A (ja) 文字認識方式及び該文字認識方式の機能を実現させるための記録媒体
JP3998439B2 (ja) 画像処理装置、画像処理方法およびこれらの方法をコンピュータに実行させるプログラム
JP3374762B2 (ja) 文字認識方法及びその装置
US11710331B2 (en) Systems and methods for separating ligature characters in digitized document images
JP2906758B2 (ja) 文字読取装置
JPH0528310A (ja) フオーム型文書識別装置
JPH10154191A (ja) 帳票識別方法及び装置並びに帳票識別プログラムを記録した媒体
JP3428504B2 (ja) 文字認識装置
JP4132234B2 (ja) 文字認識方法および装置および文字認識プログラムを記録した記録媒体
JP3100825B2 (ja) 線認識方法
JP2993533B2 (ja) 情報処理装置及び文字認識装置

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20051212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060414

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060418

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060619

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060809

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090818

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100818

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110818

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110818

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120818

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120818

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130818

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130818

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees