JP2001283152A - 帳票類判別装置、帳票類判別方法、およびこれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents
帳票類判別装置、帳票類判別方法、およびこれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体Info
- Publication number
- JP2001283152A JP2001283152A JP2000095514A JP2000095514A JP2001283152A JP 2001283152 A JP2001283152 A JP 2001283152A JP 2000095514 A JP2000095514 A JP 2000095514A JP 2000095514 A JP2000095514 A JP 2000095514A JP 2001283152 A JP2001283152 A JP 2001283152A
- Authority
- JP
- Japan
- Prior art keywords
- image
- image data
- feature amount
- reference image
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Discrimination (AREA)
Abstract
帳票類を判別する場合に、画像の変動に起因する判別精
度の低下を防ぎ、もって精度良く帳票類を判別するこ
と。 【解決手段】 罫線特徴抽出部102が判別対象となる
帳票の黒画素割合を求めるとともに、該黒画素割合をブ
ロックごとに加算して罫線特徴を抽出し、罫線特徴照合
部106が罫線特徴辞書104に登録済みの罫線特徴と
照合して帳票の種別を判定し、これでも判定できない場
合には、詳細判定部107が特定領域の画像データを特
定領域辞書105に登録した画像データ(文字など)と
照合する。
Description
帳票類の入力画像の画像データの特徴量をあらかじめ記
憶した参照画像の画像データの特徴量と比較して該帳票
類を判別する帳票類判別装置、帳票類判別方法、および
これらの方法をコンピュータに実行させるプログラムを
記録したコンピュータ読み取り可能な記録媒体に関し、
特に、帳票類の本質的特徴である罫線を利用して該帳票
類を判別する場合に、画像の変動に起因する判別精度の
低下を防ぎ、もって精度良く帳票類を判別することがで
きる帳票類判別装置、帳票類判別方法、および記録媒体
に関する。
照合したり、該帳票に書き込まれた文字を認識するよう
な場合に、各帳票のフォーマットはそれぞれ異なるた
め、毎回帳票の種類を判別し、判別した帳票のフォーマ
ットに基づいて印鑑照合や文字認識をおこなう必要があ
る。
や判別マークをあらかじめ印刷しておき、この判別コー
ドや判別マークを確認して帳票の種類を判別することが
多いが、必ずしも各企業間で判別コードや判別マークを
付与するルールが合意されているわけではないので、こ
の判別コードや判別マークのみで帳票を正確に判別でき
ない場合がある。
ことなく帳票を判別する技術が知られており、たとえば
特開平4−268685号公報には、入力された帳票画
像データから罫線の水平、垂直方向の線分を抽出して複
数エリアに分割し、エリアごとに抽出された線分の方
向、長さ、位置を用いて、ベクトルパターン化して標準
パターンの特徴ベクトルと比較照合する帳票類の種類判
別方法が開示されている。
来技術のように線分を抽出して特徴量とする場合には、
画像の変動、たとえばスキャナの特性や回転補正などで
線分が途切れてしまうことがある。このため、線分間の
距離がある一定のしきい値以下であれば2線分をつなぐ
補間処理などをおこなう必要が生ずる。
によって変化するものであり、線分の距離がしきい値付
近の場合には、補間処理において、参照画像の特徴量抽
出時と判別処理時で異なった動作をする可能性があり、
帳票を正確に判別できなくなるという問題がある。
どで途切れた線分を補間する処理をおこなう場合には、
所定の距離内の線分をつなぐことになるので、途切れた
線分だけでなく、本来別個の2本の線分までをもつない
でしまう可能性がある。たとえば、図6に示す帳票の住
所欄の郵便番号記入欄の各矩形枠を、2本の水平方向の
直線として捉えてしまい、登録時と異なる動作(つなぎ
処理をおこなったり、おこなわなかったり)をすること
により、特徴量の変動が大きく、性能が不安定である。
用して該帳票を判別する場合に、画像の変動に起因する
判別精度の低下をいかに低減するかが極めて重要な課題
となっている。
点を解消するためになされたものであり、帳票類の本質
的特徴である罫線を利用して該帳票類を判別する場合
に、画像の変動などに起因する判別精度の低下を防ぎ、
もって精度良く帳票類を判別することができる帳票類判
別装置、帳票類判別方法、およびこれらの方法をコンピ
ュータに実行させるプログラムを記録したコンピュータ
読み取り可能な記録媒体を提供することを目的とする。
目的を達成するため、請求項1の発明に係る帳票類判別
装置は、判別対象となる帳票類の入力画像の画像データ
の特徴量をあらかじめ記憶した参照画像の画像データの
特徴量と比較して前記帳票類を判別する帳票類判別装置
において、前記入力画像または参照画像の画像データの
各画素から水平方向または垂直方向にそれぞれ連接する
所定数の画素列内に所在する黒画素の割合を示す黒画素
割合を画素ごとに算定する算定手段と、前記画像データ
を複数のブロックに分割し、該分割した各ブロックごと
にブロック内に位置する各画素の黒画素割合を加算して
前記画像データの特徴量を抽出する抽出手段と、を備え
たことを特徴とする。
置は、請求項1の発明において、前記抽出手段により抽
出された参照画像に対応する特徴量を記憶する記憶手段
と、前記抽出手段により前記入力画像に対応する特徴量
が抽出された際に、該入力画像に対応する特徴量を前記
記憶手段に記憶した参照画像に対応する特徴量と比較し
て前記帳票類を判別する判別手段と、をさらに備えたこ
とを特徴とする。
置は、請求項2の発明において、前記判別手段は、前記
記憶手段に記憶した参照画像の特徴量と前記入力画像に
対応する特徴量との類似度にしたがって複数の帳票類候
補を取得する候補取得手段と、前記候補取得手段により
取得された各帳票類候補の参照画像の画像データと前記
入力画像の画像データに基づいて前記入力画像に対応す
る参照画像を特定する特定手段と、を備えたことを特徴
とする。
法は、判別対象となる帳票類の入力画像の画像データの
特徴量をあらかじめ記憶した参照画像の画像データの特
徴量と比較して前記帳票類を判別する帳票類判別方法に
おいて、前記入力画像または参照画像の画像データの各
画素から水平方向または垂直方向にそれぞれ連接する所
定数の画素列内に所在する黒画素の割合を示す黒画素割
合を画素ごとに算定する算定工程と、前記画像データを
複数のブロックに分割し、該分割した各ブロックごとに
ブロック内に位置する各画素の黒画素割合を加算して前
記画像データの特徴量を抽出する抽出工程と、を含んだ
ことを特徴とする。
法は、請求項4の発明において、前記抽出工程により抽
出された参照画像に対応する特徴量を記憶部に格納する
格納工程と、前記抽出工程により前記入力画像に対応す
る特徴量が抽出された際に、該入力画像に対応する特徴
量を前記記憶部に格納された参照画像に対応する特徴量
と比較して前記帳票類を判別する判別工程と、をさらに
含んだことを特徴とする。
法は、請求項7の発明において、前記判別工程は、前記
記憶部に格納された参照画像の特徴量と前記入力画像に
対応する特徴量との類似度にしたがって複数の帳票類候
補を取得する候補取得工程と、前記候補取得工程により
取得された各帳票類候補の参照画像の画像データと前記
入力画像の画像データに基づいて前記入力画像に対応す
る参照画像を特定する特定工程と、を含んだことを特徴
とする。
請求項4〜6のいずれか一つに記載された方法をコンピ
ュータに実行させるプログラムを記録したことで、その
プログラムを機械読み取り可能となり、これによって、
請求項4〜6のいずれか一つの動作をコンピュータによ
って実現することができる。
発明に係る帳票類判別装置、帳票類判別方法、およびそ
の方法をコンピュータに実行させるプログラムを記録し
たコンピュータ読み取り可能な記録媒体の好適な実施の
形態を詳細に説明する。
置の構成を示す機能ブロック図である。同図に示す帳票
判別装置10は、あらかじめ参照画像の特徴量を辞書と
して登録しておき、判別対象となる帳票の画像を入力し
たならば、この入力画像の特徴量を抽出して辞書と比較
することにより、帳票の種別を判定する装置である。
徴量は、帳票にあらかじめ印刷された該帳票の本質的内
容をなす罫線を考慮した黒画素割合であるが、この装置
10では、線分補間処理などはおこなっていない。その
理由は、かかる線分補間処理をおこなうと判別精度が低
下するおそれがあるからである。なお、この黒画素割合
とは、注目画素から水平方向または垂直方向の所定区間
の画素列内に含まれる黒画素の割合のことであり、画像
データの各画素ごとに求める値である。
される文字のみが異なるというように、この罫線を考慮
した黒画素割合のみでは帳票種別が判定できない場合が
あるので、この帳票判別装置10では、かかる場合に特
定領域内の画像データそのもの(文字など)を利用して
詳細判別をおこなうこととしている。
は、画像入力部101と、罫線特徴抽出部102と、辞
書作成部103と、罫線特徴辞書104と、特定領域辞
書105と、罫線特徴照合部106と、詳細判定部10
7と、出力部108とからなる。なお、この罫線特徴抽
出部102は請求項1の算定手段および抽出手段に対応
し、罫線特徴辞書104は請求項2の記憶手段に対応
し、罫線特徴照合部106および詳細判定部107は請
求項2の判別手段に対応する。
光学的に入力するスキャナであり、入力した画像データ
を罫線特徴抽出部102に出力する。なお、この画像入
力部101では、白画素が’0’の画素値を持ち黒画素
が’1’の画素値となる2値画像を罫線特徴抽出部10
2に出力するものとする。
1から受け取った2値画像データから罫線特徴(特徴
量)を抽出する処理部であり、具体的には、参照画像を
入力した場合には、この罫線特徴および画像データを辞
書作成部103に出力し、判別対象となる画像を入力し
た場合には、この罫線特徴および画像データを罫線特徴
照合部106に出力する。なお、参照画像の登録または
入力画像の判別は、図示しない切換スイッチなどを用い
ておこなう。
2から参照画像の罫線特徴および画像データを受け取っ
た際に、これらの情報に基づいて辞書の作成または追加
をおこなう処理部であり、具体的には、罫線特徴および
帳票の種別を対応づけて罫線特徴辞書104に登録する
とともに、該帳票の一部(特定領域)の画像データを帳
票の種別と対応づけて特定領域辞書105に登録する。
に罫線特徴を対応づけて記憶した辞書であり、特定領域
辞書105は、各帳票の種別ごとに特定領域の画像デー
タを対応づけて記憶した辞書である。なお、この特定領
域辞書105は、各帳票の種別ごとに特定領域の画像デ
ータに含まれる文字の内容をテキストデータとして記憶
することもできる。この際、画像データ自身は記憶しな
い。
帳票の画像データの罫線特徴(特徴量)と罫線特徴辞書
104に記憶した各参照画像の罫線特徴(特徴量)とを
照合し、判別対象となる画像データとの距離に基づい
て、複数の候補を選択して画像データとともに詳細判定
部107に出力する処理部である。
字認識などで広く使用されている手法を適用することが
でき、たとえばユークリッド距離などに基づいて識別す
ることができる。
6から受け取った複数の候補のうちいずれの候補が最も
入力画像に近いかを詳細判定する処理部であり、具体的
には、罫線特徴照合部106から受け取った判別対象と
なる帳票の画像データから特定の領域の画像データを切
り出し、この画像データを特定領域辞書105に登録し
た画像データと照合する。
ように、2つの帳票の罫線が全く同一である場合には、
罫線特徴だけでは帳票の種別を判定することができない
ので、入力画像と参照画像の各特定領域内に含まれる文
字(帳票タイトルや会社名などの帳票の特徴をなす文字
列やロゴなど)を切り出して比較する。
文字(帳票タイトルや会社名などの帳票の特徴をなす文
字列など)を切り出して、文字認識および知識処理を施
し、参照画像の特定領域として登録した文字の内容のテ
キストデータと比較する。
け取った判定結果を出力する処理部である。この判定結
果としては、判別対象となる帳票に最も近い登録帳票を
出力することができるが、複数の候補を順番付けして出
力することもできる。
による罫線特徴の抽出処理についてさらに具体的に説明
する。図2は、図1に示した罫線特徴抽出部102によ
る罫線特徴の抽出処理の概念を説明するための説明図で
ある。
の罫線特徴抽出部102では、注目画素を中心として、
水平・垂直方向それぞれについて区間Pi(i=1,
2,3,…,K)(区間長pi×2+1(ドット))の
中に含まれる黒画素の割合(黒画素割合)を算出してい
る。
区間1の場合には、注目画素から左右に8画素までの画
素値を調べる。ここでは、 区間長 = 8×2+1 =17ドット 区間内の黒画素数 = 11ドット となる。
向とは違う方向の罫線)などの影響をなくすために、黒
画素の連続数があるしきい値以下のものは計数しないこ
ととする。たとえば、同図(a)では、黒画素Aおよび
Bはその連続数が1であるので計数しない。
に示す垂直方向についても同様に求めることになる。
分割し、該ブロック内の各画素の黒画素割合を加算して
罫線特徴とする。なお、かかる罫線特徴の次元数はM×
N×2(水平・垂直)×K次元となる。
大きいときのみ加算することとすれば、ノイズや手書き
記入文字などの変動要因を省くことができる。なぜな
ら、手書き記入文字やノイズは、罫線と比べて短い線分
の集まりであり、区間中の黒画素割合も小さくなるから
である。
による罫線特徴の抽出例についてさらに具体的に説明す
る。図3は、図1に示した罫線特徴抽出部102による
罫線特徴の抽出例を示す説明図である。
ある場合に、区間の種類を1、区間長を3ドットとし、
連続数のしきい値を考えないものとすると、水平方向に
ついての各画素の黒画素割合は同図(b)に示すように
なり、垂直方向についての各画素の黒画素割合は同図
(c)のようになる。
×3のブロックに分割し、同図(b)に示す水平方向の
各画素の黒画素割合をブロックごとに加算すると、同図
(e)に示す罫線特徴が得られる。また、同図(c)に
示す垂直方向の各画素の黒画素割合をブロックごとに加
算すると、同図(f)に示す罫線特徴が得られる。
は、黒画素割合および罫線特徴を特徴量としたので、罫
線の線分の途切れを補間する処理を必要とせず、また、
回転補正などの処理で罫線の線分がとぎれたとしても安
定して特徴量を取得することができる。
と、様々な長さの罫線の特徴を忠実に得ることができ
る。なお、本実施の形態ではおこなっていないが、特徴
抽出前に入力画像について罫線を太めるような処理をお
こない、回転による変動を押さえることもできる。ま
た、ぼかし処理などの文字認識で広く知られた認識率を
あげるための様々な処理を適用して、位置ずれに強い特
徴量などを取得することもできる。
登録する場合の処理手順について説明する。図4は、帳
票を判別時の比較対象として辞書登録する場合の処理手
順を示すフローチャートである。
象として辞書登録する場合には、まず最初に帳票の画像
を画像入力部101から取り込み(ステップS40
1)、必要に応じて画像の前処理をおこなう(ステップ
S402)。ただし、この前処理には線分の補間処理な
どは含まれない。
じめ指定された区間についての水平・垂直方向の黒画素
割合を算定し(ステップS403)、この黒画素割合を
ブロックごとに加算して罫線特徴を抽出する(ステップ
S404)
出部102により抽出された罫線特徴を罫線特徴辞書1
04に登録した後(ステップS405)、この罫線特徴
を罫線特徴辞書104に過去に登録された罫線特徴と照
合して判別可能であるか否かを確認する(ステップS4
06〜S407)。その結果、判別可能でない場合には
(ステップS407否定)、特定領域辞書105に特定
領域情報(特定領域の画像データ)を追加登録する処理
を繰り返し(ステップS408)、判別可能となった時
点で(ステップS407肯定)、処理を終了する。
なう場合には、あらかじめ各帳票上の特徴のある特定領
域(タイトルや会社名等の文字列)内の文字列(テキス
トデータ)とその位置を登録することになる。
票の判別に先立って、各種帳票の罫線特徴および画像デ
ータを罫線特徴辞書104および特定領域辞書105に
それぞれ辞書登録することができる。
る帳票の判別処理手順について説明する。図5は、図1
に示した帳票判別装置10による帳票の判別処理手順を
示すフローチャートである。
場合には、まず最初に帳票の画像を画像入力部101か
ら取り込み(ステップS501)、必要に応じて画像の
前処理をおこなう(ステップS502)。ただし、この
前処理には線分の補間処理などは含まれない。
じめ指定された区間についての水平・垂直方向の黒画素
割合を算定し(ステップS503)、この黒画素割合を
ブロックごとに加算して罫線特徴を抽出する(ステップ
S504)
徴抽出部102により抽出された罫線特徴と罫線特徴辞
書104に登録された罫線特徴と照合して(ステップS
505)、距離値が所定のしきい値以内であるか否かを
調べ、この距離順にしたがって帳票の候補を近い順にソ
ートしておく。
は、詳細判定部107により詳細判定をおこなって(ス
テップS506)、判定結果を出力し(ステップS50
7)、所定のしきい値内でない場合には、そのまま詳細
判定部107を介して判定結果を出力する(ステップS
507)。
と2位との間があるしきい値以上離れていれば1位のも
のを判定結果として出力することになるが、両者が離れ
ていないときには、特定領域の文字列を認識し、それで
も駄目なら別の特定領域も認識することになる。
線特徴辞書104および特定領域辞書105に基づく罫
線特徴並びに特定領域内の画像データを利用した帳票の
判別をおこなうことができる。なお、特定領域内から切
り出した文字列を文字認識してテキストデータと比較し
て判別をおこなってもよい。
罫線特徴抽出部102が判別対象となる帳票の黒画素割
合を求めるとともに、該黒画素割合をブロックごとに加
算して罫線特徴を抽出し、罫線特徴照合部106が罫線
特徴辞書104に登録済みの罫線特徴と照合して帳票を
判別し、これでも判別できない場合には、詳細判定部1
07が特定領域の画像データを特定領域辞書105に登
録した画像データ(文字など)と照合するよう構成した
ので、入力画像の罫線の情報の変動や手書き記入文字な
どの変動要因を含んでいる場合であっても、安定した特
徴量を取得することができ、もって帳票の種類を精度良
く判別することができる。なお、区間長としては、たと
えば、1cm、2cm、4cm、8cmなどを用いると
よい。
よれば、入力画像または参照画像の画像データの各画素
から水平方向または垂直方向にそれぞれ連接する所定数
の画素列内に所在する黒画素の割合を示す黒画素割合を
画素ごとに算定しておき、画像データを複数のブロック
に分割し、該分割した各ブロックごとにブロック内に位
置する各画素の黒画素割合を加算して画像データの特徴
量を抽出するよう構成したので、入力画像の罫線の情報
の変動や手書き記入文字などの変動要因を含んでいる場
合であっても、安定した特徴量を取得することができ、
もって帳票の種類を精度良く判別することが可能な帳票
類判別装置が得られるという効果を奏する。
た参照画像に対応する特徴量を記憶手段に記憶してお
き、入力画像に対応する特徴量が抽出された際に、該入
力画像に対応する特徴量を記憶手段に記憶した参照画像
に対応する特徴量と比較して帳票類を判別するよう構成
したので、入力画像と参照画像の照合および判別を迅速
かつ効率良くおこなうことが可能な帳票類判別装置が得
られるという効果を奏する。
に記憶した参照画像の特徴量と入力画像に対応する特徴
量との類似度にしたがって複数の帳票類候補を取得し、
取得した各帳票類候補の参照画像の画像データと入力画
像の画像データに基づいて入力画像に対応する参照画像
を特定するよう構成したので、罫線に基づく特徴量によ
って帳票類が判別できない場合であっても、該帳票類に
印刷された文字などに基づいて帳票類を正確に判別する
ことが可能な帳票類判別装置が得られるという効果を奏
する。
または参照画像の画像データの各画素から水平方向また
は垂直方向にそれぞれ連接する所定数の画素列内に所在
する黒画素の割合を示す黒画素割合を画素ごとに算定し
ておき、画像データを複数のブロックに分割し、該分割
した各ブロックごとにブロック内に位置する各画素の黒
画素割合を加算して画像データの特徴量を抽出するよう
構成したので、入力画像の罫線の情報の変動や手書き記
入文字などの変動要因を含んでいる場合であっても、安
定した特徴量を取得することができ、もって帳票の種類
を精度良く判別することが可能な帳票類判別方法が得ら
れるという効果を奏する。
た参照画像に対応する特徴量を記憶部に格納しておき、
入力画像に対応する特徴量が抽出された際に、該入力画
像に対応する特徴量を記憶手段に記憶した参照画像に対
応する特徴量と比較して帳票類を判別するよう構成した
ので、入力画像と参照画像の照合および判別を迅速かつ
効率良くおこなうことが可能な帳票類判別方法が得られ
るという効果を奏する。
格納した参照画像の特徴量と入力画像に対応する特徴量
との類似度にしたがって複数の帳票類候補を取得し、取
得した各帳票類候補の参照画像の画像データと入力画像
の画像データに基づいて入力画像に対応する参照画像を
特定するよう構成したので、罫線に基づく特徴量によっ
て帳票類が判別できない場合であっても、該帳票類に印
刷された文字などに基づいて帳票類を正確に判別するこ
とが可能な帳票類判別方法が得られるという効果を奏す
る。
〜6のいずれか一つに記載された方法をコンピュータに
実行させるプログラムを記録したことで、そのプログラ
ムを機械読み取り可能となり、これによって、請求項4
〜6のいずれか一つの動作をコンピュータによって実現
することが可能な記録媒体が得られるという効果を奏す
る。
構成を示す機能ブロック図である。
抽出処理の概念を説明するための説明図である。
抽出例を示す説明図である。
合の処理手順を示すフローチャートである。
理手順を示すフローチャートである。
す図である。
帳票を説明するための説明図である。
Claims (7)
- 【請求項1】 判別対象となる帳票類の入力画像の画像
データの特徴量を、あらかじめ記憶した参照画像の画像
データの特徴量と比較して前記帳票類を判別する帳票類
判別装置において、 前記入力画像または参照画像の画像データの各画素から
水平方向または垂直方向にそれぞれ連接する所定数の画
素列内に所在する黒画素の割合を示す黒画素割合を画素
ごとに算定する算定手段と、 前記画像データを複数のブロックに分割し、該分割した
各ブロックごとにブロック内に位置する各画素の黒画素
割合を加算して前記画像データの特徴量を抽出する抽出
手段と、 を備えたことを特徴とする帳票類判別装置。 - 【請求項2】 前記抽出手段により抽出された参照画像
に対応する特徴量を記憶する記憶手段と、前記抽出手段
により前記入力画像に対応する特徴量が抽出された際
に、該入力画像に対応する特徴量を前記記憶手段に記憶
した参照画像に対応する特徴量と比較して前記帳票類を
判別する判別手段と、をさらに備えたことを特徴とする
請求項1に記載の帳票類判別装置。 - 【請求項3】 前記判別手段は、前記記憶手段に記憶し
た参照画像の特徴量と前記入力画像に対応する特徴量と
の類似度にしたがって複数の帳票類候補を取得する候補
取得手段と、前記候補取得手段により取得された各帳票
類候補の参照画像の画像データと前記入力画像の画像デ
ータに基づいて前記入力画像に対応する参照画像を特定
する特定手段と、を備えたことを特徴とする請求項2に
記載の帳票類判別装置。 - 【請求項4】 判別対象となる帳票類の入力画像の画像
データの特徴量を、あらかじめ記憶した参照画像の画像
データの特徴量と比較して前記帳票類を判別する帳票類
判別方法において、 前記入力画像または参照画像の画像データの各画素から
水平方向または垂直方向にそれぞれ連接する所定数の画
素列内に所在する黒画素の割合を示す黒画素割合を画素
ごとに算定する算定工程と、 前記画像データを複数のブロックに分割し、該分割した
各ブロックごとにブロック内に位置する各画素の黒画素
割合を加算して前記画像データの特徴量を抽出する抽出
工程と、 を含んだことを特徴とする帳票類判別方法。 - 【請求項5】 前記抽出工程により抽出された参照画像
に対応する特徴量を記憶部に格納する格納工程と、前記
抽出工程により前記入力画像に対応する特徴量が抽出さ
れた際に、該入力画像に対応する特徴量を前記記憶部に
格納された参照画像に対応する特徴量と比較して前記帳
票類を判別する判別工程と、をさらに含んだことを特徴
とする請求項4に記載の帳票類判別方法。 - 【請求項6】 前記判別工程は、前記記憶部に格納され
た参照画像の特徴量と前記入力画像に対応する特徴量と
の類似度にしたがって複数の帳票類候補を取得する候補
取得工程と、前記候補取得工程により取得された各帳票
類候補の参照画像の画像データと前記入力画像の画像デ
ータに基づいて前記入力画像に対応する参照画像を特定
する特定工程と、を含んだことを特徴とする請求項5に
記載の帳票類判別方法。 - 【請求項7】 前記請求項4〜6のいずれか一つに記載
された方法をコンピュータに実行させるプログラムを記
録したことを特徴とするコンピュータ読み取り可能な記
録媒体。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000095514A JP3842006B2 (ja) | 2000-03-30 | 2000-03-30 | 帳票類判別装置、帳票類判別方法、およびこれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
TW090105576A TW504656B (en) | 2000-03-30 | 2001-03-09 | Device and method for discrimination of forms and computer readable recording medium stored with program for allowing computer to execute the same method |
CNB011114630A CN1162803C (zh) | 2000-03-30 | 2001-03-14 | 票单类判别装置和方法 |
CA002341108A CA2341108A1 (en) | 2000-03-30 | 2001-03-16 | Method and apparatus for identification of documents, and computer product |
US09/810,709 US6813381B2 (en) | 2000-03-30 | 2001-03-19 | Method and apparatus for identification of documents, and computer product |
EP01302487A EP1139272A3 (en) | 2000-03-30 | 2001-03-19 | Method and apparatus for identification of documents, and computer product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000095514A JP3842006B2 (ja) | 2000-03-30 | 2000-03-30 | 帳票類判別装置、帳票類判別方法、およびこれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001283152A true JP2001283152A (ja) | 2001-10-12 |
JP3842006B2 JP3842006B2 (ja) | 2006-11-08 |
Family
ID=18610410
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000095514A Expired - Fee Related JP3842006B2 (ja) | 2000-03-30 | 2000-03-30 | 帳票類判別装置、帳票類判別方法、およびこれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
Country Status (6)
Country | Link |
---|---|
US (1) | US6813381B2 (ja) |
EP (1) | EP1139272A3 (ja) |
JP (1) | JP3842006B2 (ja) |
CN (1) | CN1162803C (ja) |
CA (1) | CA2341108A1 (ja) |
TW (1) | TW504656B (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005267408A (ja) * | 2004-03-19 | 2005-09-29 | Canon Inc | 帳票認識装置及びその制御方法、プログラム |
JP2013196611A (ja) * | 2012-03-22 | 2013-09-30 | Fuji Xerox Co Ltd | 帳票判別装置及びプログラム |
JP2017021550A (ja) * | 2015-07-10 | 2017-01-26 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
JP2017090974A (ja) * | 2015-11-02 | 2017-05-25 | 富士ゼロックス株式会社 | 画像処理装置及びプログラム |
Families Citing this family (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3925112B2 (ja) | 2001-06-20 | 2007-06-06 | 富士ゼロックス株式会社 | 画像処理装置 |
US20040030780A1 (en) * | 2002-08-08 | 2004-02-12 | International Business Machines Corporation | Automatic search responsive to an invalid request |
US7207004B1 (en) * | 2004-07-23 | 2007-04-17 | Harrity Paul A | Correction of misspelled words |
US8369655B2 (en) | 2006-07-31 | 2013-02-05 | Ricoh Co., Ltd. | Mixed media reality recognition using multiple specialized indexes |
US7702673B2 (en) | 2004-10-01 | 2010-04-20 | Ricoh Co., Ltd. | System and methods for creation and use of a mixed media environment |
US8838591B2 (en) | 2005-08-23 | 2014-09-16 | Ricoh Co., Ltd. | Embedding hot spots in electronic documents |
US9530050B1 (en) | 2007-07-11 | 2016-12-27 | Ricoh Co., Ltd. | Document annotation sharing |
US7970171B2 (en) | 2007-01-18 | 2011-06-28 | Ricoh Co., Ltd. | Synthetic image and video generation from ground truth data |
US8335789B2 (en) | 2004-10-01 | 2012-12-18 | Ricoh Co., Ltd. | Method and system for document fingerprint matching in a mixed media environment |
US8825682B2 (en) | 2006-07-31 | 2014-09-02 | Ricoh Co., Ltd. | Architecture for mixed media reality retrieval of locations and registration of images |
US8176054B2 (en) | 2007-07-12 | 2012-05-08 | Ricoh Co. Ltd | Retrieving electronic documents by converting them to synthetic text |
US8600989B2 (en) | 2004-10-01 | 2013-12-03 | Ricoh Co., Ltd. | Method and system for image matching in a mixed media environment |
US8510283B2 (en) | 2006-07-31 | 2013-08-13 | Ricoh Co., Ltd. | Automatic adaption of an image recognition system to image capture devices |
US8195659B2 (en) | 2005-08-23 | 2012-06-05 | Ricoh Co. Ltd. | Integration and use of mixed media documents |
US8385589B2 (en) | 2008-05-15 | 2013-02-26 | Berna Erol | Web-based content detection in images, extraction and recognition |
US9171202B2 (en) | 2005-08-23 | 2015-10-27 | Ricoh Co., Ltd. | Data organization and access for mixed media document system |
US9373029B2 (en) * | 2007-07-11 | 2016-06-21 | Ricoh Co., Ltd. | Invisible junction feature recognition for document security or annotation |
US8856108B2 (en) | 2006-07-31 | 2014-10-07 | Ricoh Co., Ltd. | Combining results of image retrieval processes |
US9384619B2 (en) | 2006-07-31 | 2016-07-05 | Ricoh Co., Ltd. | Searching media content for objects specified using identifiers |
US8868555B2 (en) | 2006-07-31 | 2014-10-21 | Ricoh Co., Ltd. | Computation of a recongnizability score (quality predictor) for image retrieval |
US8156116B2 (en) | 2006-07-31 | 2012-04-10 | Ricoh Co., Ltd | Dynamic presentation of targeted information in a mixed media reality recognition system |
US8184155B2 (en) | 2007-07-11 | 2012-05-22 | Ricoh Co. Ltd. | Recognition and tracking using invisible junctions |
US8156427B2 (en) | 2005-08-23 | 2012-04-10 | Ricoh Co. Ltd. | User interface for mixed media reality |
US9405751B2 (en) | 2005-08-23 | 2016-08-02 | Ricoh Co., Ltd. | Database for mixed media document system |
US8332401B2 (en) | 2004-10-01 | 2012-12-11 | Ricoh Co., Ltd | Method and system for position-based image matching in a mixed media environment |
US8949287B2 (en) | 2005-08-23 | 2015-02-03 | Ricoh Co., Ltd. | Embedding hot spots in imaged documents |
US8276088B2 (en) | 2007-07-11 | 2012-09-25 | Ricoh Co., Ltd. | User interface for three-dimensional navigation |
US8989431B1 (en) | 2007-07-11 | 2015-03-24 | Ricoh Co., Ltd. | Ad hoc paper-based networking with mixed media reality |
US8521737B2 (en) | 2004-10-01 | 2013-08-27 | Ricoh Co., Ltd. | Method and system for multi-tier image matching in a mixed media environment |
JP2006148578A (ja) * | 2004-11-19 | 2006-06-08 | Sharp Corp | 画像処理装置、画像読取装置、及び画像記録装置 |
US20060167929A1 (en) * | 2005-01-25 | 2006-07-27 | Amit Chakraborty | Method for optimizing archival of XML documents |
US9063952B2 (en) | 2006-07-31 | 2015-06-23 | Ricoh Co., Ltd. | Mixed media reality recognition with image tracking |
US8201076B2 (en) | 2006-07-31 | 2012-06-12 | Ricoh Co., Ltd. | Capturing symbolic information from documents upon printing |
US9020966B2 (en) | 2006-07-31 | 2015-04-28 | Ricoh Co., Ltd. | Client device for interacting with a mixed media reality recognition system |
US8489987B2 (en) | 2006-07-31 | 2013-07-16 | Ricoh Co., Ltd. | Monitoring and analyzing creation and usage of visual content using image and hotspot interaction |
US9176984B2 (en) | 2006-07-31 | 2015-11-03 | Ricoh Co., Ltd | Mixed media reality retrieval of differentially-weighted links |
US8676810B2 (en) | 2006-07-31 | 2014-03-18 | Ricoh Co., Ltd. | Multiple index mixed media reality recognition using unequal priority indexes |
JP4791295B2 (ja) * | 2006-08-31 | 2011-10-12 | 富士通株式会社 | 罫線抽出プログラム、罫線抽出装置、罫線抽出方法 |
US20100100813A1 (en) * | 2008-10-20 | 2010-04-22 | Kabushiki Kaisha Toshiba | Document processing apparatus and document processing method |
JP5361524B2 (ja) * | 2009-05-11 | 2013-12-04 | キヤノン株式会社 | パターン認識システム及びパターン認識方法 |
US8385660B2 (en) | 2009-06-24 | 2013-02-26 | Ricoh Co., Ltd. | Mixed media reality indexing and retrieval for repeated content |
JP4940270B2 (ja) * | 2009-07-06 | 2012-05-30 | シャープ株式会社 | 画像形成装置 |
US8363947B2 (en) * | 2010-07-31 | 2013-01-29 | International Business Machines Corporation | Handwritten character recognition based on frequency variations in characters |
US9360959B2 (en) | 2010-10-12 | 2016-06-07 | Tactonic Technologies, Llc | Fusing depth and pressure imaging to provide object identification for multi-touch surfaces |
US9058331B2 (en) | 2011-07-27 | 2015-06-16 | Ricoh Co., Ltd. | Generating a conversation in a social network based on visual search results |
US8489585B2 (en) * | 2011-12-20 | 2013-07-16 | Xerox Corporation | Efficient document processing system and method |
US10372981B1 (en) | 2015-09-23 | 2019-08-06 | Evernote Corporation | Fast identification of text intensive pages from photographs |
CN105184946B (zh) * | 2015-10-20 | 2017-10-20 | 山大鲁能信息科技有限公司 | 一种防止选票堆积的电子票箱及其工作方法 |
US11275933B2 (en) * | 2018-08-24 | 2022-03-15 | Genpact Luxembourg S.Á R.L | Systems and methods for segmentation of report corpus using visual signatures |
JP2021152696A (ja) * | 2020-03-24 | 2021-09-30 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
US11409981B1 (en) * | 2021-03-31 | 2022-08-09 | Intuit, Inc. | Document classification using signal processing |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3096481B2 (ja) * | 1991-02-22 | 2000-10-10 | グローリー工業株式会社 | 帳票類の種類判別方法 |
GB2272594A (en) * | 1992-11-04 | 1994-05-18 | Ibm | Determining the type of document image |
JPH0721310A (ja) * | 1993-06-30 | 1995-01-24 | Matsushita Electric Ind Co Ltd | 文書認識装置 |
US5521991A (en) * | 1993-10-29 | 1996-05-28 | International Business Machines Corporation | Method and system for fast forms recognition of document form images |
US6226402B1 (en) * | 1996-12-20 | 2001-05-01 | Fujitsu Limited | Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof |
US6327387B1 (en) * | 1996-12-27 | 2001-12-04 | Fujitsu Limited | Apparatus and method for extracting management information from image |
JP3369088B2 (ja) | 1997-11-21 | 2003-01-20 | 富士通株式会社 | 紙葉鑑別装置 |
JP4235286B2 (ja) * | 1998-09-11 | 2009-03-11 | キヤノン株式会社 | 表認識方法及び装置 |
JP3204245B2 (ja) * | 1999-04-27 | 2001-09-04 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 罫線除去方法および装置 |
-
2000
- 2000-03-30 JP JP2000095514A patent/JP3842006B2/ja not_active Expired - Fee Related
-
2001
- 2001-03-09 TW TW090105576A patent/TW504656B/zh not_active IP Right Cessation
- 2001-03-14 CN CNB011114630A patent/CN1162803C/zh not_active Expired - Fee Related
- 2001-03-16 CA CA002341108A patent/CA2341108A1/en not_active Abandoned
- 2001-03-19 US US09/810,709 patent/US6813381B2/en not_active Expired - Fee Related
- 2001-03-19 EP EP01302487A patent/EP1139272A3/en not_active Withdrawn
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005267408A (ja) * | 2004-03-19 | 2005-09-29 | Canon Inc | 帳票認識装置及びその制御方法、プログラム |
JP2013196611A (ja) * | 2012-03-22 | 2013-09-30 | Fuji Xerox Co Ltd | 帳票判別装置及びプログラム |
JP2017021550A (ja) * | 2015-07-10 | 2017-01-26 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
JP2017090974A (ja) * | 2015-11-02 | 2017-05-25 | 富士ゼロックス株式会社 | 画像処理装置及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20020018071A1 (en) | 2002-02-14 |
CN1162803C (zh) | 2004-08-18 |
TW504656B (en) | 2002-10-01 |
JP3842006B2 (ja) | 2006-11-08 |
EP1139272A2 (en) | 2001-10-04 |
CN1315715A (zh) | 2001-10-03 |
CA2341108A1 (en) | 2001-09-30 |
EP1139272A3 (en) | 2005-01-12 |
US6813381B2 (en) | 2004-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3842006B2 (ja) | 帳票類判別装置、帳票類判別方法、およびこれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP3639126B2 (ja) | 住所認識装置及び住所認識方法 | |
US5539841A (en) | Method for comparing image sections to determine similarity therebetween | |
US6038351A (en) | Apparatus and method for multi-entity, mixed document environment document identification and processing | |
US6259812B1 (en) | Key character extraction and lexicon reduction cursive text recognition | |
JP2734386B2 (ja) | 文字列読み取り装置 | |
KR100412317B1 (ko) | 문자인식/수정방법및장치 | |
JPH05242292A (ja) | 分離方法 | |
CN109389115B (zh) | 文本识别方法、装置、存储介质和计算机设备 | |
CN111401099A (zh) | 文本识别方法、装置以及存储介质 | |
JP2000315247A (ja) | 文字認識装置 | |
CN114463767A (zh) | 信用证识别方法、装置、计算机设备和存储介质 | |
US6198846B1 (en) | Character recognition system | |
US20030123730A1 (en) | Document recognition system and method using vertical line adjacency graphs | |
JP2001022883A (ja) | 文字認識方式及び該文字認識方式の機能を実現させるための記録媒体 | |
JP3998439B2 (ja) | 画像処理装置、画像処理方法およびこれらの方法をコンピュータに実行させるプログラム | |
JP3374762B2 (ja) | 文字認識方法及びその装置 | |
US11710331B2 (en) | Systems and methods for separating ligature characters in digitized document images | |
JP2906758B2 (ja) | 文字読取装置 | |
JPH0528310A (ja) | フオーム型文書識別装置 | |
JPH10154191A (ja) | 帳票識別方法及び装置並びに帳票識別プログラムを記録した媒体 | |
JP3428504B2 (ja) | 文字認識装置 | |
JP4132234B2 (ja) | 文字認識方法および装置および文字認識プログラムを記録した記録媒体 | |
JP3100825B2 (ja) | 線認識方法 | |
JP2993533B2 (ja) | 情報処理装置及び文字認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20051212 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060414 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060418 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060619 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060808 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060809 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090818 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100818 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110818 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110818 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120818 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120818 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130818 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130818 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |