JP4454789B2 - 帳票分類方法及び装置 - Google Patents

帳票分類方法及び装置 Download PDF

Info

Publication number
JP4454789B2
JP4454789B2 JP2000138449A JP2000138449A JP4454789B2 JP 4454789 B2 JP4454789 B2 JP 4454789B2 JP 2000138449 A JP2000138449 A JP 2000138449A JP 2000138449 A JP2000138449 A JP 2000138449A JP 4454789 B2 JP4454789 B2 JP 4454789B2
Authority
JP
Japan
Prior art keywords
area
similarity
attribute
input
narrowing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000138449A
Other languages
English (en)
Other versions
JP2001283220A5 (ja
JP2001283220A (ja
Inventor
北洋 金田
健一 数見
知俊 金津
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2000138449A priority Critical patent/JP4454789B2/ja
Priority to EP00303956.7A priority patent/EP1052593B1/en
Priority to US09/571,411 priority patent/US6970601B1/en
Publication of JP2001283220A publication Critical patent/JP2001283220A/ja
Priority to US11/127,188 priority patent/US7519226B2/en
Publication of JP2001283220A5 publication Critical patent/JP2001283220A5/ja
Application granted granted Critical
Publication of JP4454789B2 publication Critical patent/JP4454789B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Description

【0001】
【発明の属する技術分野】
本発明は、帳票分類方法及び装置に関し、例えば、読み取った帳票画像の解析結果に応じて、その帳票に類似する帳票、或いは分類を出力する帳票分類方法及び装置に関する。
【0002】
また、本発明は、入力した帳票画像を解析し、その帳票画像を、類似する帳票の適切な分類に自動的に格納する帳票分類方法及び装置に関する。
【0003】
また、本発明は、表画像を含む帳票の分類を適切かつ自動的に行う帳票分類方法及び装置に関する。
【0004】
更に、本発明は、入力した画像に類似する画像を検索する処理において、候補を絞り込む処理に関する。
【0005】
【従来の技術】
入力された帳票画像を認識し、その認識結果に応じて、その帳票画像に類似するフォーム毎に自動的に分類する従来の帳票検索装置においては、一般に、検索すべき未知帳票のフォームと、予め記憶している比較基準となる複数種類の登録された帳票との自動的な類似判断の比較要素として、それら帳票のテーブル個数を用いる方法がある。
【0006】
【発明が解決しようとする課題】
上述した従来技術によれば、未知帳票を読み取る際の諸条件、例えば帳票の原稿の状態やスキャナ等の入力装置の状態に結果が左右されやすいという欠点がある。
【0007】
【課題を解決するための手段】
上記の従来技術の課題を解決するために、本発明に係る帳票分類装置は、テンプレート帳票内の表属性の領域に関する特徴情報を記憶する記憶手段と、入力された入力帳票の画像データを属性毎の領域に分割する領域分割手段と、領域分割手段で属性毎に分割された各領域の特徴情報を抽出する領域情報抽出手段と、記憶手段に記憶されているテンプレート帳票内の表属性の領域に関する特徴情報と、領域情報抽出手段で抽出した入力帳票内の各領域の特徴情報とを比較することにより、入力帳票とテンプレート帳票との類似度を算出する類似度算出手段と、算出された類似度に基づいて入力帳票に類似するテンプレート帳票の情報を出力する出力手段とを有する帳票分類装置であって、類似度算出手段で特徴情報が比較される入力帳票内の領域の属性は、表属性ならびに前記表属性と異なる属性の両方であることを特徴とする。
【0008】
また、上記の従来技術の課題を解決するために、本発明に係る帳票分類方法は、領域分割手段が、入力された入力帳票の画像データを属性毎の領域に分割する領域分割ステップと、領域情報抽出手段が、属性毎に分割された各領域の特徴情報を抽出する領域情報抽出ステップと、類似度算出手段が、記憶手段に記憶されているテンプレート帳票内の表属性の領域に関する特徴情報と、領域情報抽出ステップで抽出した入力帳票内の各領域の特徴情報とを比較することにより、入力帳票とテンプレート帳票との類似度を算出する類似度算出ステップと、出力手段が、算出された類似度に基づいて入力帳票に類似するテンプレート帳票の情報を出力する出力ステップとを有する帳票分類方法であって、類似度算出ステップで特徴情報が比較される入力帳票内の領域の属性は、表属性ならびに表属性と異なる属性の両方であることを特徴とする。
【0009】
【発明の実施の形態】
以下、本発明を、図面を参照して詳細に説明する。
【0010】
図1は、本発明の一実施形態を実現する帳票検索装置の概略構成を示すブロック図である。
【0011】
同図において、スキャナ、カメラ等の画像入力ユニット2によって読み取られた画像は、当該ユニット内で一般的な2値化処理が施された後、デジタル画像データとしてプロセッサ4に送られる。本実施形態において、登録する帳票及び類似している帳票を検索するための未知帳票の画像は、この入力ユニット2より入力される。
【0012】
プロセッサ4は、入力された画像データに対して、一般的な画像特徴量の抽出処理として、例えば黒ドットのヒストグラム抽出法等の手法により、当該画像を、表、テキスト、画像等の、ある属性を有するひとかたまりの領域であるブロックを抽出する。
【0013】
更に、プロセッサ(CPU)4は、例えば、抽出したブロックが表ブロック、即ち「表」という属性を有するブロックであれば、一般的な罫線追跡処理等を施すことによって対象とする表の詳細構造や、検出した表の個数の値を更に求める。また、テキストブロックであれば、一般的な文字認識処理を施すことによって、その領域内の画像データを文字コードに変換する。このようにして取得した形状特徴やテキストデータ等の各ブロックの情報は、RAM等のメモリ10及び/またはハードディスク等の記憶装置8に保存される。
【0014】
また、プロセッサ4は、本実施形態に係る帳票検索装置による所望の入力帳票の検索及び/または分類処理に先立って、その処理結果の候補となり得る複数の帳票として、オペレータによって予め入力(登録)されたテンプレート帳票(以下、本実施形態では登録帳票と称する)から、領域データの抽出や各種データを含む帳票データを所定の分類分けがなされた状態で記憶装置8等に保存する。
【0015】
そして、プロセッサ4は、画像入力ユニット2やキーボード6等を操作してオペレータによって入力された所望の入力帳票の登録情報、検索や選択等の命令を受け取ると、記憶装置8等に予め記憶している登録帳票の形状の特徴や緩め検索規則等を利用して、後述する検索処理を行い、その検索結果を、ディスプレイ、プリンタ等の出力装置12に出力する。
【0016】
尚、本実施形態において以下に説明するフローチャートに示す処理を含む各処理は、記憶装置8に記憶された制御プログラムに従って、プロセッサ4の制御のもと実行される。記憶装置8に記憶される制御プログラムは、処理が開始される前に予め記憶されたものであっても良いし、或いは通信ネットワークを介して接続された他の端末に記憶されたものや、フロッピーディスクやCD−ROM等の装置に着脱可能な記憶媒体に格納されているものを用いても良い。
【0017】
上述したハードウエアの構成は、帳票処理装置として専用に構成しても良いが、画像入力ユニット2を接続可能な一般的なコンピュータに後述する検索処理を行わせることによって構成しても良い。
【0018】
このような帳票検索装置は、例えば図2に示すシステムにおいて実現される。
図2は、本実施形態において採用可能なコンピュータシステムの構成例を示す図であり、同図において、21はコンピュータ装置であり、帳票検索のための処理を実行する。22はスキャナ装置であり、紙の帳票を光学的に読み取り電子化し、画像データをコンピュータ装置21に送る。
【0019】
図3は、本発明の一実施形態を実現可能な帳票検索装置の機能ブロック図である。
【0020】
同図において、101は、スキャナやカメラ等の画像入力装置を用いて、紙等の媒体に記入或いは印刷されている検索及び/または分類対象である所望の帳票(以下、入力帳票と称する)を、電気的な画像データとして入力する入力部である。
【0021】
102は、入力帳票の画像データを、文字(テキスト)、図、表、枠、線などの領域に分割する領域分割部である。図19は、入力帳票が領域分割部102によって領域分割された場合の構成を例示する図であり、この場合、当該入力帳票(画像データ)1904は、不完全表である領域1900、表である領域1901、その表を構成するセルである領域1903、並びにテキストである領域1905等の各領域に分割されている。本実施形態において、不完全表とは、入力帳票に含まれる複数のセルからなる部分画像の領域であって、その部分画像が含むセルの個数が所定値より少ない場合を表し、その所定値よりセルの個数が多い場合には表(完全表)と称する(詳細は図17を参照して後述する)。
【0022】
次に、103は、入力帳票に関して領域分割部102により抽出された各領域に関して、後で必要となる情報を抽出する領域データ抽出部である。104は、予め分類され、メモリ(記憶装置8)に記憶されている登録帳票から抽出された領域データや各種データを含む帳票データを保存する帳票データ記憶部である。
【0023】
また、105は、登録帳票と入力帳票との類似度を計算する類似度算出部である。そして106は、類似度算出部105の計算結果に基づき検索結果を出力する出力部である。
【0024】
次に、上述したハードウエア構成及び機能ブロックからなる帳票分類装置において実行される処理について説明する。本実施形態の帳票分類装置では、所望の帳票を登録帳票として登録する帳票登録処理と、その処理によって予め登録された登録帳票のデータを利用して、所望の入力帳票を検索する帳票検索処理とが実行される。
【0025】
<帳票登録処理>
図4は、本実施形態における帳票分類装置にて行われる帳票登録処理を示すフローチャートである。
【0026】
ステップS201において、記憶装置8に登録帳票として登録すべき所望の帳票を、画像入力ユニット2で入力して電子化した画像データを得て、ステップS202においてその画像の領域分割処理を行う。
【0027】
ステップS203において、ステップS202の領域分割処理によって得られた画像の文字、図、表、枠、線等の領域のうち、図、表、及び枠の領域について、その位置、大きさ等、個々の領域についてのデータである領域データと、その帳票に含まれる表の領域の個数とを含むこの登録帳票の帳票データとを登録する。
【0028】
ステップS204において、登録すべき他の帳票がある場合、ステップS201に戻ってその帳票の画像入力からステップS204までの処理を繰り返す。一方、登録すべき他の帳票が無い場合は登録処理を終了する。ステップS204における判断は、メッセージを出力してユーザに選択させても良いし、或いは画像入力ユニット2で処理待ちになっている原稿があるか否かの判定により自動的に行っても良い。
【0029】
図4のフローチャートにおけるステップS202の領域分割処理の詳細を、図5のフローチャートを用いて説明する。
【0030】
ステップS301において、ステップS201で入力した画像からすべての黒領域を抽出する。
【0031】
ここで、黒領域とは、ひとかたまりの黒画素の集合を囲む領域のことである。図24に示すように、ある一つの黒画素“a”の垂直、水平及び斜め方向に隣接する周囲8画素“b”のいずれかが黒画素であった場合に、それらの画素は“連結している”と判断し、基本の画素(注目画素)に対して連結していると判断された新しい画素に対して連結判断を繰り返すことにより得られる一つの黒画素の集合を、ひとかたまりの黒画素の集合と判断し、その黒画素の集合を囲む四角形を黒領域と呼ぶ。図6(a)にひとかたまりの黒画素の集合602と、黒領域603の例を示す。
【0032】
ステップS302では、ステップS301において求めた黒領域の中から文字判定用閾値以下の大きさの黒領域を識別し、その黒領域の属性は文字であると判定する(ステップS310)。
【0033】
ここで、文字判定用閾値は、処理している画像から検出される複数の黒領域の大きさを統計的に解析して得られる予想最大文字高さ及び幅、或いはその最大文字高さ及び幅に例えば1.1等の所定の値を掛けて予想最大文字高さ及び幅にいくらかの余分を持たせた値である。このように画像を分析して文字判定用域を求める方法によって画像毎に閾値を定める方法の他、複数の入力画像に共通の固定文字判定用閾値をメモリに保持しておき、この値を用いても良い。
【0034】
ステップS303では、黒領域の縦長さと横長さの比率が予め定めてメモリに保持しておいた線判定用縦横比率の閾値以上の黒領域を判別し、その黒領域の属性は線であると判定する(ステップS311)。
【0035】
ステップS304では、黒領域の輪郭の形状が細い斜めの線状になっている黒領域を識別し、その黒領域の属性も線であると判定する(ステップS311)。
【0036】
ステップS305では、黒領域の輪郭の形状が四角形であるか否かを識別し、その黒領域の属性を判定すべく、ステップS306に進む。本ステップにおける四角形であることの識別方法は、黒領域の輪郭が四つの辺から成り、その対向している2組の辺同士が同じ長さであるという条件を満たすと判定した場合に、四角形であると識別する。辺であること及び辺の長さが同じであることの判定においては、予め定めてメモリに保存しておいた範囲で辺の傾きや曲線性、或いは辺の長さの差を許容する判定を行う。
【0037】
ステップS305において黒領域の輪郭が四角形でないと判定された場合は、その黒領域の属性は図であると判定する(ステップS312)。図7(a)は、輪郭形状が四角形の黒領域を例示しており、図7(b)は、輪郭形状が四角形ではない黒領域(図)を例示する図である。
【0038】
ステップS306では、ステップS305で輪郭が四角形であると判定された黒領域の内部の白領域を抽出する。
【0039】
ここで、白領域とは、ひとかたまりの白画素の集合を囲む領域のことである。図24に示すように、ある一つの白領域“a”の垂直、水平及び斜め方向に隣接する周囲8画素(b)のいずれかが白画素であった場合に、それらの画素は“連結している”と判断し、基本の画素に対して連結していると判断された新しい画素に対して連結判断を繰り返すことにより得られる一つの白画素の集合を、ひとかたまりの白画素の集合と判断し、その白画素の集合を囲む四角形を白領域と呼ぶ。図6(b)にひとかたまりの白画素の集合604と、白領域605の例を示す。
【0040】
ステップS307では、一つの黒領域から抽出される白領域の数を判定し、その数が3個以下であり、かつ白領域の面積の合計が黒領域の面積の所定の割合以上である場合に、その黒領域の属性は枠であると判定する(ステップS313)。
【0041】
ここで、面積の比較に用いる所定値は、予め定めてメモリに保持した枠判定用閾値を用い、例えば95パーセント等であって、この比較により、白領域が黒領域を埋めているか否かを判定するものである。図8(a)に属性が枠と判定される黒領域の例を示す。
【0042】
ステップS308では、一つの黒領域から抽出された白領域が縦或いは横方向に規則正しく整列されているか否かを判定し、肯定判定の場合にはその黒領域の属性は表であると判断する(ステップS314)。一方、否判定の場合はステップS312に進む。図8(b)に白領域が規則正しく配列されており、表であると判断された黒領域の例を示し、図8(c)に白領域の数は4以上であるものの、規則正しく配列しておらず、図であると判断された黒領域の例を示す。
【0043】
ステップS310からS314においては、黒領域及び白領域の位置と、黒領域に対して判定された属性を対応付けてメモリに記憶する。
【0044】
<帳票検索処理>
次に、帳票検索処理について図9のフローチャートを用いて説明する。
【0045】
図9は、本実施形態における帳票分類装置にて行われる帳票検索処理を示すフローチャートであり、この帳票検索処理は、ステップS401で入力した帳票と似た特徴を持つ帳票を、上述した帳票登録処理により登録された複数の登録帳票の中から識別する処理である。
【0046】
ステップS401では、入力部101により検索対象となる入力帳票の画像データを入力する。
【0047】
ステップS402では、領域分割部102により、ステップS401で入力した画像に対して領域分割処理を行う。この領域分割処理は、前述した図5のフローチャートと同様の処理であり、画像データを解析して黒領域の抽出と、黒領域の属性、文字、図、表、枠、線等の判定を行い、結果をメモリに格納するものである。
【0048】
ステップS403では、領域データ抽出部103により、領域分割処理によって得た各領域から、属性が表、図及び枠である領域を選択し、選択した各領域の位置、大きさ及び各属性の領域個数を入力帳票の領域データとしてメモリに格納する。
【0049】
ステップS404では、類似度算出部105により、上述した帳票登録処理において登録した複数の帳票のデータに含まれる表領域データと、ステップS403で選択され、格納された領域のデータとを比較し、ステップS401で入力した帳票と登録された複数の帳票との間の類似度を求める。その類似度の求め方は、図10のフローチャートを参照して後述する。
【0050】
ステップS405では、出力部106により、ステップS404において求めた各帳票との類似度を比較して類似度の最も高い登録帳票を識別する。出力部106は、識別された最も類似度の高い登録帳票か、或いは、その登録帳票が属する分類を選択して出力する。更に入力帳票をその分類に関連付けてメモリに格納するか、或いはその類似度の最も高い登録帳票を表示或いは印刷してオペレータに知らしめても良い。識別された登録帳票をオペレータに知らしめる場合は、類似度の最も高い登録帳票に限らず、上位複数の登録帳票を出力し、その中からオペレータが所望の登録帳票を選択するようにもできる。この場合の登録帳票の選択方法は、予め個数を定めておいても良いし、類似度に対する閾値を予め定めておき、閾値以上の類似度が算出された登録帳票を選択しても良い。
【0051】
ステップS404における類似度を求める処理の詳細を、図10のフローチャートを用いて説明する。このフローチャートにおいて、スコア“s”を用いて類似度を算出する。
【0052】
ステップS501では、スコア“s”を“0”にリセットする。
【0053】
ステップS502では、登録帳票の表領域についてのカウンタ“n”を“1”にセットする。このカウンタ“n”は、一つの登録帳票に複数の表領域があった場合に、その各々の表領域についてステップS503からS523までのステップからなる類似度を求める処理を行うべく、処理対象として注目している表領域(注目表領域)を一つずつシフトするためのカウンタである。
【0054】
ステップS503では、入力帳票の表領域についてのカウンタ“t”を“1”にセットする。このカウンタ“t”は、一つの入力帳票に複数の表領域があった場合に、各々の表領域についてステップS504からS506までのステップからなる登録帳票の表領域との一致の判断を行うべく、注目表領域を一つずつシフトするためのカウンタである。
【0055】
ステップS504では、入力帳票のt番目の表領域が既にS505の判断ステップを完了しているか判断する。この判断は、そのt番目の表領域データにおける“対応済み”を示すフラグが“1”になっているか否かにより実現できる。ステップS504において“対応済み”を示すフラグが“1”であると判断した場合には、ステップS505をスキップしてステップS508に進む。
【0056】
ステップS505では、登録帳票の領域データのn番目の表領域と、入力帳票の領域データのt番目の表領域の位置と大きさとの各々を比較し、その比較の結果に基づいて各領域が一致するか否かを判断する。本ステップにおける判断においては、各領域データの位置データ及び大きさデータが完全一致する場合のみならず、各帳票を読み取るときに生じた画像入力ずれを考慮して、幅を持たせて一致の判断を行う。ステップS505において一致すると判断した場合、ステップS506に進み、t番目の表領域データにおける“対応済み”を示すフラグを“1”にセットすると共に対応する表領域番号“n”を格納する。ステップS507においてスコア“s”に1を加算してステップS524に進み、登録帳票の領域データにおける次の表領域へと比較処理を進める。
【0057】
ステップS508では、入力帳票の表領域についてのカウンタ“t”に1を加算し、次の表領域を入力帳票の領域データから選択する処理を行う。ステップS509においてカウンタ“t”の値と、ステップS403においてメモリに格納した入力帳票の表領域個数とを比較し、“t”が表領域個数を越えている場合は、その入力帳票における全ての表領域を登録帳票における“n”番目の表領域と比較し終えたと判断し、ステップS510に進む。これは、登録帳票における“n”番目の表領域に対して入力帳票におけるある属性を有する領域の比較が終了し、入力帳票における次の属性を有する領域との比較に移行するという意味である。“t”が表領域個数を越えていな場合は、ステップS504に戻り、新しい“t”番目の表領域と登録帳票における“n”番目の表領域との比較処理を開始する。
【0058】
ステップS510では、入力帳票の枠領域についてのカウンタ“f”を“1”にセットする。このカウンタ“f”は、一つの入力帳票に複数の枠領域があった場合に、各々の枠領域についてステップS511からS513までのステップからなる登録帳票の表領域との一致の判断を行うべく、注目枠領域を一つずつシフトするためのカウンタである。
【0059】
ステップS511では、入力帳票のf番目の枠領域が既にS512の判断ステップを完了しているか判断する。この判断は、そのf番目の枠領域データにおける“対応済み”を示すフラグが“1”になっているか否かにより実現出来る。ステップS511において“対応済み”を示すフラグが“1”であると判断した場合には、ステップS512をスキップしてステップS515に進む。
【0060】
ステップS512では、登録帳票の領域データのn番目の表領域と、入力帳票の領域データのf番目の枠領域の位置と大きさとの各々を比較し、その比較の結果に基づいて各領域が一致するか否かを判断する。本ステップにおける判断においては、各領域データの位置データ及び大きさデータが完全に一致する場合のみならず、各帳票を読み取るときに生じた画像入力ずれを考慮して、幅を持たせて一致の判断を行う。ステップS512において一致すると判断した場合、ステップS513に進み、f番目の枠領域データにおける“対応済み”を示すフラグを“1”にセットすると共に対応する表領域番号“n”を格納する。
【0061】
ステップS514において、スコア“s”に1を加算してステップS524に進み、登録帳票の領域データにおける次の表領域へと比較処理を進める。
【0062】
ステップS515では、入力帳票の枠領域についてのカウンタ“f”に1を加算し、次の枠領域を入力帳票の領域出たから選択する処理を行う。ステップS516においてカウンタ“f”の値と、ステップS403においてメモリに格納した入力帳票の枠領域個数とを比較し、“f”が枠領域個数を越えている場合は、その入力帳票における全ての枠領域を登録帳票における“n”番目の表領域と比較し終えたと判断し、ステップS518に進む。“f”が枠領域個数を越えていない場合は、ステップS511に戻り、新しい“f”番目の枠領域と登録帳票における“n”番目の表領域との比較処理を開始する。
【0063】
ステップS517では、入力帳票の図領域についてのカウンタ“p”を“1”にセットする。このカウンタ“p”は、一つの入力帳票に複数の図領域があった場合に、各々の図領域についてステップS518からS520までのステップからなる登録帳票の表領域との一致の判断を行うべく、注目図領域を一つずつシフトするためのカウンタである。
【0064】
ステップS518では、入力帳票のp番目の図領域が既にS519の判断ステップを完了しているか判断する。この判断は、そのp番目の図領域データにおける“対応済み”を示すフラグが“1”になっているか否かにより実現できる。ステップS518において“対応済み”を示すフラグが“1”であると判断した場合には、ステップS519をスキップしてステップS522に進む。
【0065】
ステップS519では、登録帳票の領域データのn番目の表領域と、入力帳票の領域データのp番目の図領域の位置と大きさとの各々を比較し、その比較の結果に基づいて各領域が一致するか否かを判断する。本ステップにおける判断においては、各領域データの位置データ及び大きさデータが完全一致する場合のみならず、各帳票を読み取るときに生じた画像入力ずれを考慮して、幅を持たせて一致の判断を行う。ステップS519において一致すると判断した場合、ステップS520に進み、p番目の図領域データにおける“対応済み”を示すフラグを“1”にセットすると共に対応する表領域番号“n”を格納する。ステップS521においてスコア“s”に1を加算してステップS524に進み、登録帳票の領域データにおける対の表領域へと比較処理を進める。
【0066】
ステップS522では、入力帳票の図領域についてのカウンタ“p”に1を加算し、次の図領域を入力帳票の領域データから選択する処理を行う。ステップS523においてカウンタ“p”の値と、ステップS403においてメモリに格納した入力帳票の図領域個数とを比較し、“p”が図領域個数を越えている場合は、その入力帳票における全ての図領域を登録帳票における“n”番目の表領域と比較し終えたと判断し、ステップS524に進む。“p”が図領域個数を越えていない場合は、ステップS518に戻り、新しい“p”番目の図領域と登録帳票における“n番目の表領域との比較処理を開始する。
【0067】
ステップS524では、“n”にJを加算し、入力帳票の各領域と比較する、登録帳票における対象表領域を次の新しい領域に進める。
【0068】
ステップS525では、カウンタ“n”の値と、登録帳票の表領域個数とを比較し、“n”が登録帳票の表領域個数を越えている場合は、その登録帳票における全ての表領域が入力帳票と比較されたと比較し終えたと判断し、ステップS525に進む。ステップS525では、スコア“s”の値を登録帳票の表領域個数で割り、その値をステップS401で入力した帳票と登録帳票との類似度として登録帳票識別情報と共にメモリに格納する。
【0069】
本実施形態において、図10に示すフローチャートの処理は、メモリに格納されている登録帳票の各々に対して行われるが、更に、ステップS403とS404との間に、類似度を算出する登録帳票をメモリに登録されている登録帳票から選択する処理を行うことにより、図10のフローチャートに示した類似度を算出する処理を実行する回数を減らすことも可能である。このような処理は、絞り込み処理と呼び、図11乃至図14を参照して詳細に後述する。
【0070】
また、図10のフローチャートに示す処理は、登録帳票と入力帳票との類似度を求めるときに、同じ属性を有する領域同士の比較のみならず、異なる属性を有する領域をも比較することにより、入力した帳票画像を分析して結果、領域の属性が間違って判断された場合にも、類似帳票の検索処理にもれる危険を少なくすることを可能にする。即ち、この処理は図、表及び枠の間での領域にする。即ち、この処理は図、表及び枠の間での領域属性判定の不正確さを類似度の算出の段階において吸収するものであり、より高い精度の帳票類似判定を可能とするものである。
【0071】
ステップS507、S514及びS521において、等しくスコア“s”に1を加算したが、異なる値を用いることも可能である。例えば、登録帳票の表領域と入力帳票の表領域が一致した場合には1を加算し、登録帳票の表領域と入力帳票の枠或いは図領域が一致した場合には0.5を加算することも可能である。このようなスコア計算時の重みは、両帳票における属性の種類と対応付けて予めメモリに保存しておくか、或いは同じ属性の場合と異なる属性の場合の各々の重みとしてメモリに保存しておくことにより、上述のスコア加算ステップにおいてそのデータを用いることにより実現することができる。
【0072】
本実施形態において、図10のフローチャートにおいては、登録帳票の領域データにおける表領域のみをカウンタ“n”の制御のもと選択し、入力帳票の各領域と比較する処理を示したが、他の属性を有する領域も選択して入力帳票の各領域と比較することも可能である。
【0073】
登録帳票と比較する入力帳票における領域の属性は、図10のフローチャートに示した属性に限るものではなく、その他の属性のものと比較しても良いし、また、より少ない属性に限定して良い。この比較対象として選択する領域の属性は、ステップS404より前に定めておけば良く、例えばオペレータが直接指定しても良いし、モードによって切り替えても良い。
【0074】
次に、S404の類似度を算出する処理を実行する登録帳票をメモリに登録されている登録帳票から選択する絞り込み処理の一例について説明する。
【0075】
<絞り込み処理>
図11のフローチャートは、図9のフローチャートの処理に絞り込み処理を実行するための比較基準入力ステップS1101と絞り込みステップS1103を追加したものである。
【0076】
ステップS1101で入力する比較基準は、比較対象の絞り込みを行う際の基準値である。ここでは、後述する入力帳票から選択された比較対象表領域が含むセル個数と、登録帳票から選択された比較対象表領域が含むセル個数との差をどの程度まで許容するかを示すパーセント値を設定する。この処理は、登録帳票から選択された比較対象領域が含むセル個数に対するこの設定されたパーセント値が特定する個数以上の差があると判断した場合に、その登録帳票は類似度を算出する処理の対象から外すことにより、絞り込み処理を行うものである。比較基準は一般的には30%程度が良く、その値をデフォルト値として格納しておき、使用することもできるが、オペレータが直接入力したり、或いは認識精度を特定するモード等に応じて変化させても良い。
【0077】
ステップS401からステップS403は図9のフローチャートにおいて説明した処理と同様である。
【0078】
ステップS1103は、ステップS1101で設定された比較基準値に基づき類似度算出を実行する登録帳票の絞り込みを行うステップである。本ステップの処理は、図12のフローチャートを用いて後に詳細に説明する。
【0079】
ステップS404及びステップS405も図9のフローチャートにおいて説明した処理と同様であるが、ステップS404で類似度算出処理を行う登録帳票はステップS1103の処理により選択した登録帳票のみである点で、図9のフローチャートにおける処理とは異なる。
【0080】
図12は、ステップS1103における処理を詳細に示すフローチャートである。
【0081】
ステップS1201において、S403で格納した入力帳票の帳票データから表領域の個数と、最大面積を有する表領域が含むセルの個数のデータを読み取る。
【0082】
ステップS1202において、登録帳票用カウンタ“j”を1に設定する。このカウンタにより、メモリに格納されている全登録帳票に対してステップS1204からS1210に示す処理を実行し、類似度算出処理を実行する価値のある登録帳票であるか否かの判断を行う制御を可能とする。
【0083】
ステップS1204において、“j”番目の登録帳票のテーブル個数及びその登録帳票における最大面積を有する表領域が含むセルの個数をメモリから読み取り、ワークメモリに格納する。
【0084】
ステップS1206において、ステップS1201で読み取った入力帳票の表領域の個数とステップS1204で格納した“j”番目の登録帳票の表領域の個数とを比較し、同じか否かを判断する。この判断で同じであると判断された場合はステップS1208へ進み、異なると判断された場合はステップS1212へ進む。
【0085】
ステップS1208において、ステップS1201で読み取った入力帳票の最大面積を有する表領域のセルの個数と、ステップS1204で格納した“j”番目の登録帳票の最大面積を有する表領域のセルの個数とを比較する。比較されたセル個数差が、ステップS1101で設定された基準値以内であればステップS1210へ進み、基準値を越えた場合はステップS1212へ進む。
【0086】
ステップS1210において、“j”番目の登録帳票をステップS404の類似度算出処理において対象帳票として選択すべく、メモリの“j”番目登録帳票のデータにおける詳細マッチングの対象であることを示す“絞り込み”フラグを“ON”にセットする。このステップS1210においてフラグが“ON”にセットされた登録帳票のみが詳細に類似度算出処理を行う対象となり、それ以外の登録帳票は処理対象とならないという絞り込み処理が実現する。
【0087】
ステップS1212において、カウンタ“j”に1を加算し、ステップS1204からステップS1210の処理を実行する対象の登録帳票を次の新しい登録帳票にシフトする。
【0088】
ステップS1214において、カウンタ“j”がメモリに登録されている登録帳票の数より大きいか否かを判断し、大きいと判断される場合は登録されている全登録帳票について比較対象となり得るか否かの判断が完了したと判断して本処理を終了し、カウンタ“j”が登録帳票数を越えていないと判断された場合はS1204に進み、新しい“j”番目の登録帳票についての処理を開始する。
【0089】
上述した図12のフローチャートの処理においては、最大面積を有する表領域が含むセルの個数を絞り込み処理の判断基準として用いたが、他の表領域、例えば2番目に面積が大きい表領域が含むセルの個数を用いても良い。また、表領域の個数ではなく、他の属性の領域の個数や、複数の属性の領域の個数の合計を用いても良い。
【0090】
次に、類似度の算出を行う登録帳票を絞りこむ処理を、多段階に行う例について図13のフローチャートを用いて説明する。
【0091】
ステップS1300において、ユーザに検索モードとして高速検索モード或いは通常検索モードを入力させる。
【0092】
ステップS401からステップS403は、図9のフローチャートに示した処理と同様である。
【0093】
ステップS1306において、類似度の算出を行う対象の登録帳票を多段階に絞り込み、ステップS404とステップS405において詳細マッチングを行う。
【0094】
図14のフローチャートは、図13のステップS1306における処理を詳細に示す。絞り込みとは、前述したように類似度を算出する登録帳票を限定するための処理を意味し、詳細マッチングとは、その絞り込み処理により選択された登録帳票について入力帳票との類似度を算出し、複数の選択された登録帳票から得られた類似度を比較する処理を意味する。
【0095】
ステップS1400において、モードを判定する。ステップS1300においてユーザにより入力され、メモリに保持されたモード情報を読み出して判定する。高速検索モードと判定された場合はステップS1415へ進み、通常検索モードと判定された場合はステップS1401へ進む。
【0096】
まず、高速検索モードが選択された場合のステップS1415からの処理について説明する。ステップS1415において、第1の絞り込み条件(図15)を満たす登録帳票をメモリから選択し、ステップS1416において、ステップS1415で選択した登録帳票についてステップS401で入力した入力帳票との類似度を求める。また、ステップS1415で複数の登録帳票が選択された場合は、ステップS1416における類似度の算出も選択された登録帳票の数だけ繰り返す。類似度の算出は、表や枠等の所定の属性を有する領域の数、その位置、大きさや、最大面積を有する表領域が含むセルの数等を比較し、各比較条件について類似すると判断する毎にスコアを加算する方法等により可能である。
【0097】
以下、図14のフローチャートに含まれる類似度の計算は、ステップS1416における処理と同様である。
【0098】
ステップS1418において、ステップS1416で類似度を求めた登録帳票の中に、第1の所定値以上の類似度が得られた登録帳票が存在するか否かを判断する。この第1の所定値とは、図14のフローチャートの処理が開始する以前に定められ、メモリに格納されている値であって、ユーザにより設定されるか、或いは認識精度等のモードによって所定の値を選択するようにしても良い。他のステップで用いる第2から第4の所定値においても同様である。
【0099】
ステップS1418において、第1の所定値を越える類似度を有する登録帳票が存在すると判断された場合は、それ以上の絞り込み処理を行わずにステップS1428へ進む。ステップS1418においてNoと判定された場合は、ステップS1419に進み、次の段階の絞り込み処理を開始する。
【0100】
ステップS1419において、第2の絞り込み条件(図15)を満たす登録帳票をメモリから選択し、ステップS1420において、ステップS1419で選択した登録帳票についてステップS401で入力した入力帳票との類似度を求める。また、ステップS1419で複数の登録帳票が選択された場合は、ステップS1420における類似度の算出も選択された登録帳票の数だけ繰り返す。
【0101】
ステップS1422において、ステップS1420で類似度を求めた登録帳票の中に、第2の所定値以上の類似度が得られた登録帳票が存在するか否かを判断する。
【0102】
ステップS1422において、第2の所定値を越える類似度を有する登録帳票が存在すると判断された場合は、それ以上の絞り込み処理を行わずにステップS1428へ進む。ステップS1422においてNoと判定された場合は、ステップS1423に進み、次の段階の絞り込み処理を開始する。
【0103】
尚、上述したステップS1415の絞り込み処理において、表領域の個数が同じであると判断された登録帳票のデータにおける表領域の個数が同じであることを示すフラグを“ON”にセットしておくことにより、ステップS1419における絞り込み処理において、そのフラグが“ON”になっている登録帳票についてのみ「最大面積を有する表領域が含むセルの個数の差が所定値以下」という条件の判定を行うことにより、第2の絞り込み処理における判断対象帳票の数が減少し、高速化することができる。
【0104】
また、上述したステップS1415において、当該絞り込み処理により選択された登録帳票のデータにおける類似度判定済みを示すフラグを“ON”にセットしておくことにより、ステップS1419における絞り込み処理において、そのフラグが“ON”になっている登録帳票は絞り込み判定処理からはずすことができ、第2の絞り込み処理における判断対象帳票の数が減少し、高速化することができる。
【0105】
また、上述したステップS1419において選択された登録帳票のデータにおいても、類似度判定済みを示すフラグを“ON”にセットし、ステップS1423における第3の絞り込み処理においてこのフラグの情報を、ステップS1419と同様に用いることにより、第3の絞り込み判定処理も高速化することができる。
【0106】
ステップS1423において、第3の絞り込み条件(図15)を満たす登録帳票をメモリから選択し、ステップS1424において、ステップS1423で選択した登録帳票についてステップS401で入力した入力帳票との類似度を求める。この第3の絞り込み条件は、領域の数が同じ登録帳票を選択するものであるが、ここで領域とは表、枠、図、線等全ての属性、或いは予め定めてある属性の全ての領域を指す。ステップS1423で複数の登録帳票が選択された場合は、ステップS1424における類似度の算出も選択された登録帳票の数だけ繰り返す。
【0107】
S1426において、ステップS1424で類似度を求めた登録帳票の中に、第3の所定値以上の類似度が得られた登録帳票が存在するか否かを判断する。ステップS1426において、第3の所定値を越える類似度を有する登録帳票が存在すると判断された場合は、ステップS1428へ進む。ステップS1426においてNoと判定された場合は、ステップS1430に進み、類似帳票無しという情報を出力する。
【0108】
ステップS1428において、ステップS1418、ステップS1422或いはステップS1426で選択された登録帳票の類似度を、類似度の高い順にソートし、ステップS1432において、ソートした結果に基づいて、類似度の高い順に登録帳票リストを出力する。ここで出力する登録帳票リストは、ステップS1418、ステップS1422或いはステップS1426で選択された全ての登録帳票であっても良いし、最も高い類似度を有する登録帳票のみや、予め定めた個数の上位登録帳票のみであっても良い。
【0109】
図15に示したように、図14のフローチャートに示す多段階絞り込み処理に用いる絞り込み条件は、第1、第2、第3と絞り込みが進むにつれて条件を緩くしている。このように絞り込み条件を設定することにより、最初に少数の類似度が高いことが予想される帳票候補が選択され、もしそれが存在しない場合帳票候補をおおく選択するような制御が実現できる。従って、類似度の計算及び比較のための処理の負荷が必要最小限となり、帳票検索の高速化に大いに貢献することになる。
【0110】
次に、通常検索モードが選択された場合のステップS1401からの処理について説明する。
【0111】
ステップS1401において、第1の絞り込み条件(図15)を満たす登録帳票をメモリから選択し、ステップS1402において、ステップS1401で選択した登録帳票についてステップS401で入力した入力帳票との類似度を求める。ステップS1401で複数の登録帳票が選択された場合は、ステップS1402における類似度の算出も選択された登録帳票の数だけ繰り返す。そして、選択された登録帳票をメモリ内で識別するための識別情報と、その登録帳票について求めた類似度を対応付けてメモリに格納する。
【0112】
絞り込み条件を満たす登録帳票の選択は、ステップS1415における処理と同様であり、且つ類似度の求め方はステップS1416と同様である。
【0113】
以下、ステップS1403からステップS1406においても同様の方法を用いる。
【0114】
ステップS1403において、第2の絞り込み条件(図15)を満たす登録帳票をメモリから選択し、ステップS1404において、ステップS1403で選択した登録帳票についてステップS403で入力した入力帳票との類似度を求める。ステップS1403で複数の登録帳票が選択された場合は、ステップS1404における類似度の算出も選択された登録帳票の数だけ繰り返す。そして、選択された登録帳票をメモリ内で識別するための識別情報と、その登録帳票について求めた類似度を対応付けてメモリに格納する。
【0115】
尚、ステップS1401で選択された登録帳票については、メモリ内のその登録帳票のデータにおける「候補帳票として選択済み」を示すフラグを“1”にセットしておき、ステップS1403においてそのフラグが“1”になっているものについては選択対象からはずすことにより、ステップS1403における選択処理及びステップS1406における類似度算出処理を減らすことができる。また、ステップS1403において新たに候補帳票として選択された登録帳票についても、そのフラグを“1”にセットし、ステップS1405の処理においてもフラグの示す情報を用いることにより、ステップS1405及びステップS1406においても同様の効果を得ることができる。
【0116】
ステップS1405において、第3の絞り込み条件(図15)を満たす登録帳票をメモリから選択し、ステップS1406において、ステップS1405で選択した登録帳票についてステップS401で入力した入力帳票との類似度を求める。ステップS1405で複数の登録帳票が選択された場合は、ステップS1406における類似度の算出も選択された登録帳票の数だけ繰り返す。そして、選択された登録帳票をメモリ内で識別するための識別情報と、その登録帳票について求めた類似度を対応付けてメモリに格納する。
【0117】
ステップS1408において、ステップS1402、ステップS1404及びステップS1406で選択され、メモリに保存された登録帳票の類似度を類似度の高い順にソートし、その結果に基づいて、ステップS1410において第4の所定値以上の類似度を持つ登録帳票があるか否かを判断する。存在しないと判断された場合は、ステップS1414に進み、類似帳票無しであるという情報を出力する。ステップS1410において第4の所定値以上の類似度を有する登録帳票が存在すると判断した場合は、ステップS1412へ進み、その登録帳票を選択し、ステップS1432に進む。
【0118】
ステップS1414、ステップS1430及びステップS1432における出力は、表示手段或いは印字手段等の出力手段により当該情報を出力すればオペレータに報知することが可能であるし、或いは他のプログラムにコマンドとして送ることにより、類似帳票無しという情報を用いて次なる処理を開始することも可能である。
【0119】
尚、多段階絞り込み処理に用いる絞り込み条件は、図14及び図15に示したように3段階ではなく、任意の段階で行うことが可能である。また、そこで用いる条件も、絞り込みの条件が順次緩くなる条件を用いれば、他の条件であっても良い。
【0120】
図14のフローチャートにおいて、通常検索モードと高速検索モードで同じ絞り込み方法及び類似度算出方法を用いる例について説明したが、両モードで異なる条件を用い、或いは通常検索モードにおいては精度を優先させるような類似度算出方法を用いることも可能である。また、類似度の算出には、領域データを用いるのではなく、他の識別関数によるマッチング手法を用いても良い。
【0121】
次に、帳票登録時に、その登録用に読み取った帳票画像から得られる特徴に基づいて、各帳票画像に適した比較基準を定め、登録する処理について説明する。この比較の基準は、未知帳票の画像を入力し、分類する際の比較処理において用いる条件であって、各登録帳票画像の画質、タイプによって定める適切な条件である。
【0122】
図16のフローチャートは、帳票を登録するときの処理を示すものであり、この処理において登録する帳票画像に適した比較基準を求め、保存する。
【0123】
図16のフローチャートにおいてステップS201、ステップS202及びステップS204で行う処理は、図4のフローチャートにおける同じステップ番号を付したステップにおける処理と同様である。
【0124】
ステップS202の後に、ステップS202の領域分割処理で得られた登録帳票画像の特徴を用いて比較基準を設定する。この比較基準を設定する処理の詳細は、図18のフローチャートに示し、後述する。ここで設定する比較基準は、例えば、テーブルを構成するセルの中心の距離、セルの個数、並びにテーブル個数等のテーブルの特徴の一つであり、ステップS201で入力した帳票画像毎に求める。
【0125】
ステップS1603において、ステップS202の領域分割処理によって得られた画像の文字、図、表、枠、線等の領域のうち、表の領域についての、その位置、大きさ、及び個数と、ステップS1601で求めた比較基準を、この登録帳票のデータとしてメモリ10を介して記憶装置8に登録する。
【0126】
次に、ステップS1601における比較基準を求める処理を図17のフローチャートに示し、以下に説明する。
【0127】
入力された未知帳票画像に類似している帳票画像を、予め記憶している複数の登録帳票画像の中から検索するときに、表の個数が所定数“TB”より少なく、且つ一つの表を構成するセルの個数が所定数“SEL”より少ない表を含む帳票画像と他の帳票との類似判断処理は、不正確になる可能性が高い。このような特徴を有する帳票の類似判断が不正確になる原因は、帳票を読み取る際の諸条件、例えば、読み取るべき帳票の紙の状態、或いはスキャナ等の装置の状態等に起因している。
【0128】
そして、不正確な類似判断処理は、絞り込み処理における正しい類似相手が選択されないという不適切な状況を生じる。図16の処理においては、そのような特徴を有する帳票画像については、類似するか否かの判断の基準を緩くするための比較基準を用いるべく、帳票登録時にその帳票の特徴に適した比較基準を求める処理を含んでいる。この処理において、不正確な類似処理がなされる可能性のある帳票画像の特徴を他の帳票の特徴と比較する際に使用する比較基準を、帳票が含む表の個数が完全に類似しない帳票をも候補として選択する比較基準を設定している。
【0129】
ステップS1701において、ステップS202で領域分割して得た結果に基づいて入力された帳票画像が含む表の個数が所定値“TB”以上か否かを判断し、当該所定値よりテーブル個数が少ないと判断された場合はステップS1703に進み、テーブル個数が当該所定値以上と判断された場合にはステップS1709に進む。このステップS1701の判断に用いる所定値“TB”は、メインメモリ10に予め記憶されている値か、或いはこの処理の前にユーザに設定され、メインメモリ10に格納された値である。例えば、所定値“TB”に、一つの帳票画像に含まれる平均的な表の個数(例えば多数の帳票画像を用いた実験によって求めた個数)を設定する。そのような設定値“TB”を用いることにより、平均的個数以下の表紙か含まない帳票をステップS1701で検出することが可能となる。ある実施権において、平均的な表の個数は3個であったので、この値を所定値“TB”として用いることが可能である。
【0130】
ステップS1703において、ステップS202で領域分割して得た結果に基づいて、入力された帳票画像に含まれる表(複数のセルからなる部分画像)の中に、表が含むセルの個数が所定値“SEL”以下の表、即ち“不完全表”として分類される表があるか否かを判別する。本ステップの判断において、不完全表が有ると判別された場合にはステップS1705に進み、不完全表が無いと判別された場合にはステップS1709に進む。例えば、所定値“SEL”に、“2”程度の値を設定する。そのような所定値“SEL”を用いることにより、行方向、或いは列方向のセルが1つ以下である表を“不完全表”としてステップS1703で検出することが可能となる。
【0131】
また、ステップS1701において、表の個数が“0”と判定された場合は、ステップS1703において“Yes”判定としてステップS1705に進む。
【0132】
ステップS1705において、ステップS1703で検出された帳票画像が含む不完全表の個数を計数する。
【0133】
ステップS1707において、後述する類似帳票画像の検索処理において用いる第一の比較基準として、「入力帳票が含む表の個数と、登録されている帳票が含む表の個数とが完全に一致しなくても、所定の条件を満足すれば、その登録帳票を当該未知帳票の類似候補として選択する」という条件を設定する。この条件もステップS1603において格納される。
【0134】
ここで、ステップS1707で設定する第1の比較基準は、後述するステップS1709で設定する条件より緩い条件である。更に、ステップS1707で設定される条件に含まれる「所定の条件」として、「未知帳票が含む表の個数と登録されている帳票が含む表の個数との差が、ステップS1705で求めた不完全表の個数以下の場合には、その登録帳票を当該未知帳票の類似候補として選択する」という条件を設定する。従って、この場合はステップS1603においてステップS1705で計数した不完全表の個数も特徴量として記憶装置8に格納する。
【0135】
ステップS1709において、後述する類似帳票画像の検索処理において用いる第2の比較基準として、「入力帳票が含む表の個数と、登録されている帳票が含む表の個数とが一致したときに、その登録されている帳票を当該未知帳票の類似候補として選択する」という条件を設定する。このステップS1709で設定された条件は、ステップS1603において格納される。
【0136】
尚、ステップS1707及びステップS1709で設定する条件は、予めメインメモリ10に格納されているものとし、ステップS1603では、条件そのものを格納する替わりに、どの条件を設定するかという条件識別情報を法表の特徴量と共に格納しても良い。
【0137】
このように、複数種類の帳票画像を予め登録するときに、図17のフローチャートに示した如く比較基準を設定することにより、登録する帳票画像に含まれる表の状態(表の個数及び表に含まれるセルの個数)に応じて、適切な比較基準が設定できるため、帳票認識を正確且つ効率良く行うことができる。
【0138】
上述したステップS1701においては、表の個数を一つの所定値“TB”と比較したが、複数の所定値と比較しても良い。複数の所定値“TB1”、“TB2”等と、それら複数の所定値を比較する順番をメインメモリ10に格納しておき、順番に従って各所定値を読み出し、比較処理を行うことができる。更に、一律の順番で複数の所定値を用いるのではなく、連続的に変化する所定値“TB”の変化の特性を表わすルックアップテーブル等を予めメモリ10に記憶しておき、そのルックアップテーブルに従って所定値“TB”を変化させながら比較処理を行っても良い。この場合、所定値“TB”に対応する比較基準がS1709で設定される。
【0139】
また、上述したステップS1703において、表が含むセルの個数を所定値“SEL”と比較した結果によって、不完全表であるか否かを判定したが、判定基準として、例えば各表の面積、表内のセルの分布或いはセル属性等の構造情報を用いても良い。更に、それらの条件を複数レベルで用いたり、複数の条件を組み合わせて複数段階に表の不完全さを判定しても良い。
【0140】
次に、図16のフローチャートに示した登録処理によって記憶装置8に登録した登録帳票の特徴情報の中から、未知帳票(入力帳票)と類似する帳票を検索する処理について、図18のフローチャートを用いて説明する。
【0141】
図18においてステップS401からステップS403及びステップS403で行われる処理は、図9のフローチャートにおける同じステップ番号を付したステップで行われる処理と同様である。
【0142】
ステップS1802において、図16のステップS1614で記憶装置8に格納した比較基準に基づいて、ステップS403で格納した帳票の表の個数と、図16のフローチャートに示した登録処理によって記憶装置8に予め登録されている帳票画像の表の個数とを比較することにより、処理対象となっているステップS401で入力した帳票に類似する可能性が高い帳票をメモリ10に格納されている帳票データから絞り込む。
【0143】
ステップS1804において、ステップS1802で絞り込んで選択された帳票の、記憶装置8に格納されている帳票情報の中から、詳細マッチング用の特徴量として、テーブル構造データ及びセルの文字コード等を抽出する。
【0144】
尚、ステップS401で入力した未知帳票の画像に類似する帳票画像を選択した後に、例えば、登録処理により記憶装置8に格納されているテーブル構造データ等を参照して、文字認識処理を行うべきと指定されている領域についてはステップS401で入力した帳票画像のその領域内の画像情報に対して文字認識処理を実行しても良い。この領域の判定のために、登録されている帳票とステップS401で入力した帳票の2つの画像を重ね合わせ、必要に応じて両画像のずれを補正すると良い。
【0145】
次に、帳票の絞り込み処理において入力画像を文字認識して得たコードデータをも用いる例について説明する。コードデータを用いるために、ステップS402において、抽出されたテキストブロックに含まれる文字画像を文字認識し、その文字認識結果とテキストブロックのデータを図20に示すような帳票構造データとして記憶する。
【0146】
図11におけるステップS1103、図13におけるステップS1306及び図18におけるステップS1802において、帳票構造データに格納されたデータに基づいてコードデータを用いた絞り込み処理を行う。この処理は、帳票の表データを用いて絞り込まれた候補帳票について、更に絞り込むためのものである。
【0147】
図21のフローチャートは、コードデータを用いた帳票の類似度計算処理を示す。
【0148】
ステップS2101において、この処理以前の表データを用いた絞り込み処理において求めた登録帳票のレイアウト類似度をパラメータSimLとして格納し、文字列類似度Sim及びSimBに0を設定する。ここでSimBは、処理中の文字ブロックの類似度を表すパラメータである。
【0149】
ステップS2103において、入力帳票の帳票構造データとして格納されているテキストブロック構造データに基づいて、登録重宝上のその位置に存在するテキストブロックを得る。
【0150】
ステップS2105において、各帳票のテキストブロック構造データに含まれる文字の類似度の平均値を基準値Sthと比較する。基準値Sthは活字文字と手書き文字とを識別するのに適切な値であって、予め実験により求められた値である。ステップS2105の比較処理は、コードデータを用いた絞り込み処理に用いるテキストブロックを、活字文字からなるテキストブロックに選択することを可能とするものである。
【0151】
ステップS2105の比較処理においてYes判定の場合は、ステップS2107に進み、Noの判定の場合はステップS2109に進む。
【0152】
ステップS2107において、ステップS2105で選択したテキストブロックに含まれる文字コードデータを用いた文字類似度を計算する。
【0153】
ここで、文字類似度は、入力帳票のテキストブロック構造データに格納されている文字コードデータと登録帳票のテキストブロック構造データに格納されている文字コードデータとを順次比較し、二つの文字が同じ文字であると判断された場合は所定値を文字類似度SimBに加算し、二つの文字が異なると判断された場合は所定値を文字類似度SimBから減算することにより求められる。文字類似度Simは、類似度を算出するのに用いた全文字における一致文字の数の割合であって、パーセンテージで表した数値である。加算及び減算もパーセンテージで行う。また、加算及び減算する値は文字のサイズで重み付けをした値でも良い。
【0154】
ステップS2109において、ステップS2103からステップS2107の処理がなされていないテキストブロックがあるか判断し、Yes判定の場合はステップS2103に戻り、No判定の場合はステップS2111に進む。ステップS2109で他のテキストブロックがあると判断され、ステップS2103からS2107の処理が繰り返された場合、ステップS2107においては新しいテキストブロックから得た文字類似度SimBを文字類似度Simに加算する。
【0155】
ステップS2111において、文字類似度Simを上限値と比較する。文字類似度Simが上限値より大きい場合は、文字類似度Simを上限値に置き換える。文字類似度Simが上限値以下の場合は、その値を保持する。上限値は文字類似度Simを所定の範囲内に制限するための値であり、文字類似度の帳票類似度における影響度を所定の範囲内に制限して補助的に用いることを可能とするものである。上限値はステップS2111の処理以前に予め記憶されている値である。
【0156】
ステップS2113、において文字類似度Simをレイアウト類似度SimLに加算し、帳票の類似度を求める。
【0157】
文字類似度の計算におけるペナルティとして、ステップS2105で選択されなかったテキストブロックを用いることも可能である。そのために、ステップS2105の後でそのテキストブロックに含まれる文字の数とペナルティ係数とに基づいてペナルティ値(マイナス値)を計算し、そのペナルティ値を文字類似度SimBに加算、即ち文字類似度Simを低くする。
【0158】
活字文字と手書き文字の両方を含むテキストブロックから文字類似度の計算のために活字文字を選択することにより、文字類似度の計算はより正確になる。そのために、ステップS2107における各文字の一致を判断する以前にその文字が活字文字か否かを判断する。その判断方法はステップS2105における処理と同様であり、文字認識信頼度の判断に基づく。
【0159】
帳票から一つも表が抽出されない場合においても、文字類似度により帳票の類似評価が可能となる。
【0160】
帳票が、図22(a)に示されるような「切り取り線」で切られた一方の原稿である可能性がある。その場合、図22(b)に示されるように入力画像は「切り取り線」という文字の一部分やはさみの絵の一部を含む。これらの部分画像を文字として認識処理或いは文字類似度計算された場合、その結果は不正確となる。認識処理及び文字類似度計算の精度を向上させるために、ステップS402において図23のフローチャートに示す処理を実行する。この処理は、帳票構造データに含まれるデータに基づいて行われる。
【0161】
即ち、ステップS2301において、抽出された全ブロックの上端及び左端の最も原点に近い値を求め、その値を仮の原点X1及びY1として設定する。
【0162】
ステップS2303において、帳票データで取り得る最大の値をX及びYに設定する。
【0163】
ステップS2307において、帳票構造データからブロックを選択する。この判断で未判断のブロックが帳票構造データに残っていない場合は、ステップS2329に進む。ステップS2329では、XとYの値を原点としてセットする。
【0164】
ステップS2307において、ステップS2305で選択されたブロックがノイズブロックであるか否かを判断する。本ステップにおけるノイズブロックであるか否かの判断は、そのブロックサイズに基づいて行う。ノイズブロックでないと判断された場合はステップS2309に進み、ノイズブロックであると判断された場合はステップS2305に戻って別のブロックを選択する。
【0165】
ステップS2309において、ブロックがテキストブロックであるか否かを判断する。テキストブロックであると判断された場合はステップS2311に進み、そのブロックの左端XbがX1と同じであるか判断し、同じであると判断された場合は、ステップS2313に進んでブロックの幅Wbが予め定めてある幅基準値Wth以上であるか否かを判断する。
【0166】
ステップS2313では、ブロックの左端XbをX1とすることにより、そのブロックが帳票から抽出されたブロックの中で最も左に位置する、即ち切り取り線である可能性があるか否かを判断することが可能となる。そしてその可能性があるブロックの幅を、ブロック幅の基準値Wthと比較することにより、そのブロックが切り取り線を構成するドットであるか否かを判断する。
【0167】
ステップS2309及びステップS2311でNo判定された場合はステップS2315に進む。ステップS2313でブロックの幅WbがWth以上であると判断された場合もステップS2315に進む。
【0168】
ステップS2315では、ブロック左端XbがXより小さい、即ちXより左に位置するか否かを判断し、Yes判定の場合はステップS2317に進んでブロック左端Xbの値をXに設定する。ステップS2315でNo判定の場合はステップS2319に進む。
【0169】
ステップS2319では、ブロック属性がテキストであるか判断し、Yes判定の場合はステップS2321に進む。ステップS2321では、ブロック上端YbとY1とが同じであるか判断し、同じであると判断される場合はステップS232に進み、ブロック高さHbが予め定めてある高さ基準値Hth以上であるか否かを判断する。ブロックの上端YbをY1と比較することにより、そのブロックが帳票から抽出されたブロックの中で最も上に位置する。即ち切り取り線である可能性があるか否かを判断することが可能となる。そしてその可能性があるブロックの高さを、ブロック高さの基準値Hthと比較することにより、そのブロックが切り取り線を構成するドットであるか否かを判断する。
【0170】
ステップS2319及びステップS2321でNo判定された場合は、ステップS2325に進む。ステップS2323でブロックの高さHbがHth以上であると判断された場合もステップS2325に進む。
【0171】
ステップS2325では、ブロック上端YbがYより小さい、即ちYより上に位置しているか否かを判断し、Yes判定の場合はステップS2327に進み、Ybの値をYに設定する。
【0172】
これらの処理により、原点判断に不適切な切り取り線のブロックを除外して原点を判断することができ、従って文字認識及び文字類似度の算出に不適切なブロックが処理対象とならず、精度が向上する。尚、原点判断に適切なブロックが一つもない場合は、X及びYを0に設定する。
【0173】
尚、本発明は前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体(または記録媒体)を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、達成される。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【0174】
また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているオペレーティングシステム(OS)などが実際の処理の一部または前部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。
【0175】
更に、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるCPUなどが実施の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。
【0176】
【発明の効果】
本発明によれば、入力帳票に類似するテンプレート帳票(登録帳票)の識別、或いは分類の識別が精度良く且つ効率的に行える。
【図面の簡単な説明】
【図1】本発明の一実施形態を実現する帳票検索装置の概略構成を示すブロック図である。
【図2】本実施形態において採用可能なコンピュータシステムの構成例を示す図である。
【図3】本発明の一実施形態を実現可能な帳票検索装置の機能ブロック図である。
【図4】本実施形態における帳票分類装置にて行われる帳票登録処理を示すフローチャートである。
【図5】図4のフローチャートにおけるステップS202の領域分割処理の詳細を示すフローチャートである。
【図6】白領域及び黒領域の集合を例示する図である。
【図7】輪郭形状が四角形の黒領域と、輪郭形状が四角形ではない黒領域(図)とを例示する図である。
【図8】枠、表および図領域とそれぞれの内部白領域の集合の例を示す図である。
【図9】本実施形態における帳票分類装置にて行われる帳票検索処理を示すフローチャートである。
【図10】ステップS404における類似度を求める処理の詳細を示すフローチャートである。
【図11】図9のフローチャートの処理に、絞り込み処理を実行するための比較基準入力ステップS1101と絞り込みステップS1103を追加したフローチャートである。
【図12】ステップS1103における処理を詳細に示すフローチャートである。
【図13】類似度の算出を行う登録帳票を絞りこむ処理を、多段階に行う場合の手順を示すフローチャートである。
【図14】図13のステップS1306における処理を詳細に示すフローチャートである。
【図15】多段階絞り込み処理に用いる絞り込み条件を説明する図である。
【図16】本実施形態において帳票を登録するときの処理を示すフローチャートである。
【図17】図16のステップS1601における比較基準を求める処理の詳細を示すフローチャートである。
【図18】図16のフローチャートに示した登録処理によって記憶装置8に登録した帳票の特徴情報の中から、未知帳票と類似する帳票を検索する処理を示すフローチャートである。
【図19】検索及び分類対象である所望の入力帳票が領域分割部102によって領域分割された場合の構成を例示する図である。
【図20】帳票のデータ構造を説明する図である。
【図21】コードデータを用いた帳票の類似度計算処理を示すフローチャートである。
【図22】文字の一部が欠落している場合の処理を説明する図である。
【図23】本実施形態において認識処理及び文字類似度計算の精度を向上させるために、図18のステップS402において行われる処理のフローチャートである。
【図24】白領域及び黒領域の定義を説明する図である。

Claims (16)

  1. テンプレート帳票内の表属性の領域に関する特徴情報を記憶する記憶手段と、
    入力された入力帳票の画像データを属性毎の領域に分割する領域分割手段と、
    前記領域分割手段で属性毎に分割された各領域の特徴情報を抽出する領域情報抽出手段と、
    前記記憶手段に記憶されている前記テンプレート帳票内の表属性の領域に関する特徴情報と、前記領域情報抽出手段で抽出した前記入力帳票内の各領域の特徴情報とを比較することにより、前記入力帳票と前記テンプレート帳票との類似度を算出する類似度算出手段と、
    前記算出された類似度に基づいて前記入力帳票に類似するテンプレート帳票の情報を出力する出力手段と、を有する帳票分類装置であって、
    前記類似度算出手段で前記特徴情報が比較される入力帳票内の領域の属性は、表属性ならびに前記表属性と異なる属性の両方であることを特徴とする帳票分類装置。
  2. 前記類似度算出手段で比較される特徴情報は、領域の位置と大きさとに関する情報であることを特徴とする請求項1に記載の帳票分類装置。
  3. 前記類似度算出手段で比較される前記入力帳票内の領域の特徴情報は、前記入力帳票内の表属性の領域の特徴情報と枠属性の領域の特徴情報と図属性の領域の特徴情報であることを特徴とする請求項1または2のいずれかに記載の帳票分類装置。
  4. 前記類似度算出手段は、前記入力帳票内の各領域の特徴情報が前記テンプレート帳票内の表属性の領域に関する特徴情報に一致すると判断するたびにスコアを加算していき、当該スコアと前記テンプレート帳票内の表属性の領域の個数とに基づいて前記類似度を算出することを特徴とする請求項1乃至3のいずれか1項に記載の帳票分類装置。
  5. 前記類似度算出手段は、前記スコアを加算する際、前記入力帳票内の領域の属性に応じた重みをつけることを特徴とする請求項4に記載の帳票分類装置。
  6. 前記記憶手段は、前記テンプレート帳票内の表属性と異なる属性を有する領域の特徴情報を更に記憶し、
    前記類似度算出手段で比較されるテンプレート帳票内の領域の属性は、前記表属性ならびに前記表属性と異なる属性の両方であることを特徴とする請求項1に記載の帳票分類装置。
  7. 前記類似度算出手段による類似度の算出に先立ち、前記入力帳票に基づいて、前記記憶手段に記憶されているテンプレート帳票の中から比較候補となるテンプレート帳票を絞り込む絞り込み手段を、更に有することを特徴とする請求項1乃至6のいずれか1項に記載の帳票分類装置。
  8. 前記絞り込み手段での絞り込みに用いる比較基準値を設定する設定手段を、更に有することを特徴とする請求項7に記載の帳票分類装置。
  9. 前記絞り込み手段は、前記入力帳票内の表属性の領域の個数と、最大面積を有する表属性の領域が含むセルの個数とに基づいて、前記記憶手段に記憶されているテンプレート帳票の中から比較候補となるテンプレート帳票を絞り込むことを特徴とする請求項7に記載の帳票分類装置。
  10. 前記絞り込み手段による絞り込みの処理を、多段階に分けて行うことを特徴とする請求項7に記載の帳票分類装置。
  11. 前記多段階の絞り込みに用いる条件は、段階が進むにつれて緩くなる条件であることを特徴とする請求項10に記載の帳票分類装置。
  12. 前記類似度算出手段は、前記絞り込み手段により絞り込まれたテンプレート帳票と前記入力帳票との類似度を算出し、
    当該算出された類似度が所定値以上となるテンプレート帳票が無い場合に、前記絞り込み手段は次の段階の絞り込み条件を用いて前記テンプレート帳票を絞り込むことを特徴とする請求項10または11のいずれかに記載の帳票分類装置。
  13. 前記絞り込み手段は、表の数、最大面積の表のセル数、抽出領域の数のうち、少なくとも1つを絞り込みの条件として用いることを特徴とする請求項7に記載の帳票分類装置。
  14. 前記絞り込み手段は、前記入力帳票の文字認識結果のコードデータを用いて絞り込みを行うことを特徴とする請求項7に記載の帳票分類装置。
  15. 領域分割手段が、入力された入力帳票の画像データを属性毎の領域に分割する領域分割ステップと、
    領域情報抽出手段が、前記属性毎に分割された各領域の特徴情報を抽出する領域情報抽出ステップと、
    類似度算出手段が、記憶手段に記憶されているテンプレート帳票内の表属性の領域に関する特徴情報と、前記領域情報抽出ステップで抽出した前記入力帳票内の各領域の特徴情報とを比較することにより、前記入力帳票と前記テンプレート帳票との類似度を算出する類似度算出ステップと、
    出力手段が、前記算出された類似度に基づいて前記入力帳票に類似するテンプレート帳票の情報を出力する出力ステップと、を有する帳票分類方法であって、
    前記類似度算出ステップで前記特徴情報が比較される入力帳票内の領域の属性は、表属性ならびに前記表属性と異なる属性の両方であることを特徴とする帳票分類方法。
  16. コンピュータを、
    入力された入力帳票の画像データを属性毎の領域に分割する領域分割手段、
    前記領域分割手段で属性毎に分割された各領域の特徴情報を抽出する領域情報抽出手段、
    記憶手段に記憶されているテンプレート帳票内の表属性の領域に関する特徴情報と、前記領域情報抽出手段で抽出した前記入力帳票内の各領域の特徴情報とを比較することにより、前記入力帳票と前記テンプレート帳票との類似度を算出する類似度算出手段、
    として機能させるためのプログラムを記憶した、コンピュータ読取可能な記憶媒体であって、
    前記類似度算出手段で前記特徴情報が比較される入力帳票内の領域の属性は、表属性ならびに前記表属性と異なる属性の両方であることを特徴とするコンピュータ読取可能な記憶媒体。
JP2000138449A 1999-05-13 2000-05-11 帳票分類方法及び装置 Expired - Fee Related JP4454789B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2000138449A JP4454789B2 (ja) 1999-05-13 2000-05-11 帳票分類方法及び装置
EP00303956.7A EP1052593B1 (en) 1999-05-13 2000-05-11 Form search apparatus and method
US09/571,411 US6970601B1 (en) 1999-05-13 2000-05-15 Form search apparatus and method
US11/127,188 US7519226B2 (en) 1999-05-13 2005-05-12 Form search apparatus and method

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP13307199 1999-05-13
JP2000019148 2000-01-27
JP2000-19148 2000-01-27
JP11-133071 2000-01-27
JP2000138449A JP4454789B2 (ja) 1999-05-13 2000-05-11 帳票分類方法及び装置

Publications (3)

Publication Number Publication Date
JP2001283220A JP2001283220A (ja) 2001-10-12
JP2001283220A5 JP2001283220A5 (ja) 2007-06-28
JP4454789B2 true JP4454789B2 (ja) 2010-04-21

Family

ID=27316632

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000138449A Expired - Fee Related JP4454789B2 (ja) 1999-05-13 2000-05-11 帳票分類方法及び装置

Country Status (3)

Country Link
US (2) US6970601B1 (ja)
EP (1) EP1052593B1 (ja)
JP (1) JP4454789B2 (ja)

Families Citing this family (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4100885B2 (ja) * 2001-07-11 2008-06-11 キヤノン株式会社 帳票認識装置、方法、プログラムおよび記憶媒体
JP4065484B2 (ja) * 2001-11-06 2008-03-26 キヤノン株式会社 帳票検索システム
JP2004139484A (ja) * 2002-10-21 2004-05-13 Hitachi Ltd 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム
JP2004348706A (ja) * 2003-04-30 2004-12-09 Canon Inc 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム
US20050097046A1 (en) 2003-10-30 2005-05-05 Singfield Joy S. Wireless electronic check deposit scanning and cashing machine with web-based online account cash management computer application system
JP2005227813A (ja) * 2004-02-10 2005-08-25 Just Syst Corp 文書検索装置、文書検索方法、および文書検索プログラム
US7706633B2 (en) * 2004-04-21 2010-04-27 Siemens Corporation GPU-based image manipulation method for registration applications
US7496232B2 (en) * 2004-06-23 2009-02-24 Microsoft Corporation Distinguishing text from non-text in digital ink
JP2006050120A (ja) * 2004-08-03 2006-02-16 Riso Kagaku Corp 画像情報処理方法および装置並びに画像情報処理プログラム
JP4213112B2 (ja) * 2004-11-09 2009-01-21 シャープ株式会社 画像検索装置、画像形成装置、画像検索装置の制御方法、画像検索プログラムおよびコンピュータ読取り可能な記録媒体
US7450760B2 (en) 2005-05-18 2008-11-11 Scanr, Inc. System and method for capturing and processing business data
US7640037B2 (en) * 2005-05-18 2009-12-29 scanR, Inc, System and method for capturing and processing business data
WO2007117334A2 (en) * 2006-01-03 2007-10-18 Kyos Systems Inc. Document analysis system for integration of paper records into a searchable electronic database
US8708227B1 (en) 2006-10-31 2014-04-29 United Services Automobile Association (Usaa) Systems and methods for remote deposit of checks
US7873200B1 (en) 2006-10-31 2011-01-18 United Services Automobile Association (Usaa) Systems and methods for remote deposit of checks
JP4402138B2 (ja) 2007-06-29 2010-01-20 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム
JP4590433B2 (ja) * 2007-06-29 2010-12-01 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム
US9058512B1 (en) 2007-09-28 2015-06-16 United Services Automobile Association (Usaa) Systems and methods for digital signature detection
US8108764B2 (en) * 2007-10-03 2012-01-31 Esker, Inc. Document recognition using static and variable strings to create a document signature
US9159101B1 (en) 2007-10-23 2015-10-13 United Services Automobile Association (Usaa) Image processing
JP5376795B2 (ja) * 2007-12-12 2013-12-25 キヤノン株式会社 画像処理装置、画像処理方法、そのプログラム及び記憶媒体
US10380562B1 (en) 2008-02-07 2019-08-13 United Services Automobile Association (Usaa) Systems and methods for mobile deposit of negotiable instruments
CN101551859B (zh) * 2008-03-31 2012-01-04 夏普株式会社 图像辨别装置及图像检索装置
JP5171421B2 (ja) * 2008-06-18 2013-03-27 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム
US10504185B1 (en) 2008-09-08 2019-12-10 United Services Automobile Association (Usaa) Systems and methods for live video financial deposit
US8452689B1 (en) 2009-02-18 2013-05-28 United Services Automobile Association (Usaa) Systems and methods of check detection
JP5343617B2 (ja) * 2009-02-25 2013-11-13 富士通株式会社 文字認識プログラム、文字認識方法および文字認識装置
US10956728B1 (en) 2009-03-04 2021-03-23 United Services Automobile Association (Usaa) Systems and methods of check processing with background removal
US8295579B2 (en) 2009-04-22 2012-10-23 Gtech Corporation Obstruction detector
US9779392B1 (en) 2009-08-19 2017-10-03 United Services Automobile Association (Usaa) Apparatuses, methods and systems for a publishing and subscribing platform of depositing negotiable instruments
US8977571B1 (en) 2009-08-21 2015-03-10 United Services Automobile Association (Usaa) Systems and methods for image monitoring of check during mobile deposit
KR101214772B1 (ko) * 2010-02-26 2012-12-21 삼성전자주식회사 문자의 방향성을 기반으로 한 문자 인식 장치 및 방법
US9129340B1 (en) 2010-06-08 2015-09-08 United Services Automobile Association (Usaa) Apparatuses, methods and systems for remote deposit capture with enhanced image detection
JP5249387B2 (ja) 2010-07-06 2013-07-31 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
JP5676942B2 (ja) 2010-07-06 2015-02-25 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
JP2012043047A (ja) * 2010-08-16 2012-03-01 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム
US20120213440A1 (en) * 2010-11-22 2012-08-23 University Of Central Florida Research Foundation, Inc. Systems and Methods for Automatically Identifying Shadows in Images
JP5285727B2 (ja) * 2011-02-22 2013-09-11 シャープ株式会社 画像形成装置、および、画像形成方法
CN103518183B (zh) * 2011-04-07 2017-05-17 惠普发展公司,有限责任合伙企业 图形对象分类
JP2013038454A (ja) * 2011-08-03 2013-02-21 Sony Corp 画像処理装置および方法、並びにプログラム
US10380565B1 (en) 2012-01-05 2019-08-13 United Services Automobile Association (Usaa) System and method for storefront bank deposits
US8831361B2 (en) * 2012-03-09 2014-09-09 Ancora Software Inc. Method and system for commercial document image classification
JP6049437B2 (ja) 2012-12-14 2016-12-21 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム
US10878516B2 (en) 2013-02-28 2020-12-29 Intuit Inc. Tax document imaging and processing
US9256783B2 (en) * 2013-02-28 2016-02-09 Intuit Inc. Systems and methods for tax data capture and use
US9916626B2 (en) 2013-02-28 2018-03-13 Intuit Inc. Presentation of image of source of tax data through tax preparation application
US9286514B1 (en) 2013-10-17 2016-03-15 United Services Automobile Association (Usaa) Character count determination for a digital image
US9248840B2 (en) * 2013-12-20 2016-02-02 Immersion Corporation Gesture based input system in a vehicle with haptic feedback
TWI536798B (zh) 2014-08-11 2016-06-01 虹光精密工業股份有限公司 影像分檔方法
US9239961B1 (en) * 2014-09-24 2016-01-19 Amazon Technologies, Inc. Text recognition near an edge
JP6325407B2 (ja) * 2014-09-29 2018-05-16 株式会社東芝 情報処理装置、情報処理方法及びプログラム
JP2016165077A (ja) * 2015-03-06 2016-09-08 キヤノン株式会社 画像形成装置
CN105205036B (zh) * 2015-09-11 2018-08-24 苏州佳世达电通有限公司 一种自动填写信息的方法及电子装置
US10506281B1 (en) 2015-12-22 2019-12-10 United Services Automobile Association (Usaa) System and method for capturing audio or video data
JP6231615B1 (ja) * 2016-05-20 2017-11-15 株式会社ミロク情報サービス 仕訳情報生成装置、仕訳情報生成システム、仕訳情報生成方法、及び仕訳情報生成プログラム
JP6530024B2 (ja) * 2017-09-07 2019-06-12 株式会社東芝 Ocrスキャナシステム及びocrスキャナシステムにおけるエラー解析方法
CN108053188B (zh) * 2017-12-29 2022-03-04 北京致远互联软件股份有限公司 一种数据跨表回写方法、介质以及设备
US11030752B1 (en) 2018-04-27 2021-06-08 United Services Automobile Association (Usaa) System, computing device, and method for document detection
US11900755B1 (en) 2020-11-30 2024-02-13 United Services Automobile Association (Usaa) System, computing device, and method for document detection and deposit processing
US11763586B2 (en) 2021-08-09 2023-09-19 Kyocera Document Solutions Inc. Method and system for classifying document images

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4376932A (en) * 1980-06-30 1983-03-15 International Business Machines Corporation Multi-registration in character recognition
US4606069A (en) * 1983-06-10 1986-08-12 At&T Bell Laboratories Apparatus and method for compression of facsimile information by pattern matching
US5235653A (en) * 1984-08-31 1993-08-10 Hitachi, Ltd. Document analysis system
KR930009639B1 (ko) * 1989-07-09 1993-10-08 가부시끼가이샤 히다찌세이사꾸쇼 화상데이타를 이용하는 문서데이타 처리방법 및 장치
DE69132789T2 (de) * 1990-05-14 2002-05-23 Canon Kk Verfahren und Gerät zur Bildverarbeitung
US5274714A (en) * 1990-06-04 1993-12-28 Neuristics, Inc. Method and apparatus for determining and organizing feature vectors for neural network recognition
IL98293A (en) * 1991-05-28 1994-04-12 Scitex Corp Ltd A method for distinguishing between text and graphics
US5680479A (en) * 1992-04-24 1997-10-21 Canon Kabushiki Kaisha Method and apparatus for character recognition
DE69432114T2 (de) * 1993-11-24 2003-10-30 Canon Kk System zum Identifizieren und Verarbeiten von Formularen
US5392130A (en) * 1993-11-24 1995-02-21 Xerox Corporation Analyzing an image showing a row/column representation
JP3136928B2 (ja) * 1994-11-08 2001-02-19 カシオ計算機株式会社 データ処理装置
US5835634A (en) * 1996-05-31 1998-11-10 Adobe Systems Incorporated Bitmap comparison apparatus and method using an outline mask and differently weighted bits
JP2000163044A (ja) * 1998-11-30 2000-06-16 Sharp Corp 画像表示装置
US6975755B1 (en) * 1999-11-25 2005-12-13 Canon Kabushiki Kaisha Image processing method and apparatus
US6721488B1 (en) * 1999-11-30 2004-04-13 Koninklijke Philips Electronics N.V. Method and apparatus to identify sequential content stored on a storage medium
US6654758B1 (en) * 2000-07-21 2003-11-25 Unisys Corporation Method for searching multiple file types on a CD ROM

Also Published As

Publication number Publication date
EP1052593B1 (en) 2015-07-15
US20050238257A1 (en) 2005-10-27
EP1052593A3 (en) 2006-09-06
US6970601B1 (en) 2005-11-29
EP1052593A2 (en) 2000-11-15
US7519226B2 (en) 2009-04-14
JP2001283220A (ja) 2001-10-12

Similar Documents

Publication Publication Date Title
JP4454789B2 (ja) 帳票分類方法及び装置
US7574044B2 (en) Image processing apparatus, image processing method and image processing program
CN101558425B (zh) 图像处理设备和图像处理方法
US8160402B2 (en) Document image processing apparatus
CN101855640B (zh) 尤其是用于移动无线设备的图像分析方法
CN106875546A (zh) 一种增值税发票的识别方法
CN101689203A (zh) 图像处理设备、图像处理方法和计算机程序
US20040213458A1 (en) Image processing method and system
US20150371100A1 (en) Character recognition method and system using digit segmentation and recombination
Clausner et al. Icfhr 2018 competition on recognition of historical arabic scientific manuscripts–rasm2018
Ma et al. Segmentation and recognition for historical Tibetan document images
EP0933719A2 (en) Image processing method and apparatus
JP2000285190A (ja) 帳票識別方法および帳票識別装置および記憶媒体
US9049400B2 (en) Image processing apparatus, and image processing method and program
CN110543810A (zh) 一种完整识别pdf文件页眉页脚的技术
An et al. Iterated document content classification
JP6247103B2 (ja) 帳票項目認識方法、帳票項目認識装置及び帳票項目認識プログラム
CN109948598A (zh) 文档版面智能化分析方法及装置
JPS60153574A (ja) 文字読取方法
WO1999041681A1 (fr) Procede d'analyse de structure d'image de document
Sánchez-Oro et al. URJC&UNED at ImageCLEF 2013 Photo Annotation Task.
JP2728086B2 (ja) 文字切り出し方法
JPS60153575A (ja) 文字読取方法
JP2766205B2 (ja) 文字認識装置
JP2728085B2 (ja) 文字切り出し方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070511

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070511

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20070511

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080814

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100125

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100203

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130212

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4454789

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140212

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees