JP2010003155A - 帳票認識装置、方法、データベース作成装置、方法、及びプログラム - Google Patents
帳票認識装置、方法、データベース作成装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2010003155A JP2010003155A JP2008162110A JP2008162110A JP2010003155A JP 2010003155 A JP2010003155 A JP 2010003155A JP 2008162110 A JP2008162110 A JP 2008162110A JP 2008162110 A JP2008162110 A JP 2008162110A JP 2010003155 A JP2010003155 A JP 2010003155A
- Authority
- JP
- Japan
- Prior art keywords
- headline
- character string
- wording
- table structure
- representative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
【解決手段】キーワード抽出部18は、キーワードとして、項目名等に対応する見出し文言を抽出する。帳票種別判定部18は、抽出されたキーワードの種類、そのキーワードの抽出位置等に着目して、帳票種別を判定する。論理構造解析(項目候補抽出)部20は、文字列が含まれる領域であるセル単位で表構造を論理的に解析し、セル内に存在する他の認識していない文字列の抽出や、認識されていない見出し文言を推定して復元を行う。それらの操作は、帳票種別の判定結果を反映させて行う。それにより、より高精度な認識を実現させるともに、より幅広い種類の帳票への対応を可能とさせる。
【選択図】図1
Description
項目名をグルーピングして、読み取った帳票上に存在する項目名が属するグループを抽出し、抽出したグループから候補となる帳票の種類(論理構造)を推測するようになっている。しかし、各グループには、一つ以上の項目名が属していることから、各グループが持つ情報量は小さい。なぜなら、各グループの情報はグループに属する全ての項目名に関係するものとなるからである。このため、注文書、及び入会申込書の何れであるかといったようなレベルでしか帳票の種類を認識することはできない。
本発明の一態様を適用した帳票認識装置は、帳票の電子化された帳票画像を取得する画像取得手段と、画像取得手段が取得した帳票画像上に存在する文字列を認識する文字列認識手段と、文字列認識手段が認識した文字列のなかから予め定めた文字列である見出し文言を抽出する文字列抽出手段と、文字列抽出手段が抽出した見出し文言、及び見出し文言の帳票画像上の配置に基づいて、該帳票画像上に存在する表構造を判定する表構造判定手段と、表構造判定手段による表構造の判定結果を用いて、見出し文言と該見出し文言以外に文字列認識手段が認識している文字列との間の対応関係を特定する対応関係特定手段と
、を具備する。
力(記入)される可能性が考えられるデータの種類、及び数は、帳票の用途(種別、或いは形式等)によって特定することができる。項目名によって、データとして入力される文字列の種類(属性)、文字数、付加される特有のシンボル、そのシンボルの位置、などに違いがある場合がある。これらのことから、認識されている見出し文言、及び単位表構造でデータとして認識される文字列のうちの少なくとも一方に着目して、そのデータに対応する見出し文言を高精度に特定することができる。それにより、記載内容を認識するための情報を帳票毎に登録することなく、オペレータにとってより望ましい形で帳票の認識結果を提供できることとなる。見出し文言の数が少なく、内容が把握し難い帳票をより適切な形で処理可能とすることから、幅広く帳票に対応できることとなる。
図1は、本実施形態による帳票認識装置の機能構成を示す図である。その帳票認識装置1は、帳票を読み取って得られる電子化された帳票画像を入力し、その帳票画像上に存在する文字列(1つ以上の文字から構成されるもの)を認識するものである。
図35では、見出しGRは「振込先」が相当する。その見出しGR「振込先」は、図35(a)〜(d)に示すように、他項目、つまり別の見出し文言を包含する位置に配置されるか、或いはデータを入力する入力欄が直接的に示す位置に配置される場合がある。また、図35(e)或いは(f)に示すように、見出し文言として見出しGR「振込先」を含むもの(図中では「振込先銀行名」)が採用される場合もある。図35(g)に示すように、見出しGR「振込先」が存在しない場合もある。
なものであった場合には、縦罫線は無いと判定され、ステップS4で仮の縦罫線を対象表に応じて生成した後、ステップS7に移行する。その仮の縦罫線は、図37(b−1)及び(b−2)に示すように、文字列(1つ以上、連なる文字)の横方向上の間隔が或る程度、広い所に生成する。
しが割り当てられる見出し文言は、例えば図43(a)〜(c)に示すように定義される。
先ず、ステップS21では、業種別DBが指定されているか否か判定する。業種が指定されていない場合、判定はNOとなり、ステップS22で論理構造解析DB25を参照して、登録されている見出し文言を読み込んだ後、ステップS24に移行する。そうでない場合には、つまり業種が指定されていた場合には、判定はYESとなり、ステップS23で対応する業種別DBを参照して、登録されている見出し文言を読み込んだ後にステップS24に移行する。ここで読み込む見出し文言の総数はN個とする。
とからステップS27では、探索により抽出した見出し文言と登録されている見出し文言との一致度を表す見出し得点MTn(nはn番目に探索された見出し文言の得点であることを表すシンボルである。特に探索された順番を考慮する必要がないような場合には「MT」とも表記する)を算出する見出し得点算出処理を実行する。その実行後はステップS28に移行する。
。
先ず、ステップS81では、帳票種別が定義済みか否か判定する。例えば帳票種別をオペレータが指定した、或いは帳票種別を示す情報が帳票上に存在していたような場合、判定はYESとなり、ステップS82で帳票種別を設定した後、ステップS94に移行する。その何れでも無いような場合には、判定はNOとなってステップS83に移行する。
。その算出方法は、特に限定するものではないが、例えばそれらの値を加算するものも含まれる。
図7は、上記ステップS84として実行される表構造判定処理のフローチャートである。初めに図7を参照して、その判定処理について詳細に説明する。
先ず、ステップS105では、列毎に、縦(1列)に並ぶセルの個数ClTnを算出する。続くステップS106では、1列に並ぶセルの平均個数ClTaveを算出する。次のステップS107では、列毎に、縦(列)方向に並ぶセルのなかで、縦方向上の隣と接するセル間に存在する角、つまり隣り合うセルを分ける罫線の個数KDTnを算出する。その次に移行するステップS108では、列毎に、個数KDTnを個数ClTnで割った値をセルずれ度ZRTとして算出する。そのセルずれ度ZRTは、列方向にセルが揃っている度合いを示している。列方向にセルが揃っているか否か判定するために、閾値ZRTthを設定している。
セルの形状・配置は、図47(a)及び(b)に示すように補正される。
図12は、不読見出し復元処理のフローチャートである。この復元処理は、ノイズ、汚れ、或いは破損等の理由によって認識できなかった見出し文言を推定して抽出するための
処理である。この復元処理では、ステップS201及びS202でそれぞれ見出し位置情報による再抽出処理、排他関係、及びデータ情報による再抽出処理を実行するようになっている。
在する帳票例、図53(b)は論理構造解析DB25に定義されたその帳票に対応する内容、及び図53(c)は生成されたデータ位置順位をそれぞれ示している。
させた後、一連の処理を終了し、上記ステップS216に戻る。そうでない場合には、判定はNOとなり、ここで一連の処理を終了する。
出できていなかった場合、判定はNOとなり、ここで排他関係、及びデータ情報による再抽出処理を終了する。これは、未検出とする見出し文言の判定等に誤りがある可能性が考えられるからである。そうでない場合には、判定はYESとなり、ステップS235に移行する。
ステップS174のセル補正処理を実行した後は、ステップS175に移行して、代表見出し、見出しGR及びDRの何れかが複数、あるか否か判定する。それらのうちの少なくとも一つが複数、存在していた場合、判定はYESとなり、ステップS176で重複精査処理を実行した後、ステップS177に移行する。そうでない場合には、判定はNOとなり、そのステップS177に移行する。そのステップS177では、DR・GR−見出し文言精査処理を実行し、その実行後はステップS178に移行する。
図14は、ステップS176として実行される重複精査処理のフローチャートである。始めに図14を参照して、その精査処理について具体的に説明する。
見出しDR及びGRは、関連する一つ以上のデータを入力する範囲の表構造(明細範囲)で一つのみ存在する。しかし、その表構造に代表見出し、或いは代表見出しが割り当てられた見出し文言が必ず存在するとは限らない。このことから、DR・GR−見出し文言精査は、表に存在しない代表見出しを推定・補足するために行われる。その代表見出しを追加することにより、帳票の内容をより容易にオペレータが理解できるように支援することができる。見出し文言とデータの対応関係を自動的に生成することから、情報入力を行う必要性は低減される。
及び(b)はそれぞれ、図57(a−1)及び(b−1)に帳票デザイン(明細範囲)の例、図57(a−2)及び(b−2)に論理構造解析DB25の内容、図57(a−3)及び(b−3)DB25に帳票デザインからDB25を用いて推定・追加される代表見出し、を示している。その推定・追加される代表見出しは図中「仮想見出し」と表記している。その仮想見出しは、本来、帳票上のセルとは別次元の連結関係で設定する。仮想見出しを配置したセル(2点鎖線で示すセル)は、表構造上、上部に配置している。このことからDR・GR−見出し文言精査処理では、仮想見出しの特定(作成)の他に、その仮想見出しとデータとの連結関係の特定が行われる。そのDR・GR−見出し文言精査処理について、図15を参照して詳細に説明する。
には、その旨が判定され、ステップS282で対応する見出し得点MTnを更新した後、一連の処理を終了する。対応する見出し得点MTnは、現在、対象としている表構造(明細範囲)の見出しDR或いはGRのものであり、その得点MTnの更新は、それまでの値から、候補となる代表見出しがないことを評価するための所定値を減算することで行う。それにより、見出しDR或いはGRは見出しとして評価を下げることとなる。ステップS281では、探索により抽出したデータセル、或いはデータ位置順位から仮想見出しが特定される。
上記DR・GR−見出し文言精査処理が終了すると、ステップS178に移行し、帳票の種別は連記か否か判定する。帳票が連記であった場合、判定はYESとなってステップS190に移行する。そうでない場合には、判定はNOとなってステップS179に移行する。
に位置するセル内に文字列が存在する場合、文字列は有ると判定され、ステップS185に移行して、その文字列が有ることを点数DTnmに反映させるための下項目候補抽出処理を実行する。その後に一連の処理を終了する。そうでない場合には、その旨が判定され、ここで一連の処理を終了する。下側に位置するセルに文字列が有るか否かを点数DTnmに反映させるのは、項目名の下側にデータを入力させるデザインも採用される可能性が高いからである。
見出し文言やデータの抽出は、図1の文字認識部16による認識結果を対象に行う。文字の認識は全て正確に行えるとは限らない。その認識が誤っていれば、見出し文言の抽出が適切に行えていない可能性がある。このためステップS186では、認識の精度に着目して、見出し文言の解析を行うべきか否か判定するための項目解析要否判定処理を実行する。その実行後はステップS187に移行する。認識の精度を判定するための各種情報は文字認識部16から取得する。
その処理ループでは先ず、ステップS192で見出し行に存在する見出し文言(項目名)のなかから一つを選択し、その見出し文言に対応付けるデータ列のセルは明確にはしご状となっている、つまりデータ列のセルは例えば図45(a−1)或いは(a−2)に示すようにほぼ揃っていないか否か判定する。図45(a−1)或いは(a−2)に示すようにほぼ揃っているような場合、判定はNOとなり、ステップS193でセルを揃える形で統合を行った後、一連の処理を終了する。そうでない場合には、判定はYESとなり、ここで一連の処理を終了する。見出し文言分、繰り返した後はステップS194に移行する。
図16は、上記ステップS181として実行されるセル内項目候補抽出処理のフローチャートである。初めに図16を参照して、その抽出処理について詳細に説明する。この抽出処理は、対象セルのみに着目して実行される。
る文字列を抽出し、抽出した文字列のなかから不要とすべきものを排除し、残った文字列を必要に応じて統合することで行われる。その統合は、図58(a)〜(e)において、図58(d)及び(e)に示すケースが相当する。その図58中、「見出し」は既に抽出済みの見出し文言を表しており、破線で囲んだ文字列は、抽出された文字列、或いは藤堂した文字列を示している。また「プレプリント」は、帳票上に存在する認識対象外の文字列であり、その判定は、例えば色、文字の形状、或いは内容から行うことができる。
置に対象文字列が存在した場合、判定はYESとなり、ステップS314で前行の文字列と対象文字列を1つの文字列に統合した後、一連の処理を終了する。そうでない場合には、判定はNOとなり、ステップS315で変数mの値をインクリメントした後、一連の処理を終了する。
d)に示す文字列がデータ候補として得られることとなる。セル内複数項目候補抽出処理は、そのような操作を実現させる。
ステップS352〜S356は、見出し文言以外に対象セル内から抽出された文字列の数分、繰り返し実行される処理ループを形成している。ステップS352〜S358のなかでステップS353〜S358は見出し文言数分、繰り返し実行される処理ループを形成している。それにより、着目する文字列を変更しながら、文字列毎に各見出し文言を考慮しデータとしての評価を行う。ここでは着目する文字列は「対象文字列」と表記する。
この抽出処理では、点数DTnmに設定する初期値等が異なる以外、上述の右項目候補抽出処理と同様である。このため、詳細な説明は省略する。ステップS453に移行するのは、見出し文言とデータの位置関係が図34(4)に示すようなものとなっている場合である。
先ず、ステップS501では、見出し文言がセル内にあるか否か判定する。見出し文言のセルが生成されていない場合、判定はNOとなってステップS507に移行する。そうでない場合には、判定はYESとなってステップS502に移行する。
図21は、図11に示す第1の論理構造解析処理内でステップS194として実行される連記項目候補抽出処理のフローチャートである。次に図21を参照して、その抽出処理について詳細に説明する。
んでいる見出し項目(セル)数分のデータセルに相当する全明細のなかに、その並んでいる方向と直交する方向に複数のデータが存在するものがあるか否か判定する。複数行、或いは複数列にわたって文字列が存在するデータセルがある場合、判定はYESとなり、ステップS560でデータが1行、或いは1列となるように明細を分割した後、この連記項目候補抽出処理を終了する。そうでない場合には、判定はNOとなり、ここでこの抽出処理を終了する。図69は、明細分割を説明する図であり、図69に示すような操作はステップS560の実行によって実現される。
〜S663では、項目解析の結果を反映させるための処理が実行される。
ステップS669では、評価点HKTの操作を行ったことから、再度、評価点HKT順に見出し文言のソートを行う。その次に移行するステップS670では、評価点HKT順の再ソートに合わせて、上位Jn位までの見出し文言に対応付けられたデータ候補を再抽出する。その後に、この解析処理を終了する。
図73に示すコンピュータは、CPU61、メモリ62、入力装置63、出力装置64、外部記憶装置65、媒体駆動装置66、及びネットワーク接続装置67を有し、これらがバス68によって互いに接続された構成となっている。同図に示す構成は一例であり、これに限定されるものではない。
メモリ62は、プログラム実行、データ更新等の際に、外部記憶装置65(あるいは可搬型の記録媒体MD)に記憶されているプログラムあるいはデータを一時的に格納する例えばRAMである。CPU61は、プログラムをメモリ62に読み出して実行することに
より、全体の制御を行う。
ネットワーク接続装置67は、例えばイントラネットやインターネット等のネットワークを介して、外部装置と通信を行うためのものである。その外部装置は、画像読取装置であっても良く、その画像読取装置と接続されたものであっても良い。外部記憶装置65は、例えばハードディスク装置である。主に各種データやプログラムの保存に用いられる。
本実施形態による帳票認識装置1は、それに必要な機能を搭載したプログラム(以降「帳票認識ソフト」と呼ぶ)をCPU61が実行することで実現される。その認識ソフトは、記録媒体MDに記録して配布しても良く、或いはネットワーク接続装置67により取得できるようにしても良い。ここでは、外部記憶装置65に認識ソフト、及び論理構造解析DB25が共に格納されていると想定する。
上記帳票認識装置1は、論理構造解析DB25を参照して、帳票の認識を行う。このデータベース(DB)作成支援装置700は、その解析DB25の作成を支援するためのものである。
し文言が少ないような表構造では、表記されていない見出し文言(代表見出し等を追加し、帳票の内容をより容易に理解できるようにすることもできる。これらのことから、表構造の登録はしなくとも良いということの他に、帳票認識を適切に行える帳票の範囲が広い(汚れやシワ等による悪影響を低減できる)、帳票上に無い情報まで提供可能である、といった効果が得られることとなる。これらのことは、上述の帳票認識装置1の説明により明らかである。
であった場合、判定はYESとなり、ステップS714で表形式の入力をオペレータに促し、その入力を行う。その入力後はステップS715で表形式を定義してからステップS716に移行する。そうでない場合には、判定はNOとなり、そのステップS716に移行する。
図76は、見出し関係を生成する処理の流れを示すフローチャートである。次に図76を参照して、見出し関係を生成するまでのオペレータの操作、及びその操作に応じて実行される処理について詳細に説明する。その図76では、図75の処理を実行することで論理構造解析DB25に格納された情報が存在することを前提とする。
図81は、見出しGR関係の定義によって生成される帳票デザインを説明する図である。図81(a−1)〜(a−4)はそれぞれ、図81(a−1)は生成された見出しGR関係、図81(a−2)は生成された見出しGR関係に合う帳票デザインのバリエーション、図81(a−3)は実際に読み取られた帳票デザイン、図81(a−4)は図81(a−3)の帳票デザインで各代表見出しに対応付けられるデータ、をそれぞれ示している。図中の「1」〜「4」はデータ位置順位を表している。また図81(b−1)は生成された見出しGR関係、図81(b−2)は生成された見出しGR関係に合う帳票デザインのバリエーション、をそれぞれ示している。
上述したように、見出し文言が存在しない、或いは認識できないことで表構造から未検出の見出し文言があった場合、データ候補にはデータ位置順位に従って代表見出しが割り当てられる。帳票デザインを作成しオペレータに確認させるのはこのためである。つまり帳票デザインを通して不適切な部分を確認させるためである。生成した見出し関係は、状況により、未検出の見出し文言に割り当てる代表見出しの決定に用いられる。図82に示す例は何れも、見出し文言の認識結果に応じて生成される見出し関係であり、その見出し関係は図1の論理構造解析(項目候補抽出)部20による修正の対象となる。
12 図表文分離部
13 罫線抽出部
14 表構造解析部
15 テキスト抽出部
16 文字認識部
17 キーワード抽出部
18 帳票種別判定部
19 表構造解析(無罫線)部
20 論理構造解析(項目候補抽出)部
21 項目解析部
22 論理構造解析(項目確定)部
23 出力部
24 データベース蓄積部
25 論理構造解析DB
26 メモリ
701 見出し・データ情報入力部
702 代表見出し作成部
703 見出し関係入力部
704 見出し関係生成部
705 DB出力部
Claims (30)
- 帳票上に任意の表構造で存在する文字列の認識を行う帳票認識装置において、
前記帳票の電子化された帳票画像を取得する画像取得手段と、
前記画像取得手段が取得した前記帳票画像上に存在する文字列を認識する文字列認識手段と、
前記文字列認識手段が認識した文字列のなかから予め定めた文字列である見出し文言を抽出する文字列抽出手段と、
前記文字列抽出手段が抽出した見出し文言、及び前記見出し文言の前記帳票画像上の配置に基づいて、該帳票画像上に存在する表構造を判定する表構造判定手段と、
前記表構造判定手段による前記表構造の判定結果を用いて、前記見出し文言と該見出し文言以外に前記文字列認識手段が認識している文字列との間の対応関係を特定する対応関係特定手段と、
を具備することを特徴とする帳票認識装置。 - 前記帳票上に1つ以上の関連するデータを記入する単位となる表構造である単位表構造毎に、該単位表構造で出現する可能性のある見出し文言が階層構造で定義されているデータベースを格納した記憶手段、を具備し、
前記表構造判定手段は、前記記憶手段に格納されたデータベースを参照して、前記帳票画像上に存在する全体の表構造を判定する、
ことを特徴とする請求項1記載の帳票認識装置。 - 前記階層構造は、1つ以上の見出し文言が定義される第1の層、該第1の層で定義された見出し文言を代表し、他の見出し文言と置換可能な見出し文言である第1の代表見出しが定義された第2の層、及び前記表構造で該第1の代表見出しの上位に位置する見出し文言である第2の代表見出しが定義される第3の層を含み、
前記表構造判定手段は、前記文字列抽出手段による前記第2の代表見出しの抽出結果を基に、該第2の代表見出しを有する前記単位表構造の範囲を設定し、該設定した範囲内で抽出されている他の見出し文言の評価を行い、該単位表構造に存在する見出し文言を特定する、
ことを特徴とする請求項2記載の帳票認識装置。 - 前記階層構造は、1つ以上の見出し文言が定義される第1の層、該第1の層で定義された見出し文言を代表し、他の見出し文言と置換可能な見出し文言である第1の代表見出しが定義された第2の層、及び前記表構造で該第1の代表見出しの上位に位置する見出し文言である第2の代表見出しが定義される第3の層を含み、
前記文字列抽出手段による前記第2の代表見出しの抽出結果を基に、該第2の代表見出しを有する前記単位表構造の範囲を設定し、該設定した範囲内で抽出されている他の見出し文言と置換可能な前記第1の代表見出し、及び該単位表構造で前記見出し文言とは異なる文字列として認識されるデータに着目して、該単位表構造に追加すべき第1の代表見出しを特定し追加する見出し追加手段、
を更に具備することを特徴とする請求項1記載の帳票認識装置。 - 前記文字列抽出手段が抽出した見出し文言、及び前記表構造判定手段が判定した表構造を基に、該文字列認識手段が認識していない見出し文言が存在する前記帳票画像上の位置を特定する位置特定手段と、
前記位置特定手段が特定した位置に存在すべき見出し文言を生成する文言生成手段と、を更に具備することを特徴とする請求項1記載の帳票認識装置。 - 帳票上に任意の表構造で存在する文字列の認識を行う帳票認識装置において、
前記帳票の電子化された帳票画像を取得する画像取得手段と、
前記画像取得手段が取得した前記帳票画像上に存在する文字列を認識する文字列認識手段と、
前記文字列認識手段が認識した文字列のなかから予め定めた文字列である見出し文言を抽出する文字列抽出手段と、
前記文字列抽出手段が抽出した結果を基に、前記文字列認識手段が認識していない見出し文言が存在する前記帳票画像上の位置を特定する位置特定手段と、
前記位置特定手段が特定した位置に存在すべき見出し文言を生成する文言生成手段と、
前記文言生成手段が生成した見出し文言を含め、該見出し文言と該見出し文言以外に前記文字列認識手段が認識している文字列との間の対応関係を特定する対応関係特定手段と、
を具備することを特徴とする帳票認識装置。 - 前記文字列抽出手段が抽出した見出し文言、及び前記見出し文言の前記帳票画像上の配置に基づいて、該帳票画像上に存在する表構造を判定する表構造判定手段、を更に具備し、
前記位置特定手段は、前記表構造判定手段の判別結果を用いて前記位置の特定を行い、
前記文言生成手段は、前記表構造判定手段の判別結果から、前記位置に存在すべき見出し文言を生成する、
ことを特徴とする請求項6記載の帳票認識装置。 - 前記帳票上に1つ以上の関連するデータを記入する単位となる表構造である単位表構造毎に、該単位表構造で出現する可能性のある見出し文言が階層構造で定義されているデータベースを格納した記憶手段、を具備し、
前記表構造判定手段は、前記記憶手段に格納されたデータベースを参照して、前記帳票画像上に存在する全体の表構造を判定する、
ことを特徴とする請求項7記載の帳票認識装置。 - 前記階層構造は、1つ以上の見出し文言が定義される第1の層、該第1の層で定義された見出し文言を代表し、他の見出し文言と置換可能な見出し文言である第1の代表見出しが定義された第2の層、及び前記表構造で該第1の代表見出しの上位に位置する見出し文言である第2の代表見出しが定義される第3の層を含み、
前記表構造判定手段は、前記文字列抽出手段による前記第2の代表見出しの抽出結果を基に、該第2の代表見出しを有する前記単位表構造の範囲を設定し、該設定した範囲内で抽出されている他の見出し文言の評価を行い、該単位表構造に存在する見出し文言を特定する、
ことを特徴とする請求項8記載の帳票認識装置。 - 前記階層構造は、1つ以上の見出し文言が定義される第1の層、該第1の層で定義された見出し文言を代表し、他の見出し文言と置換可能な見出し文言である第1の代表見出しが定義された第2の層、及び前記表構造で該第1の代表見出しの上位に位置する見出し文言である第2の代表見出しが定義される第3の層を含み、
前記位置特定手段は、前記文字列抽出手段による前記第2の代表見出しの抽出結果を基に、該第2の代表見出しを有する前記単位表構造の範囲を抽出し、該抽出した範囲内で認識されている他の見出し文言と置換可能な前記第1の代表見出し、及び該単位表構造でデータとして認識される文字列に着目して、前記位置を該範囲内で特定し、
前記文言生成手段は、前記位置特定手段が前記範囲内で特定した位置に追加すべき第1の代表見出しを特定することにより、前記見出し文言を生成する、
ことを特徴とする請求項8記載の帳票認識装置。 - 前記第1の代表見出しは、前記単位表構造毎に重複しない排他関係を有し、
前記文言生成手段は、前記排他関係を利用して、前記範囲内で認識されている第1の代表見出しとは異なる第1の代表見出しを特定する、
ことを特徴とする請求項10記載の帳票認識装置。 - 前記データベースは、前記単位表構造上に記入されるデータに関するデータ情報が定義され、
前記文言生成手段は、前記排他関係、及び前記データ情報を利用して、前記範囲内で認識されている第1の代表見出しとは異なる第1の代表見出しを特定する、
ことを特徴とする請求項11記載の帳票認識装置。 - 前記帳票上に1つ以上の関連するデータを記入する単位となる表構造である単位表構造毎に、該単位表構造で出現する可能性のある見出し文言が階層構造で定義されているデータベースを格納した記憶手段と、
前記文字列抽出手段による前記第2の代表見出しの抽出結果を基に、該第2の代表見出しを有する前記単位表構造の範囲を抽出し、該抽出した範囲内で認識されている前記第1の代表見出し、及び該単位表構造でデータとして認識される文字列に着目して、該データに対応する第1の代表見出しを追加する見出し追加手段と、
を更に具備することを特徴とする請求項6記載の帳票認識装置。 - 前記文字列認識手段の認識結果を用いて、前記文字列が含まれる領域であるセルを生成するセル生成手段、を具備し、
前記位置特定手段は、前記セル生成手段が生成したセル単位で前記位置の特定を行う、
ことを特徴とする請求項6記載の帳票認識装置。 - 前記文字列が含まれる領域であるセルを生成するセル生成手段と、
前記セル生成手段が生成したセルのなかで、前記帳票上にデータとして記入される文字列用であり、且つ同じ方向上に連続する複数のセルを対象に補正を行うセル補正手段と、
を更に具備することを特徴とする請求項6記載の帳票認識装置。 - 帳票上に任意の表構造で存在する文字列の認識を行う帳票認識装置において、
前記帳票の電子化された帳票画像を取得する画像取得手段と、
前記帳票上に1つ以上の関連するデータを記入する単位となる表構造である単位表構造毎に、該単位表構造で出現する可能性のある見出し文言が階層構造で定義されているデータベースを格納した記憶手段と、
前記画像取得手段が取得した前記帳票画像上に存在する文字列を認識する文字列認識手段と、
前記記憶手段に格納されたデータベースを参照して、前記文字列認識手段が認識した文字列のなかから予め定めた文字列である見出し文言を抽出する文字列抽出手段と、
前記文字列抽出手段による抽出結果を基に、前記帳票画像上に存在する前記単位表構造の範囲を抽出し、該抽出した範囲内で認識されている前記見出し文言、及び該単位表構造でデータとして認識される文字列のうちの少なくとも一方に着目して、該データに対応する見出し文言を追加する見出し追加手段と、
前記見出し追加手段が追加した見出し文言を含め、該見出し文言と該見出し文言以外に前記文字列認識手段が認識している文字列との間の対応関係を特定する対応関係特定手段と、
を具備することを特徴とする帳票認識装置。 - 前記階層構造は、1つ以上の見出し文言が定義される第1の層、該第1の層で定義された見出し文言を代表し、他の見出し文言と置換可能な見出し文言である第1の代表見出し
が定義された第2の層、及び前記表構造で該第1の代表見出しの上位に位置する見出し文言である第2の代表見出しが定義される第3の層を含み、
前記見出し追加手段は、前記文字列抽出手段による前記第2の代表見出しの抽出結果を基に、該第2の代表見出しを有する前記単位表構造の範囲を抽出し、該抽出した範囲内で認識されている前記第1の代表見出し、及び該単位表構造でデータとして認識される文字列のうちの少なくとも一方に着目して、該データに対応する第1の代表見出しを追加する、
ことを特徴とする請求項16記載の帳票認識装置。 - 帳票上に任意の表構造で存在する文字列の認識を行う帳票認識装置において、
前記帳票の電子化された帳票画像を取得する画像取得手段と、
前記画像取得手段が取得した前記帳票画像上に存在する文字列を認識する文字列認識手段と、
前記文字列認識手段が認識した文字列のなかから予め定めた文字列である見出し文言を抽出する文字列抽出手段と、
前記文字列抽出手段が抽出した見出し文言、及び前記見出し文言の前記帳票画像上の配置に基づいて、該帳票画像上に存在する表構造を判定する表構造判定手段と、
前記文字列抽出手段による抽出結果を基に、前記文字列認識手段が認識していない見出し文言が存在する前記帳票画像上の位置を特定する位置特定手段と、
前記位置特定手段が特定した位置に存在すべき見出し文言を生成する文言生成手段と、
前記文字列抽出手段による抽出結果を基に、前記帳票画像上に存在する前記単位表構造の範囲を抽出し、該抽出した範囲内で認識されている前記見出し文言、及び該単位表構造でデータとして認識される文字列のうちの少なくとも一方に着目して、該データに対応する見出し文言を追加する見出し追加手段と、
前記表構造判定手段による前記表構造の判定結果を用いて、前記文言生成手段が生成した見出し文言、及び前記見出し追加手段が追加した見出し文言を含め、該見出し文言と該見出し文言以外に前記文字列認識手段が認識している文字列との間の対応関係を特定する対応関係特定手段と、
を具備することを特徴とする帳票認識装置。 - 前記対応関係特定手段は、前記見出し文言別に定義された、該見出し文言の情報として存在する文字列に付される可能性のあるシンボルに関する付帯情報を参照して、前記対応関係を特定する、
ことを特徴とする請求項1、6、16、又は18記載の帳票認識装置。 - 帳票上に任意の表構造で存在する文字列の認識を行うための方法であって、
前記帳票の電子化された帳票画像を取得する画像取得工程と、
前記画像取得工程で取得した前記帳票画像上に存在する文字列を認識する文字列認識工程と、
前記文字列認識工程で認識した文字列のなかから予め定めた文字列である見出し文言を抽出する文字列抽出工程と、
前記文字列抽出工程で抽出した見出し文言、及び前記見出し文言の前記帳票画像上の配置に基づいて、該帳票画像上に存在する表構造を判定する表構造判定工程と、
前記表構造判定工程での前記表構造の判定結果を用いて、前記見出し文言と該見出し文言以外に前記文字列認識工程で認識している文字列との間の対応関係を特定する対応関係特定工程と、
を有することを特徴とする帳票認識方法。 - 帳票上に任意の表構造で存在する文字列の認識を行うための方法であって、
前記帳票の電子化された帳票画像を取得する画像取得工程と、
前記画像取得工程で取得した前記帳票画像上に存在する文字列を認識する文字列認識工程と、
前記文字列認識工程で認識した文字列のなかから予め定めた文字列である見出し文言を抽出する文字列抽出工程と、
前記文字列抽出工程で抽出した結果を基に、前記文字列認識工程で認識していない見出し文言が存在する前記帳票画像上の位置を特定する位置特定工程と、
前記位置特定工程で特定した位置に存在すべき見出し文言を生成する文言生成工程と、
前記文言生成工程で生成した見出し文言を含め、該見出し文言と該見出し文言以外に前記文字列認識工程で認識している文字列との間の対応関係を特定する対応関係特定工程と、
を有することを特徴とする帳票認識方法。 - 帳票上に任意の表構造で存在する文字列の認識を行うための方法であって、
前記帳票の電子化された帳票画像を取得する画像取得工程と、
前記画像取得工程で取得した前記帳票画像上に存在する文字列を認識する文字列認識工程と、
前記帳票上に1つ以上の関連するデータを記入する単位となる表構造である単位表構造毎に、該単位表構造で出現する可能性のある見出し文言が階層構造で定義されているデータベースを参照して、前記文字列認識工程で認識した文字列のなかから予め定めた文字列である見出し文言を抽出する文字列抽出工程と、
前記文字列抽出工程での抽出結果を基に、前記帳票画像上に存在する前記単位表構造の範囲を抽出し、該抽出した範囲内で認識されている前記見出し文言、及び該単位表構造でデータとして認識される文字列のうちの少なくとも一方に着目して、該データに対応する見出し文言を追加する見出し追加工程と、
前記見出し追加工程で追加した見出し文言を含め、該見出し文言と該見出し文言以外に前記文字列認識工程で認識している文字列との間の対応関係を特定する対応関係特定工程と、
を有することを特徴とする帳票認識方法。 - 請求項1、6、16、または18記載の帳票認識装置による前記帳票上の文字列の認識に用いることが可能なデータベースの作成を支援する装置であって、
前記見出し文言を入力する文言入力手段と、
前記文言入力手段が入力した見出し文言の間の階層構造を生成する階層構造生成手段と、
を具備することを特徴とするデータベース作成支援装置。 - 前記文言入力手段は、前記帳票上に1つ以上の関連するデータを記入する単位となる表構造である単位表構造毎に、該単位表構造で出現する可能性のある2つ以上の見出し文言、及び該2つ以上の見出し文言間の階層関係を入力単位として入力し、
前記階層構造生成手段は、前記入力単位間で共通する見出し文言、及び各入力単位で示されている階層関係を基に、3層以上の階層構造を生成する、
ことを特徴とする請求項23記載のデータベース作成支援装置。 - 前記階層構造生成手段が生成した見出し文言の間の階層構造に対応する前記単位表構造のデザイン画像を生成して出力する画像生成手段、
を更に具備することを特徴とする請求項23記載のデータベース作成支援装置。 - 請求項1、6、16、または18記載の帳票認識装置による前記帳票上の文字列の認識に用いることが可能なデータベースの作成をコンピュータにより支援する方法であって、
前記見出し文言を入力する文言入力工程と、
前記文言入力手工程で入力された見出し文言の間の階層構造を生成する階層構造生成工程と、
を有することを特徴とするデータベース作成支援方法。 - 帳票上に任意の表構造で存在する文字列の認識を行う帳票認識装置として用いることが可能なコンピュータに、
前記帳票の電子化された帳票画像を取得する画像取得機能と、
前記画像取得機能により取得した前記帳票画像上に存在する文字列を認識する文字列認識機能と、
前記文字列認識機能により認識した文字列のなかから予め定めた文字列である見出し文言を抽出する文字列抽出機能と、
前記文字列抽出機能により抽出した見出し文言、及び前記見出し文言の前記帳票画像上の配置に基づいて、該帳票画像上に存在する表構造を判定する表構造判定機能と、
前記表構造判定機能による前記表構造の判定結果を用いて、前記見出し文言と該見出し文言以外に前記文字列認識機能により認識している文字列との間の対応関係を特定する対応関係特定機能と、
を実現させるためのプログラム。 - 帳票上に任意の表構造で存在する文字列の認識を行う帳票認識装置として用いることが可能なコンピュータに、
前記帳票の電子化された帳票画像を取得する画像取得機能と、
前記画像取得機能により取得した前記帳票画像上に存在する文字列を認識する文字列認識機能と、
前記文字列認識機能により認識した文字列のなかから予め定めた文字列である見出し文言を抽出する文字列抽出機能と、
前記文字列抽出機能により抽出した結果を基に、前記文字列認識機能で認識していない見出し文言が存在する前記帳票画像上の位置を特定する位置特定機能と、
前記位置特定機能により特定した位置に存在すべき見出し文言を生成する文言生成機能と、
前記文言生成機能により生成した見出し文言を含め、該見出し文言と該見出し文言以外に前記文字列認識機能により認識している文字列との間の対応関係を特定する対応関係特定機能と、
を実現させるためのプログラム。 - 帳票上に任意の表構造で存在する文字列の認識を行う帳票認識装置として用いることが可能なコンピュータに、
前記帳票の電子化された帳票画像を取得する画像取得機能と、
前記画像取得機能により取得した前記帳票画像上に存在する文字列を認識する文字列認識機能と、
前記帳票上に1つ以上の関連するデータを記入する単位となる表構造である単位表構造毎に、該単位表構造で出現する可能性のある見出し文言が階層構造で定義されているデータベースを参照して、前記文字列認識機能により認識した文字列のなかから予め定めた文字列である見出し文言を抽出する文字列抽出機能と、
前記文字列抽出機能による抽出結果を基に、前記帳票画像上に存在する前記単位表構造の範囲を抽出し、該抽出した範囲内で認識されている前記見出し文言、及び該単位表構造でデータとして認識される文字列のうちの少なくとも一方に着目して、該データに対応する見出し文言を追加する見出し追加機能と、
前記見出し追加機能により追加した見出し文言を含め、該見出し文言と該見出し文言以外に前記文字列認識手段により認識している文字列との間の対応関係を特定する対応関係特定機能と、
を実現させるためのプログラム。 - 請求項1、6、16、または18記載の帳票認識装置による前記帳票上の文字列の認識に用いることが可能なデータベースの作成を支援するデータベース作成支援装置として用いることが可能なコンピュータに、
前記見出し文言を入力する文言入力機能と、
前記文言入力手機能で入力された見出し文言の間の階層構造を生成する階層構造生成機能と、
を実現させるためのプログラム。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008162110A JP4825243B2 (ja) | 2008-06-20 | 2008-06-20 | 帳票認識装置、方法、データベース作成装置、方法、及びプログラム |
KR1020090054110A KR101083557B1 (ko) | 2008-06-20 | 2009-06-17 | 장표 인식 장치, 방법, 데이터베이스 작성 장치, 방법, 및 기록 매체 |
CN200910149359.4A CN101685498B (zh) | 2008-06-20 | 2009-06-18 | 帐票识别装置、方法、数据库生成装置、方法 |
EP09163284.4A EP2136316A3 (en) | 2008-06-20 | 2009-06-19 | Form recognition apparatus, method, database generation apparatus, method, and storage medium |
US12/488,279 US8891871B2 (en) | 2008-06-20 | 2009-06-19 | Form recognition apparatus, method, database generation apparatus, method, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008162110A JP4825243B2 (ja) | 2008-06-20 | 2008-06-20 | 帳票認識装置、方法、データベース作成装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010003155A true JP2010003155A (ja) | 2010-01-07 |
JP4825243B2 JP4825243B2 (ja) | 2011-11-30 |
Family
ID=41090303
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008162110A Expired - Fee Related JP4825243B2 (ja) | 2008-06-20 | 2008-06-20 | 帳票認識装置、方法、データベース作成装置、方法、及びプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US8891871B2 (ja) |
EP (1) | EP2136316A3 (ja) |
JP (1) | JP4825243B2 (ja) |
KR (1) | KR101083557B1 (ja) |
CN (1) | CN101685498B (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013015909A (ja) * | 2011-06-30 | 2013-01-24 | Fujitsu Ltd | 表構造自動認識プログラム、表構造自動認識方法及び表構造自動認識装置 |
JP2013030040A (ja) * | 2011-07-29 | 2013-02-07 | Fujitsu Frontech Ltd | 情報処理プログラム、情報処理装置および文字認識方法 |
JP2013080348A (ja) * | 2011-10-03 | 2013-05-02 | Canon Inc | 画像処理装置、画像処理方法、およびプログラム |
JP2013257852A (ja) * | 2012-06-14 | 2013-12-26 | Ntt Data Corp | 文書変換装置、文書変換方法および文書変換プログラム |
WO2020044537A1 (ja) * | 2018-08-31 | 2020-03-05 | 株式会社Pfu | 画像照合装置、画像照合方法、及びプログラム |
WO2021186642A1 (ja) * | 2020-03-18 | 2021-09-23 | 株式会社Pfu | 画像処理装置、制御方法及び制御プログラム |
US11475688B2 (en) | 2019-09-06 | 2022-10-18 | Canon Kabushiki Kaisha | Information processing apparatus and information processing method for extracting information from document image |
US11521404B2 (en) | 2019-09-30 | 2022-12-06 | Fujifilm Business Innovation Corp. | Information processing apparatus and non-transitory computer readable medium for extracting field values from documents using document types and categories |
JP2023016031A (ja) * | 2021-07-20 | 2023-02-01 | ネイバー コーポレーション | テーブルに含まれる情報を認識する文字認識方法及び文字認識システム |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4825243B2 (ja) * | 2008-06-20 | 2011-11-30 | 富士通フロンテック株式会社 | 帳票認識装置、方法、データベース作成装置、方法、及びプログラム |
US9152617B2 (en) * | 2010-03-11 | 2015-10-06 | A2iA S.A. | System and method for processing objects |
JP5561856B2 (ja) * | 2010-05-24 | 2014-07-30 | 株式会社Pfu | 帳票作成装置、帳票作成プログラム、および帳票作成方法 |
JP2012043008A (ja) * | 2010-08-12 | 2012-03-01 | Oki Electric Ind Co Ltd | イメージ処理装置、及び、当該イメージ処理装置を実現するプログラム |
CN102750541B (zh) * | 2011-04-22 | 2015-07-08 | 北京文通科技有限公司 | 一种文档图像分类识别方法及装置 |
US9449031B2 (en) * | 2013-02-28 | 2016-09-20 | Ricoh Company, Ltd. | Sorting and filtering a table with image data and symbolic data in a single cell |
KR20160060499A (ko) * | 2014-11-20 | 2016-05-30 | 삼성전자주식회사 | 화상독취장치 및 그의 제어 방법 |
RU2679209C2 (ru) * | 2014-12-15 | 2019-02-06 | Общество с ограниченной ответственностью "Аби Продакшн" | Обработка электронных документов для распознавания инвойсов |
CN105069898B (zh) * | 2015-07-15 | 2018-03-30 | 广州敦和信息技术有限公司 | 一种发票字条自动定位的方法及装置 |
CN107025452A (zh) * | 2016-01-29 | 2017-08-08 | 富士通株式会社 | 图像识别方法和图像识别设备 |
CN106406682A (zh) * | 2016-09-29 | 2017-02-15 | 广州鹤互联网科技有限公司 | 一种签核文件选择生成方法及装置 |
CN106846008B (zh) * | 2016-12-27 | 2021-06-29 | 北京五八信息技术有限公司 | 营业执照验证方法及装置 |
US10171696B2 (en) * | 2017-01-09 | 2019-01-01 | Kabushiki Kaisha Toshiba | Image processing apparatus and image processing method for recognizing characters in character string regions and table regions on a medium |
CN107392195B (zh) * | 2017-07-25 | 2020-10-23 | 深圳市迪比科电子科技有限公司 | 一种智能书写系统 |
CN107808154B (zh) * | 2017-12-08 | 2021-03-30 | 上海慧银信息科技有限公司 | 提取收银票据信息的方法和装置 |
JP7247472B2 (ja) * | 2018-04-19 | 2023-03-29 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
CN110858196B (zh) * | 2018-08-21 | 2022-04-12 | 湖南共睹互联网科技有限责任公司 | 交易保障平台的数据库建立方法及装置 |
CN109815954A (zh) * | 2019-01-31 | 2019-05-28 | 科大讯飞股份有限公司 | 增值税发票图像的方向校正方法、装置、设备及存储介质 |
CN110633660B (zh) * | 2019-08-30 | 2022-05-31 | 盈盛智创科技(广州)有限公司 | 一种文档识别的方法、设备和存储介质 |
JP2021051364A (ja) * | 2019-09-20 | 2021-04-01 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
JP2021114211A (ja) * | 2020-01-21 | 2021-08-05 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
CN111563498B (zh) * | 2020-04-30 | 2024-01-19 | 广东小天才科技有限公司 | 一种题目收集的方法、装置、电子设备及存储介质 |
US11335110B2 (en) * | 2020-08-05 | 2022-05-17 | Verizon Patent And Licensing Inc. | Systems and methods for processing a table of information in a document |
CN114077830B (zh) * | 2020-08-17 | 2024-10-25 | 税友软件集团股份有限公司 | 一种基于位置的pdf表格文档的解析方法、装置及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6159568A (ja) * | 1984-08-31 | 1986-03-27 | Hitachi Ltd | 文書処理装置 |
JPH0689365A (ja) * | 1992-09-07 | 1994-03-29 | Toshiba Corp | 文書画像処理装置 |
JPH11161736A (ja) * | 1997-12-01 | 1999-06-18 | Fujitsu Ltd | 文字認識方法 |
JP2000113105A (ja) * | 1995-07-31 | 2000-04-21 | Fujitsu Ltd | 媒体処理方法及び媒体処理装置 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0388019A (ja) | 1989-08-31 | 1991-04-12 | Toshiba Corp | データ処理装置 |
DE69638207D1 (de) * | 1995-07-31 | 2010-08-05 | Fujitsu Ltd | Prozessor und Verarbeitungsverfahren für Dokumente |
US5737442A (en) * | 1995-10-20 | 1998-04-07 | Bcl Computers | Processor based method for extracting tables from printed documents |
JPH09274634A (ja) | 1996-04-03 | 1997-10-21 | Oki Electric Ind Co Ltd | 文字認識装置 |
JPH10116314A (ja) | 1996-10-09 | 1998-05-06 | Oki Electric Ind Co Ltd | 表処理方法及び表処理装置 |
JPH11110479A (ja) | 1997-10-02 | 1999-04-23 | Canon Inc | 文字処理方法及び装置及び記憶媒体 |
JP3912463B2 (ja) * | 1998-09-29 | 2007-05-09 | 富士ゼロックス株式会社 | 論理構造抽出装置及び論理構造抽出方法 |
US6412012B1 (en) * | 1998-12-23 | 2002-06-25 | Net Perceptions, Inc. | System, method, and article of manufacture for making a compatibility-aware recommendations to a user |
JP3465667B2 (ja) | 1999-02-22 | 2003-11-10 | 株式会社日立製作所 | 自動取引システム及び取引方法 |
JP2000251012A (ja) * | 1999-03-01 | 2000-09-14 | Hitachi Ltd | 帳票処理方法およびシステム |
JP2000259653A (ja) * | 1999-03-09 | 2000-09-22 | Mitsubishi Electric Corp | 音声認識装置及び音声認識方法 |
US6594641B1 (en) * | 1999-04-16 | 2003-07-15 | Reshare Corporation | Computer facilitated product selling system |
JP4450888B2 (ja) * | 1999-05-28 | 2010-04-14 | 富士通株式会社 | 帳票認識方法 |
US20030027635A1 (en) * | 2001-08-03 | 2003-02-06 | Walker Jay S. | Method and apparatus for generating directives for personnel |
US20030042319A1 (en) * | 2001-08-31 | 2003-03-06 | Xerox Corporation | Automatic and semi-automatic index generation for raster documents |
US20050055272A1 (en) * | 2003-09-10 | 2005-03-10 | Sears Brands Llc | Method and system for providing benefits to retail consumers |
US20050149414A1 (en) * | 2003-12-30 | 2005-07-07 | Kimberly-Clark Worldwide, Inc. | RFID system and method for managing out-of-stock items |
JP3923474B2 (ja) | 2004-01-23 | 2007-05-30 | 沖電気工業株式会社 | 文字読み取り装置 |
US20050288990A1 (en) * | 2004-06-24 | 2005-12-29 | International Business Machines Corporation | Computer-implemented method, system and program product for modeling a consumer decision process |
US20060036484A1 (en) * | 2004-08-13 | 2006-02-16 | Michael Voticky | Method of providing recyclable, immediately-redeemable award points |
JP2004334913A (ja) | 2004-08-19 | 2004-11-25 | Matsushita Electric Ind Co Ltd | 帳票認識装置及び帳票認識方法 |
JP2006134106A (ja) | 2004-11-05 | 2006-05-25 | Hammock:Kk | 帳票認識システム、帳票認識方法及びコンピュータプログラム |
JP4750802B2 (ja) * | 2006-01-13 | 2011-08-17 | 富士通株式会社 | 帳票処理プログラムおよび帳票処理装置 |
US20090110288A1 (en) * | 2007-10-29 | 2009-04-30 | Kabushiki Kaisha Toshiba | Document processing apparatus and document processing method |
JP4825243B2 (ja) * | 2008-06-20 | 2011-11-30 | 富士通フロンテック株式会社 | 帳票認識装置、方法、データベース作成装置、方法、及びプログラム |
-
2008
- 2008-06-20 JP JP2008162110A patent/JP4825243B2/ja not_active Expired - Fee Related
-
2009
- 2009-06-17 KR KR1020090054110A patent/KR101083557B1/ko not_active IP Right Cessation
- 2009-06-18 CN CN200910149359.4A patent/CN101685498B/zh not_active Expired - Fee Related
- 2009-06-19 EP EP09163284.4A patent/EP2136316A3/en not_active Withdrawn
- 2009-06-19 US US12/488,279 patent/US8891871B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6159568A (ja) * | 1984-08-31 | 1986-03-27 | Hitachi Ltd | 文書処理装置 |
JPH0689365A (ja) * | 1992-09-07 | 1994-03-29 | Toshiba Corp | 文書画像処理装置 |
JP2000113105A (ja) * | 1995-07-31 | 2000-04-21 | Fujitsu Ltd | 媒体処理方法及び媒体処理装置 |
JPH11161736A (ja) * | 1997-12-01 | 1999-06-18 | Fujitsu Ltd | 文字認識方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013015909A (ja) * | 2011-06-30 | 2013-01-24 | Fujitsu Ltd | 表構造自動認識プログラム、表構造自動認識方法及び表構造自動認識装置 |
JP2013030040A (ja) * | 2011-07-29 | 2013-02-07 | Fujitsu Frontech Ltd | 情報処理プログラム、情報処理装置および文字認識方法 |
JP2013080348A (ja) * | 2011-10-03 | 2013-05-02 | Canon Inc | 画像処理装置、画像処理方法、およびプログラム |
JP2013257852A (ja) * | 2012-06-14 | 2013-12-26 | Ntt Data Corp | 文書変換装置、文書変換方法および文書変換プログラム |
WO2020044537A1 (ja) * | 2018-08-31 | 2020-03-05 | 株式会社Pfu | 画像照合装置、画像照合方法、及びプログラム |
JPWO2020044537A1 (ja) * | 2018-08-31 | 2021-03-18 | 株式会社Pfu | 画像照合装置、画像照合方法、及びプログラム |
US11475688B2 (en) | 2019-09-06 | 2022-10-18 | Canon Kabushiki Kaisha | Information processing apparatus and information processing method for extracting information from document image |
US11521404B2 (en) | 2019-09-30 | 2022-12-06 | Fujifilm Business Innovation Corp. | Information processing apparatus and non-transitory computer readable medium for extracting field values from documents using document types and categories |
WO2021186642A1 (ja) * | 2020-03-18 | 2021-09-23 | 株式会社Pfu | 画像処理装置、制御方法及び制御プログラム |
JP2023016031A (ja) * | 2021-07-20 | 2023-02-01 | ネイバー コーポレーション | テーブルに含まれる情報を認識する文字認識方法及び文字認識システム |
JP7398526B2 (ja) | 2021-07-20 | 2023-12-14 | ネイバー コーポレーション | テーブルに含まれる情報を認識する文字認識方法及び文字認識システム |
Also Published As
Publication number | Publication date |
---|---|
KR101083557B1 (ko) | 2011-11-14 |
EP2136316A2 (en) | 2009-12-23 |
JP4825243B2 (ja) | 2011-11-30 |
EP2136316A3 (en) | 2013-10-23 |
CN101685498B (zh) | 2016-04-20 |
US20100008578A1 (en) | 2010-01-14 |
US8891871B2 (en) | 2014-11-18 |
CN101685498A (zh) | 2010-03-31 |
KR20090132521A (ko) | 2009-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4825243B2 (ja) | 帳票認識装置、方法、データベース作成装置、方法、及びプログラム | |
US20210365678A1 (en) | Apparatus and methods for extracting data from lineless table using delaunay triangulation and excess edge removal | |
JP4820382B2 (ja) | ノードリンクダイアグラムに構造認識を提供する方法 | |
JP5144940B2 (ja) | 目次抽出におけるロバスト性向上 | |
JP4616358B2 (ja) | 作業指示書作成装置,作業指示書作成方法および作業指示書作成プログラム | |
US20210366055A1 (en) | Systems and methods for generating accurate transaction data and manipulation | |
Esser et al. | Automatic indexing of scanned documents: a layout-based approach | |
JP2008269587A (ja) | ペンコンピュータシステム内にノードリンクダイアグラムを生成および編集する方法および装置 | |
JP4998220B2 (ja) | 帳票データ抽出プログラム、帳票データ抽出装置および帳票データ抽出方法 | |
KR102699224B1 (ko) | 테이블 인식 방법 및 시스템 | |
US20220335073A1 (en) | Fuzzy searching using word shapes for big data applications | |
Cui et al. | A mixed-initiative approach to reusing infographic charts | |
JP2020113129A (ja) | 文書評価装置、文書評価方法及びプログラム | |
US20240296691A1 (en) | Image reading systems, methods and storage medium for performing geometric extraction | |
CN112308946A (zh) | 题目生成方法、装置、电子设备及可读存储介质 | |
KR20180076594A (ko) | 객체 속성을 이용한 도면관리 방법 및 도면관리 시스템 | |
Garrido-Munoz et al. | A holistic approach for image-to-graph: application to optical music recognition | |
Yang et al. | A large-scale dataset for end-to-end table recognition in the wild | |
JP5790820B2 (ja) | 不整合検出装置、プログラム及び方法、修正支援装置、プログラム及び方法 | |
Ling et al. | Document domain randomization for deep learning document layout extraction | |
Bartoli et al. | Semisupervised wrapper choice and generation for print-oriented documents | |
JP2011070529A (ja) | 文書処理装置 | |
Gölzhäuser et al. | Approach to generate a simple semantic data model from 2D bridge plans using AI-based text recognition | |
Li et al. | Information Extraction for Semantic Enrichment of BIM for Bridges | |
JP6322291B2 (ja) | 文書処理装置および項目抽出方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100615 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100921 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101119 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101228 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110426 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110610 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110906 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110909 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4825243 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140916 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |