JP4998220B2 - 帳票データ抽出プログラム、帳票データ抽出装置および帳票データ抽出方法 - Google Patents

帳票データ抽出プログラム、帳票データ抽出装置および帳票データ抽出方法 Download PDF

Info

Publication number
JP4998220B2
JP4998220B2 JP2007292619A JP2007292619A JP4998220B2 JP 4998220 B2 JP4998220 B2 JP 4998220B2 JP 2007292619 A JP2007292619 A JP 2007292619A JP 2007292619 A JP2007292619 A JP 2007292619A JP 4998220 B2 JP4998220 B2 JP 4998220B2
Authority
JP
Japan
Prior art keywords
form data
logical
registered
data
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007292619A
Other languages
English (en)
Other versions
JP2009122723A (ja
Inventor
明洋 皆川
宏 田中
憲秋 小澤
浩明 武部
勇作 藤井
悦伸 堀田
克仁 藤本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2007292619A priority Critical patent/JP4998220B2/ja
Priority to US12/267,253 priority patent/US8418050B2/en
Priority to CN2008101741087A priority patent/CN101430761B/zh
Publication of JP2009122723A publication Critical patent/JP2009122723A/ja
Application granted granted Critical
Publication of JP4998220B2 publication Critical patent/JP4998220B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

この発明は、複数の帳票を予め記憶する登録帳票記憶部と、各種の帳票における論理要素と各論理要素の間の関係とを示した論理構造を記憶する共通論理構造記憶部とを備え、前記共通論理構造記憶部に記憶される論理構造に基づいて、入力された入力帳票の論理構造を抽出することをコンピュータに実行させる帳票データ抽出プログラム、帳票データ抽出装置および帳票データ抽出方法に関する。
従来より、紙帳票や電子化された帳票である活字の文書の画像をコンピュータが編集できる形式である文字コードなどに変換するOCRがある。このような従来のOCRは、手書きした帳票などの情報をコンピュータに入力する際に、当該情報をコンピュータに再入力する手間を省くなど、非常に有用な装置である。
ところが、従来のOCRでは、作成する人の癖などがある手書きまたはコンピュータにより作成された帳票などの情報を必ずしも正しく読み取れることができない。そこで、各種の情報を正確に読み取って文字コードなどを変換する様々な技術が開示されている。
例えば、特許文献1などでは、入力帳票から抽出した罫線や文字、色などの情報を用いて所定の登録帳票から類似する登録帳票を抽出し、抽出した登録帳票に定義された領域を用いて入力帳票から認識の対象となる認識情報を抽出するOCRなどのデータ入力装置が開示されている。
特開2000−285190号公報
しかしながら、上記した従来の技術では、入力帳票が一部(例:年度、色)でも変わると適当な登録帳票を抽出できなくなり、そのために入力帳票から認識情報を抽出できないという課題と、入力帳票が一部でも変わった場合、利用者はその都度新たな入力帳票を登録する必要があり、その登録作業は面倒なものであり利用者の負担が大きいという課題があった。加えて、登録する内容と帳票から抽出するデータとは無関係であったため、帳票の登録作業とデータ領域の指定とを個別に行う必要があった。
そこで、この発明は、上述した従来技術の課題を解決するためになされたものであり、登録してある帳票でなくても容易にデータを抽出することが可能であることと、新たな登録帳票を容易に作成することが可能である帳票データ抽出プログラム、帳票データ抽出装置および帳票データ抽出方法を提供することを目的とする。
上述した課題を解決し、目的を達成するため、本装置に実行されるプログラムは、複数の帳票を予め記憶する登録帳票記憶部と、各種の帳票における論理要素と各論理要素の間の関係とを示した論理構造を記憶する共通論理構造記憶部とを備え、前記共通論理構造記憶部に記憶される論理構造に基づいて、入力された入力帳票の論理構造を抽出することをコンピュータに実行させる帳票データ抽出プログラムであって、前記登録帳票記憶部に記憶される各種の帳票に対応付けて、前記共通論理構造記憶部に記憶される論理構造に基づいて取得された当該登録帳票上の論理要素と論理要素の位置情報と各論理要素間の関係とを示した登録帳票データを記憶する登録帳票データ記憶手段と、前記入力帳票に対して、前記共通論理構造記憶部に記憶される論理構造に基づいて、当該入力帳票上の論理要素と論理要素の位置以上と各論理要素間の関係とを示した入力帳票データを抽出する入力帳票データ抽出手順と、前記入力帳票データ抽出手順により抽出された入力帳票データに基づいて、当該入力帳票データに類似する登録帳票データを前記登録帳票データ記憶手段から特定する帳票特定手順と、前記帳票特定手順により特定された入力帳票データに類似する登録帳票データの論理要素の位置情報と各論理要素間の関係とに基づいて、前記入力帳票から入力帳票データを再抽出し、再抽出できない論理要素については前記入力帳票データから抽出して、再抽出した入力帳票データを新たな登録帳票データとして生成するデータ生成手順と、をコンピュータに実行させる。
本発明によれば、登録してある帳票でなくても容易にデータを抽出することが可能であることと、新たな登録帳票を容易に作成することが可能である。
また、入力帳票が登録帳票に該当するものであればその登録帳票の情報を援用し、見出しやデータの位置を補正するが、登録帳票に含まれない場合でも、論理構造認識結果をデータ抽出結果として出力が可能となっている。加えて、抽出に必要な見出しやデータの情報を登録帳票の情報とするため、抽出に不必要な罫線や記号の情報を持っていない帳票に対しても利用することが可能である。
以下に添付図面を参照して、この発明に係る帳票データ抽出プログラムの実施例を詳細に説明する。なお、以下では、本実施例で用いる主要な用語、本実施例に係る帳票データ抽出装置の概要および特徴、帳票データ抽出装置の構成および処理の流れを順に説明し、最後に本実施例に対する種々の変形例を説明する。
[帳票データ抽出装置の概要および特徴]
まず最初に、実施例1に係る帳票データ抽出の概要および特徴を説明する。実施例1に係る帳票データ抽出装置は、複数の帳票(例えば、決算帳票、会計帳票、人事帳票など)を予め記憶する登録帳票記憶DBと、各種の帳票における論理要素と論理要素の位置情報と各論理要素の間の関係と示した論理構造を記憶する共通論理構造DBと、活字の文書の画像をコンピュータが編集できる形式(文字コードの列)に変換するOCR(Optical Character Recognition)とを備える。
このような構成において、実施例1に係る帳票データ抽出装置は、共通論理構造DBに記憶される論理構造に基づいて、入力された入力帳票の論理構造を抽出することを概要とするものであり、特に、登録してある帳票でなくても容易にデータを抽出することが可能であることと、新たな登録帳票を容易に作成することが可能である点に主たる特徴がある。
つまり、実施例1に係る帳票データ抽出装置は、共通論理構造DBに記憶される論理構造を有しない入力帳票が入力された場合でも、既に存在する論理構造および論理構造に基づいて得られた登録帳票上の論理要素(例えば、見出しなど)と論理要素の位置情報(例えば、見出しの重心や座標など)と各論理要素間の関係(例えば、見出し同士の距離など)を用いて、入力帳票から論理要素と論理構造とを抽出し、抽出した論理構造を新たな登録帳票や論理構造とすることができる結果、共通論理構造DBに記憶される論理構造を有しない入力帳票から論理要素などを抽出するために登録帳票を人為的に作成して登録する必要がなく、既に登録してある帳票でなくても容易にデータを抽出することが可能であることと、新たな登録帳票を容易に作成することが可能である。
[帳票データ抽出装置の構成]
次に、図1を用いて、帳票データ抽出装置の構成を説明する。図1は、実施例1に係る帳票データ抽出装置の構成を示すブロック図である。図1に示すように、この帳票データ抽出装置10は、入力受付部11と、表示部12と、記憶部20と、制御部30とから構成される。
入力受付部11は、各種の帳票を受け付ける。具体的に例を挙げると、入力受付部11は、図2に示すような、紙媒体の帳票画像を受け付けてOCRで読み込んだり、ファイル形式の帳票画像データをネットワークや各種記憶媒体など受け付けたりして、その受け付けたデータを後述する入出力制御I/F部31に出力する。なお、図2は、入力帳票の例を示す図である。
表示部12は、モニタ(若しくはディスプレイ、タッチパネル)やスピーカを備えて構成され、各種の情報を出力する。例えば、表示部12は、後述する制御部30などにより認識された入力帳票を入出力制御I/F部31を介して表示出力する。
記憶部20は、制御部30による各種処理に必要なデータおよびプログラムを格納するとともに、特に本発明に密接に関連するものとしては、登録帳票DB21と、共通論理構造DB22と、登録帳票データDB23とを備える。
登録帳票DB21は、複数の帳票を予め記憶する。具体的に例を挙げれば、登録帳票DB21は、以前に認識または人為的に登録された決算帳票、会計帳票、人事帳票などのように種類に異なる複数の帳票を登録帳票として記憶する。例えば、登録帳票DB21は、図3に示すような帳票を登録帳票として記憶する。なお、図3は、登録帳票データDB21に記憶される登録帳票の例および入力帳票に対する論理構造認識結果を示す図である。図3の登録帳票は図2の入力帳票とはほぼ同じものであるが、一部異なっている部分があっても構わない。
共通論理構造DB22は、各種の帳票における論理要素と各論理要素の間の関係とを示した論理構造を記憶する。具体的に例を挙げれば、論理構造DB22は、見出しやデータを表す論理要素と、大見出しと小見出しの関係や見出しとデータの関係といった論理要素の関係(「書類作成日」のデータの親見出し(上位見出し)は「書類作成日」の見出しとする。ここで、上位見出しとは、「作成日データ」に対する「作成日見出し」や、小見出し「姓」に対する大見出し「本人氏名」といった意味関係の上での上下関係を意味するものであり、帳票画像上の上下関係を示すものではない。)とそれぞれの論理要素が帳票上で表現される文字列自身や文字列の属性などが記述されている論理構造を記憶する。
図4に示される共通論理構造DB22に記憶される論理構造は、帳票上の論理要素を区別するための一意に割り当てられた「論理要素番号」と、各論理要素の名称を示す「論理要素名称」と、各論理要素よりも意味関係の点で上位に位置する論理要素を示す「上位見出し」、各論理要素名称に含まれる文字列を区別するための「文字列番号」、各論理要素名称に含まれる文字列を示す「文字列」、各文字列とその文字列の上位の論理要素(文字列)との関係を示す「上位との関係」から構成される。なお、「書類作成日」の見出しには「作成日」、「日付」、「年月日」などとして帳票中に現れるということが記されており、「書類作成日」のデータとしては「*年*月*日」や「*/*/*」というように正規表現を用いて記述の可能性が格納されているものとする。この論理構造は、それぞれの帳票の種類に対して一つ作成されている。例えば、共通論理構造DB22は、「論理要素番号、論理要素名称、上位見出し、文字列番号、文字列、上位との関係」として「1、タイトル、なし、1、見積書、なし」、「2、送付先データ、なし、1、株式会社、なし」や「−、−、−、2、(株)、なし」などを記憶する。なお、図4は、共通論理構造DB22に記憶される論理構造の例を示す図である。
登録帳票データDB23は、登録帳票DB21に記憶される各種の帳票に対応付けて、共通論理構造DB22に記憶される論理構造に基づいて取得された当該登録帳票上の論理要素と論理要素の位置情報と各論理要素間の関係とを示した登録帳票データを記憶する。具体的に例を挙げれば、登録帳票データDB23は、後述する論理構造認識部32により抽出されて格納された図5に示すような登録帳票データを記憶する。また、登録帳票データDB23は、作成された時期による当該データの新しさなどを示す評価値などを記憶してもよい。
図5に示される登録帳票データDB23に記憶される登録帳票データは、抽出された論理要素を一意に区別する論理要素番号「No」、抽出された論理要素を示す論理要素名称「論理要素」が記憶され、これらは該当する共通論理構造の対応する論理要素のそれが付与されている。加えて、登録帳票データは、それぞれの登録帳票から抽出された論理要素の文字列を示す「文字列」、抽出された論理要素(文字列)の位置する登録帳票上の座標を示す「座標」、抽出された文字列の重心を示す「重心」を記憶する。例えば、登録帳票データDB23は、「No、論理要素、文字列、座標、重心」として「1、タイトル、見積書、(100,10−160,30)、(130,20)」などと記憶する。ここで、座標とは、帳票上の左端を「0,0」、「x」が右方向、「y」が下方向として「x,y−x,y」の矩形として表現される。なお、図5は、登録帳票データDB23に記憶される登録帳票データの例を示す図である。
制御部30は、OS(Operating System)などの制御プログラム、各種の処理手順などを規定したプログラムおよび所要データを格納するための内部メモリを有するとともに、特に本発明に密接に関連するものとしては、入出力制御I/F部31と、論理構造認識部32と、論理構造照合部33と、最適登録帳票選択部34と、登録帳票生成部35とを備え、これらによって種々の処理を実行する。なお、制御部30における各機能部の詳細な処理については、図7以降で具体的に説明するので、ここでは各機能部の概要について説明する。
入出力制御I/F部31は、表示部12に各種情報を表示したり、表示部12を介してユーザの操作を受け付けたりする。具体的には、入出力制御I/F部31は、入力受付部11により受け付けられた帳票を帳票画像として論理構造認識部32に出力したり、登録帳票生成部35により認識された帳票の認識結果を新たな登録帳票として表示部12に表示出力したりする。
論理構造認識部32は、登録帳票DB21に記憶される各種の帳票に対応付けて、共通論理構造DB22に記憶される論理構造に基づいて取得された当該登録帳票上の論理要素と論理要素の位置情報と各論理要素間の関係とを示した登録帳票データを抽出して登録帳票データDB23に格納し、また、入力受付部11を介して受け付けられた入力帳票に対して、共通論理構造DB22に記憶される論理構造に基づいて、当該入力帳票上の論理要素と論理要素の位置以上と各論理要素間の関係とを示した入力帳票データを抽出して、後述する論理構造照合部33に出力したりする。
例えば、図3に示すような登録帳票DB21に記憶される登録帳票に対して、論理構造認識部32は、共通論理構造DB22に記憶される論理構造「論理要素番号、論理要素名称、上位見出し、文字列番号、文字列、上位との関係」に基づいて、図5に示すような、当該登録帳票上の論理要素と論理要素の位置情報と各論理要素間の関係とを示した登録帳票データを抽出して登録帳票データDB23に格納したりする。なお、この際に、作成した日時から評価値などを対応付けてもよい。同様に、図2に示すような入力帳票が入力受付部11により受け付けられた場合に、論理構造認識部32は、共通論理構造DB22に記憶される論理構造「論理要素番号、論理要素名称、上位見出し、文字列番号、文字列、上位との関係」に基づいて、図6に示すような、当該入力帳票上の論理要素と論理要素の位置情報と各論理要素間の関係とを示した入力帳票データを抽出して、後述する論理構造照合部33に出力したりする。なお、図6は、入力帳票から抽出された正しい論理構造と認識された論理構造との例を示す図である。抽出すべき情報と、登録帳票として格納される情報とが同じ内容であることから、抽出すべき内容を利用して帳票を選択し、データ領域を補正すると同時に、登録帳票を新たに作成することが容易に行える。ここでは、OCRによる文字誤りまたは論理構造認識の誤りなどで、本来抽出すべき論理要素「作成日」の見出しとデータとが、帳票上の別の日付を抽出したとする。
論理構造照合部33は、論理構造認識部32により抽出された入力帳票データと、登録帳票データDB23に記憶される全ての登録帳票データとを比較する。具体的に例を挙げると、登録帳票データDB23に記憶される全ての登録帳票データ(図5参照)と、論理構造認識部32により抽出された入力帳票データ(図6参照)とを比較した結果を最適登録帳票選択部34に出力する。
具体的には、論理構造照合部33は、M枚の登録帳票が存在することを仮定し、論理要素がN個あることを仮定した場合、論理要素の「i」から見た「j」の位置を(x_ij,y_ij)としたときに、入力帳票データの位置(x_ij(in),y_ij(in))と登録帳票データm(<M)の位置(x_ij(m),y_ij(m))とを比較して一定の閾値以内に存在する場合に対して図の行列ノード「i」と「j」との間を接続するグラフ処理を与える。グラフの頂点に登録帳票の論理要素を順に配置し、入力帳票と同じ位置関係にある二つの論理要素を線で結ぶ。二つの論理要素の関係が同じであるかどうかは、例えば、距離の二乗和「J=(x_ij(in)−x_ij(m))の2乗+(y_ij(in)-y_ij(m))の2乗」を求めて閾値処理することで、閾値以下となるものを二つ論理要素が同じ位置関係にあるものとする。この処理を各登録帳票に対して行うことで、登録帳票と入力帳票との類似度がグラフ上の線の量で表現される。そして、論理構造照合部33は、このようにして得られたグラフがすべて結ばれる最大の部分グラフ(クリーク)を抽出し、その頂点となる論理要素数を評価値として求めることで、入力帳票データと登録帳票データmとの対応する論理要素の数Cmを求める。
上記の数値は、例えばスキャナ入力で帳票画像を収集する場合には、帳票の大きさと画像のサイズとを決定するDPI(dot per inch)の値でそれぞれの座標値を割り、規格化して使用することで、同じ帳票を画像のサイズに依存することなく同じ大きさとして扱うことができる。
最適登録帳票選択部34は、論理構造照合部33の照合結果により、論理構造認識部32により抽出された入力帳票データに基づいて、当該入力帳票データに類似する登録帳票データを登録帳票データDB23から特定する。具体的に例を挙げると、最適登録帳票選択部34は、登録帳票データすべてに対して論理構造照合部33を実行して得られた、評価値「Cm」のなかでの最大値をもつ登録帳票データ「m」を登録帳票データDB23から取得して登録帳票生成部35に出力する。また、ここでは、使用する帳票の時期に応じて「Cm」を重み付けした量として、登録帳票データ「m」を照合した最終時刻のタイムスタンプ「Tm」を利用し、「Dm=Cm/(T−Tm)」とした「Dm」を評価値として用いてもよい。ここで「T」は現在時刻を表す。
登録帳票生成部35は、最適登録帳票選択部34により特定(選択)された入力帳票データに類似する登録帳票データの論理要素の位置情報と各論理要素間の関係とに基づいて、入力帳票から入力帳票データを再抽出し、再抽出できない論理要素については入力帳票データから抽出して、再抽出した入力帳票データを新たな登録帳票データとして生成する。具体的に例を挙げると、登録帳票生成部35は、最適登録帳票選択部34により特定(選択)された最大値「Cm」をもつ登録帳票データ「m」の論理要素の位置情報と各論理要素間の関係とに基づいて、入力帳票から入力帳票データを再抽出し、再抽出できない論理要素については入力帳票データから抽出して、抽出した入力帳票の論理構造と領域のデータを新たな登録帳票データとして生成して、登録帳票データDB23に格納する。
[帳票データ抽出装置による処理]
次に、図7〜図18を用いて、帳票データ抽出装置による処理を説明する。まず、図7を用いて、帳票データ抽出装置における全体的な処理の流れを説明する。図7は、実施例1に係る帳票データ抽出装置における全体的な処理の流れを示すフローチャートである。
(全体的な処理の流れ)
図7に示すように、入力受付部11により入力帳票が受け付けられると(ステップS101肯定)、帳票データ抽出装置10は、受け付けられた入力帳票の種類を判定し、共通論理構造DB22に記憶される判定した種類の論理構造に従って、入力帳票の論理構造である入力帳票データを抽出する論理構造認識処理を行う(ステップS102)。なお、登録帳票の論理構造認識処理は、共通論理構造DB22に記憶される論理構造に従って、予め実施されて登録帳票データDB23に格納されていてもよく、入力受付部11により入力帳票が受け付けられるタイミングで実施されて登録帳票データDB23に格納されてもよい。
続いて、帳票データ抽出装置10は、抽出された入力帳票データと、登録帳票データDB23に記憶される全ての登録帳票データとを比較する論理要素照合処理を実施し(ステップS103)、論理要素照合処理結果を用いて、当該入力帳票データに類似する登録帳票データを登録帳票データDB23から特定する最適登録帳票選択処理を実施する(ステップS104)。
その後、帳票データ抽出装置10は、最適登録帳票選択部34により特定(選択)された入力帳票データに類似する登録帳票データの論理要素の位置情報と各論理要素間の関係とに基づいて、入力帳票から入力帳票データを再抽出し、再抽出できない論理要素については入力帳票データから抽出して、再抽出した入力帳票データを新たな登録帳票データとして生成する登録帳票生成処理を実施する(ステップS105)。
(論理構造認識処理の流れ)
次に、図8を用いて、論理構造認識処理を説明する。図8は、実施例1に係る帳票データ抽出装置における論理構造認識処理の流れを示すフローチャートである。
図8に示すように、帳票データ抽出装置10の論理構造認識部32は、共通論理構造DB22から論理構造を取得し、入力帳票の帳票画像に対して文字認識や表認識を行った後(ステップS201)、入力帳票中の文字列に対して取得した論理構造に記述された各論理要素を対応付けて論理構造照合部33に出力する(ステップS202)。
文字抽出や論理構造認識の一般的な方法として、論理構造認識部32は、入力帳票上において、各論理要素の文字列候補の集合を単語抽出などによって得たのち、共通論理構造DB22に記憶される論理構造(論理要素の関係やレイアウト上の関係)を用いて、各論理要素に単語抽出によって得られた単語候補を割り当てる。その後に、論理構造認識部32は、論理構造認識を実行することによって、それぞれの論理要素に対応する入力帳票画像上での文字列が決定され、論理要素と帳票上の該当する文字列および文字列の位置座標を得ることができる。
(論理要素照合処理および最適登録帳票選択処理の流れ)
次に、図9〜図12を用いて、論理要素照合処理および最適登録帳票選択処理を説明する。図9は、実施例1に係る帳票データ抽出装置における論理要素照合処理の流れを示すフローチャートである。
図9に示すように、論理構造照合部33は、論理構造認識部32により抽出された入力帳票データを用いて、グラフ生成処理を実施して、入力帳票データの論理要素の関係を抽出する(ステップS301)。
具体的には、論理構造照合部33は、図10に示すように、共通論理構造DB22に記述された論理要素に対して番号付けを行うとともに、それらをノードとして置き、次に、二つの論理要素「i、j」の関係が入力帳票データと登録帳票「m」の登録帳票データとで閾値以下のときにノード「i、j」間を結ぶグラフ生成を行う。なお、図10は、算出されるグラフの例を示す図である。
そして、論理構造照合部33は、作成したグラフから同じ位置関係にある論理要素を接続するクリーク処理を実施し(ステップS302)、最適登録帳票選択部34は、作成したクリークから論理要素が最も多く接続されている最大クリークを選択する(ステップS303)。なお、最大クリーク抽出に関しては、文献が挙げられる。
具体的には、論理構造照合部33は、作成したグラフから同じ位置関係にある論理要素を接続するクリーク処理を実施すると、図11に示すように、入力画像と一つの登録帳票との組み合わせに対して3つのノードを持つ完全部分グラフと2つのノードを持つ完全部分グラフとの2つの完全部分グラフから構成されるクリーク結果を取得する。ここで、完全部分グラフは「同じ位置関係に存在する論理要素の数」を表していることから、この最大値がもっとも二枚の帳票が類似している論理要素の集合であることを示す。一枚の登録帳票に対して複数の完全部分グラフが得られるが、この場合にはそれらの中で最大の大きさを持つ完全部分グラフ(最大クリーク)である3をこの登録帳票に対する類似度とする。上記の処理をすべての登録帳票に対しておこなう。最適登録帳票選択部34は、図12に示すように、3つのノードを持つ完全部分グラフをこの登録帳票データ「m」の入力帳票データに対する類似度「Cm=3」としたうえで、すべての登録帳票との類似度「Cm」に対して最大値を与えるmを抽出し、最適登録帳票選択部34に出力する。なお、図11は、作成されるクリークの例を示した図であり、図12は、最大クリークの選択例を示した図である。
(データ抽出処理の流れ)
次に、図13〜図18を用いて、データ抽出処理を説明する。図13は、実施例1に係る帳票データ抽出装置における最適登録帳票からのデータ抽出処理の流れを示すフローチャートである。
図13に示すように、登録帳票生成部35は、最適登録帳票選択部34により選択された類似度「Cm=3」の登録帳票データから、最大部分グラフを構成する論理要素に確定フラグを付与、つまり、類似度「Cm=3」を与えた完全部分グラフの頂点となる論理要素に対して、入力画像のそれを利用するものとして、決定要素に格納する(ステップS401)。
具体的に例を挙げると、登録帳票生成部35は、図14に示すように、最適登録帳票選択部34により選択された類似度「Cm=3」の登録帳票データのグラフ全体から「1.タイトル、2.送付先データ、5.送付元見出し」を決定要素に記述し、これらの論理要素には確定済のフラグを与える。つまり、引いた「1.タイトル、2.送付先データ、5.送付元見出し」については登録帳票データからデータ抽出ができており、この部分以外の「3.作成日見出し、4.作成日データ」についてデータ再抽出を行う必要がある。なお、図14は、データ再抽出項目の決定例を示す図であり、上記確定フラグが付与されていない論理要素を再抽出の項目とする。
続いて、登録帳票生成部35は、登録帳票データDB23に記憶される最大部分グラフの登録帳票データと入力帳票データとの論理要素の座標のズレ量を算出し(ステップS402)、そして、算出した座標のズレ量の平均を算出する(ステップS403)。その後、登録帳票生成部35は、登録帳票のデータ抽出領域に算出した平均ズレ量を加えた領域を、確定フラグの無い論理要素に対する入力帳票のデータ抽出領域として(ステップS404)、データ(文字種)の再抽出を行い、データ(文字種)に該当する文字列が存在する場合には(ステップS405肯定)、算出した抽出領域で確定フラグを付与して(ステップS406)、確定フラグが付与された論理要素を格納する(ステップS407)。
一方、データ(文字種)に該当する文字列が存在しない場合には(ステップS405否定)、初期状態での入力帳票の抽出領域に変更して(ステップS408)、確定フラグが付与された論理要素を格納する(ステップS407)。なお、ここで想定している座標のズレとは、紙に対してスキャンを行う場合に生じる左右のマージン、上下のマージンといったスキャンごとに生じるムラを相殺するために用いる。
具体的に例を挙げると、登録帳票生成部35は、登録帳票データDB23に記憶される完全部分グラフの登録帳票データ(図5参照)と入力帳票データ(図6参照)との論理要素の座標のズレを算出、つまり、図15に示した登録帳票上において「タイトル、送付先データ、送付先見出し」については、図16に示した入力帳票から抽出できているため、登録帳票上における「タイトル、送付先データ、送付先見出し」それぞれの座標と入力帳票上における「タイトル、送付先データ、送付先見出し」それぞれの座標との差分を算出することで、完全部分グラフを構成しなかったために再抽出を行う論理要素「作成日見出し、作成日データ」の入力帳票上における座標を求めることができる。図17に示す入力帳票に対する論理構造認識の結果、完全部分グラフを構成する「タイトル」、「送付先データ」、「送付元データ」の座標の登録帳票とのズレ量5が求められる。
そして、登録帳票生成部35は、登録帳票データにおける再抽出の論理要素「作成日見出し、作成日データ」の座標に算出したズレを加算し、入力帳票上において加算した領域から「作成日見出し、作成日データ」を抽出することで、図17に示した入力帳票を受け付けた際に論理認識した結果の「作成日見出し、納品日、(35,100−85,120)、(55,110)」と「作成日データ、2007年6月1日、(85,120−135,140)、(110,130)」とを、図18に示したように、登録帳票の座標にズレ量の5を足した「作成日データ、日付、(105,10−145,30)、(125,20)」と「作成日、2007年4月1日、(155,10−215,30)、(185,20)」とにそれぞれ置き換えた位置に対して文字認識を行い、必要な文字列が存在した場合にデータを作成することができる。この場合、対象となる領域に対して数字や特定の文字にのみ文字種を指定して認識することができるため、OCRによる文字認識の精度も向上する。なお、図15は、登録帳票の例を示す図であり、図16は、入力帳票の例を示す図であり、作成日見出しと作成日データとが、正しいものとは異なる文字列を論理要素として抽出してきた図を示している。また、図17は、入力帳票を受け付けた際に論理構造認識した結果の例を示す図であり、図18は、最適登録帳票の論理要素の座標を用いてデータを再抽出した例を示す図である。
[実施例1による効果]
このように、実施例1によれば、登録帳票DB21に記憶される各種の帳票に対応付けて、共通論理構造DB22に記憶される論理構造に基づいて取得された当該登録帳票上の論理要素と論理要素の位置情報と各論理要素間の関係とを示した登録帳票データを記憶し、入力帳票に対して、共通論理構造DB22に記憶される論理構造に基づいて、当該入力帳票上の論理要素と論理要素の位置以上と各論理要素間の関係とを示した入力帳票データを抽出し、抽出された入力帳票データに基づいて、当該入力帳票データに類似する登録帳票データを登録帳票データDB23から特定し、特定された入力帳票データに類似する登録帳票データの論理要素の位置情報と各論理要素間の関係とに基づいて、入力帳票から入力帳票データを再抽出し、再抽出できない論理要素については入力帳票データから抽出して、再抽出した入力帳票データを新たな登録帳票データとして生成するので、登録してある帳票でなくても容易にデータを抽出することが可能であることと、新たな登録帳票を容易に作成することが可能である。
また、実施例1によれば、入力帳票が登録帳票に該当するものであればその登録帳票の情報を援用し、見出しやデータの位置を補正するが、登録帳票に含まれない場合でも、論理構造認識結果をデータ抽出結果として出力が可能となっている。加えて、抽出に必要な見出しやデータの情報を登録帳票の情報とするため、抽出に不必要な罫線や記号の情報を持っていない帳票に対しても利用することが可能である。
また、実施例1によれば、登録帳票データの論理要素それぞれについて、当該論理要素が抽出された日時による重み付けを示す評価値を記憶し、抽出された入力帳票データと登録帳票データの論理要素の評価値とに基づいて、抽出された入力帳票データに類似する登録帳票データを登録帳票データDB23から特定するので、登録帳票の中で現在使用しない帳票も多数含まれるようになっても、各登録帳票で最後に識別した時刻を用いることで、現在使用している帳票の中から登録帳票を選択することが可能である。
また、実施例1によれば、抽出された入力帳票データにおける各論理要素の外接矩形の4頂点と、登録帳票データDB23に記憶される登録帳票データにおける各論理要素の外接矩形の4頂点とを比較することで、入力帳票データにおける各論理要素が登録帳票データにおける各論理要素のどれに該当するかを判断して、当該入力帳票データに類似する登録帳票データを登録帳票データDB23から特定するので、重心だけでは判読が困難な領域の高さや幅を評価することによって最適登録帳票データや二次帳票登録帳票データをより高精度に特定することが可能である。
ところで、本発明は、上記した実施例1のデータ抽出手法によって妥当なデータが抽出できない場合、例えば、指定した文字種と一致しない場合においては、入力帳票に対して完全に適合する登録帳票が存在しないことが考えられる。このような場合、部分的に類似した別の登録帳票を複数枚利用することで、データ抽出を行うことができる。
そこで、実施例2では、類似すると特定された登録帳票データから一部のデータが抽出できない場合、部分的に類似した別の帳票(二次登録帳票)をさらに利用することで、データ抽出を行う例について説明する。
(二次登録帳票選択処理の流れ)
まず、図19〜図23を用いて、二次登録帳票選択処理の流れについて説明する。図19は、実施例2に係る帳票データ抽出装置における二次登録帳票選択処理の流れを示すフローチャートである。
図19に示すように、帳票データ抽出装置10の論理構造照合部33は、登録帳票データDB23に記憶されている登録帳票データを順に参照するための、変数「m(=1)」を設定し(ステップS501)、変数「m(=1)」の登録帳票データが最適登録帳票として特定された帳票か否かを判定する(ステップS502)。
そして、変数「m(=1)」の登録帳票データが最適登録帳票として特定された帳票でない場合(ステップS502否定)、論理構造照合部33は、変数「m(=1)」の登録帳票データの最大部分グラフの抽出を行い(ステップS503)、最適登録帳票として特定された登録帳票データの最大部分グラフに対する変数「m(=1)」の登録帳票データの最大部分グラフの重複数を計算する(ステップS504)。
続いて、論理構造照合部33は、計算された重複数が現在記憶されている最大値よりも大きいか否かを判定し(ステップS505)、計算された重複数が現在記憶されている最大値よりも大きい場合に(ステップS505肯定)、当該重複数を持つ登録帳票データ「m」をメモリなどに記憶し(ステップS506)、「m」を「1」増加させて(ステップS507)、「m」が登録帳票データDB23に記憶されている登録帳票データの登録数「M」よりも小さい場合(ステップS508肯定)、上記したステップS502〜ステップS508の処理を繰り返す。
一方、変数「m(=1)」の登録帳票データが最適登録帳票として特定された帳票である場合(ステップS502肯定)、または、計算された重複数が現在記憶されている最大値よりも小さい場合(ステップS505否定)、論理構造照合部33は、「m」を「1」増加させて(ステップS507)、「m」が登録帳票データDB23に記憶されている登録帳票データの登録数「M」よりも小さい場合(ステップS508肯定)、上記したステップS502〜ステップS508の処理を繰り返す。
そして、「m」が登録帳票データDB23に記憶されている登録帳票データの登録数「M」よりも大きくなった場合(ステップS508否定)、論理構造照合部33は、処理を終了する。
具体的には、図20に示されるような入力帳票を受け付けて論理構造を認識した場合、論理構造照合部33は、図21に示した登録帳票を最適登録帳票として選択する。すると、論理構造照合部33は、「タイトル(見積書)、送付先データ(B株式会社)、送付元データ(A株式会社)」については、図21に示した登録帳票(登録帳票データ)から抽出することができるが、「作成日見出し、作成日データ」については、「送付元データ(A株式会社)」から見て「作成日見出し、作成日データ」の位置関係が登録帳票と入力帳票とで異なるために、抽出することができない。
そこで、論理構造照合部33は、上記したように、最適登録帳票以外の変数「m」の登録帳票データに関する最大部分グラフと、最適登録帳票として特定された登録帳票データの最大部分グラフとの重複数「タイトル(見積書)、送付先データ(B株式会社)、送付元データ(A株式会社)」を計算し、この値が閾値以上でかつ最大値を持つ登録帳票データ「m」を二次登録帳票として選択する。このとき、最適登録帳票で決定していた論理要素で、かつ今回の最大部分グラフに含まれる論理要素が「送付元データ(A株式会社)」であり、最適登録帳票に含まれていない論理要素は「送付先データ(A株式会社)」と同じ位置関係にある「作成日見出し、作成日データ」である(図23参照)。これにより、最適登録帳票によって決定されていない論理要素「作成日見出し、作成日データ」の位置を決定することができる。なお、図20は、入力帳票の例を示す図であり、図21は、選択された最適登録帳票の例を示す図であり、図22は、最大グラフの重複例を示す図であり、図23は、選択された二次登録帳票の例を示す図である。
(二次登録帳票データ抽出処理の流れ)
次に、図24〜図27を用いて、二次登録帳票データ抽出処理の流れについて説明する。図24は、実施例2に係る帳票データ抽出装置における二次登録帳票データ抽出の流れを示すフローチャートである。
図24に示すように、登録帳票生成部35は、論理構造照合部33により選択された二次登録帳票データのグラフ全体から最大部分グラフの要素を決定要素として格納し、確定フラグを付与した後(ステップS601)、登録帳票データDB23に記憶される最大部分グラフの二次登録帳票データと入力帳票データとで最適登録帳票と重複する論理要素の座標のズレ量を算出し(ステップS602)、そして、算出した座標のズレ量の平均を算出する(ステップS603)。
その後、登録帳票生成部35は、登録帳票生成部35は、登録帳票のデータ抽出領域に算出した平均ズレ量を加えた領域を、二次登録帳票で決定された論理要素の入力帳票のデータ抽出領域として(ステップS604)、データ(文字種)の再抽出を行い、データ(文字種)に該当する文字列が存在する場合には(ステップS605肯定)、算出した抽出領域で確定フラグを付与して(ステップS606)、確定フラグが付与された論理要素を格納する(ステップS607)。
一方、データ(文字種)に該当する文字列が存在しない場合には(ステップS605否定)、初期状態での入力帳票の抽出領域に変更して(ステップS608)、確定フラグが付与された論理要素を格納する(ステップS607)。なお、ここで想定している座標のズレとは、紙に対してスキャンを行う場合に生じる左右のマージン、上下のマージンといったスキャンごとに生じるムラを相殺するために用いる。
具体的には、登録帳票生成部35は、上記したように、図25に示す特定された最適登録帳票データからでは抽出できない「タイトル(見積書)、送付先データ(B株式会社)、送付元データ(A株式会社)」を抽出するために選択された図26に示す二次登録帳票データにおいて、最適登録帳票データおよび入力帳票データと一致する論理要素「送付元」の座標と、入力帳票データにおける「送付元データ」の座標とのズレを抽出する。そして、登録帳票生成部35は、二次登録帳票データの「作成日見出し、作成日データ」の座標からズレ分を読み替えた座標を用いて、入力帳票上から「作成日見出し、作成日データ」を抽出して、入力された際に生成された入力帳票データに格納することで、図27に示すような入力帳票データの抽出結果を得ることができる。なお、図25は、最適登録帳票の例を示す図であり、図26は、二次登録帳票の例を示す図であり、図27は、最終的に抽出された入力帳票データの例を示す図である。
[実施例2による効果]
このように、実施例2によれば、入力帳票データに類似する登録帳票データ以外にさらに入力帳票データに類似する登録帳票データの特定を要求する帳票特定要求を受信した場合に、特定された登録帳票データ以外の登録帳票データから入力帳票データに類似する二次登録帳票データを特定し、特定された入力帳票データに類似する登録帳票データの論理要素の位置情報と各論理要素間の関係とに基づいて、入力帳票から入力帳票データを再抽出し、入力帳票から再抽出できない論理要素がある場合に、帳票特定要求を送信して得られた二次登録帳票データの論理要素の位置情報と各論理要素間の関係とに基づいて、入力帳票から入力帳票データを再抽出し、再抽出した入力帳票データを新たな登録帳票データとして生成するので、入力帳票に最も類似する登録帳票データからデータが抽出できない場合でも、二次登録帳票データを用いてデータ抽出を行うことができる結果、入力帳票を再現する登録帳票データを高精度に生成することが可能である。
ところで、実施例2では、最適登録帳票からデータが抽出できない場合に、登録帳票データ(二次登録帳票データ)を再度選択して、入力帳票データを抽出する例について説明したが、本発明はこれに限定されるものではなく、入力帳票データが抽出できない場合に、予め定めた所定の回数、登録帳票データ(n次登録帳票データ)を選択して入力帳票データを抽出することができる。
そこで、実施例3では、入力帳票データが抽出できない場合に、予め定めた所定の回数、登録帳票データ(n次登録帳票データ)を選択して入力帳票データを抽出する例について説明する。
実施例3では、図28を用いて、入力帳票データが抽出できない場合に、予め定めた所定の回数、登録帳票データ(n次登録帳票データ)を選択して入力帳票データを抽出する処理の流れについて説明する。図28は、実施例3に係る帳票データ抽出装置の処理の流れを示すフローチャートである。なお、図28におけるステップS701〜ステップS707の処理については、実施例1で説明した図8、図9、図13の処理および実施例2で説明した図19と図24などの処理と同様であるので、ここでは詳細な説明は省略し、実施例1と実施例2とは異なる処理であるステップS708〜ステップ715について説明する。
図28に示すように、二次登録帳票データ抽出が終了すると、帳票データ抽出装置10の登録帳票生成部35は、変数「n」に「3」を代入し(ステップS708)、既に抽出済みの論理要素を結合する(ステップS709)。
続いて、論理構造照合部33は、実施例1や実施例2と同様の手法で、入力帳票データに類似する登録帳票データ(n次登録帳票データ)を登録帳票データDB23から選択し(ステップS710)、選択したn次登録帳票データと既に抽出済みの論理要素とが閾値以上重複しているか否かを判定する(ステップS711)。
そして、選択したn次登録帳票データと既に抽出済みの論理要素とが閾値以上重複している場合(ステップS711肯定)、登録帳票生成部35は、選択したn次登録帳票データを用いた実施例1や実施例2と同様の手法で、入力帳票からデータを抽出し(ステップS712)、「n」を「1」増加させて(ステップS713)、「n」が登録帳票データDB23に記憶されている登録帳票データの登録数「N」よりも小さい場合(ステップS714肯定)、上記したステップS709〜ステップS714の処理を繰り返す。
そして、選択したn次登録帳票データと既に抽出済みの論理要素とが閾値以上重複していない場合(ステップS711否定)、または、「n」が登録帳票データDB23に記憶されている登録帳票データの登録数「N」よりも大きくなった場合(ステップS714否定)、登録帳票生成部35は、上記した手法で抽出された入力帳票データを新たな登録帳票データとして登録帳票データDB23に格納して(ステップS715)、処理を終了する。
このように、実施例3によれば、帳票特定要求を受信する度に、前記既に特定された登録帳票データ以外の登録帳票データから入力帳票データに類似する登録帳票データを特定し特定された入力帳票データに類似する登録帳票データの論理要素の位置情報と各論理要素間の関係とに基づいて、入力帳票から入力帳票データを再抽出し、入力帳票から再抽出できない論理要素がある場合に、帳票特定要求を送信することを所定の回数繰り返した後に、再抽出した入力帳票データを新たな登録帳票データとして生成するので、入力帳票を正確に再現する登録帳票データを正確に生成することが可能である。
さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下に示すように、(1)データ抽出手法、(2)類似登録帳票データ特定手法、(3)システム構成等、(4)プログラム、にそれぞれ区分けして異なる実施例を説明する。
(1)データ抽出手法
例えば、本発明は、抽出された入力帳票データの複数の領域において、それぞれの領域のみ一致する複数の登録帳票データを登録帳票データDB23から特定し、特定された複数の登録帳票データの論理要素の位置情報と各論理要素間の関係とのそれぞれに基づいて、入力帳票から複数の入力帳票データを再抽出し、再抽出した複数の入力帳票データを組み合わせて新たな登録帳票データとして生成することもできる。
例えば、図29に示されるような入力帳票が入力された場合、帳票データ抽出装置10は、図29に示される入力帳票を上部、中央部、下部の領域に分割する。そして、帳票データ抽出装置10は、図30に示すような入力帳票の上部中央部が一致する登録帳票1(登録帳票データ1)と、図31に示すような入力帳票の中央部下部が一致する登録帳票2(登録帳票データ2)とを登録帳票データDB23から特定し、それぞれについて、実施例1などで説明したグラフ処理を行って、図32に示すようなグラフを生成する。そして、帳票データ抽出装置10は、登録帳票データ1と登録帳票データ2とのそれぞれに一致する領域情報(座標)を用いて、入力帳票からデータを再抽出して、再抽出した複数の入力帳票データを組み合わせて新たな登録帳票データとして生成する。なお、図29は、入力帳票の例を示す図であり、図30は、入力帳票の上部中央部が一致する登録帳票を示す図であり、図31は、入力帳票の中央部下部が一致する登録帳票を示す図であり、図32は、複数の登録帳票データを用いてグラフ処理を行った結果の例を示す図である。
(2)類似登録帳票データ特定手法
また、本発明は、抽出された入力帳票データにおける各論理要素の外接矩形の4頂点と、登録帳票データDB23に記憶される登録帳票データにおける各論理要素の外接矩形の4頂点とを比較以外にも、抽出された入力帳票データにおける各論理要素の重心と、登録帳票データDB23に記憶される登録帳票データの重心とを比較することで、入力帳票データにおける各論理要素が登録帳票データにおける各論理要素のどれに該当するかを判断して、当該入力帳票データに類似する登録帳票データを登録帳票データDB23から特定することが可能である。
(3)システム構成等
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、本実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
(4)プログラム
ところで、上記の実施例で説明した各種の処理は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータシステムで実行することによって実現することができる。そこで、以下では、上記の実施例と同様の機能を有するプログラムを実行するコンピュータシステムを他の実施例として説明する。
図33は、帳票データ抽出プログラムを実行するコンピュータシステムの例を示す図である。図33に示すように、コンピュータシステム100は、RAM101と、HDD102と、ROM103と、CPU104とから構成される。ここで、ROM103には、上記の実施例と同様の機能を発揮するプログラム、つまり、図33に示すように、入力帳票データ抽出プログラム103aと、帳票判定プログラム103bと、データ生成プログラム103cとがあらかじめ記憶されている。
そして、CPU104には、これらのプログラム103a〜103cを読み出して実行することで、図33に示すように、入力帳票データ抽出プロセス104aと、帳票判定プロセス104bと、データ生成プロセス104cとになる。なお、入力帳票データ抽出プロセス104aは、図1に示した、論理構造認識部32に対応し、同様に、帳票判定プロセス104bは、論理構造照合部33と最適登録帳票選択部34とに対応し、データ生成プロセス104cは、登録帳票生成部35に対応する。
また、HDD102には、複数の帳票を予め記憶する登録帳票テーブル102aと、各種の帳票における論理要素と各論理要素の間の関係とを示した論理構造を記憶する共通論理構造テーブル102bと、登録帳票DB21に記憶される各種の帳票に対応付けて、共通論理構造DB22に記憶される論理構造に基づいて取得された当該登録帳票上の論理要素と論理要素の位置情報と各論理要素間の関係とを示した登録帳票データを記憶する登録帳票データテーブル102cとが設けられる。なお、登録帳票テーブル102aは、図1に示した、登録帳票DB21に対応し、共通論理構造テーブル102bは、共通論理構造DB22に対応し、登録帳票データテーブル102cは、登録帳票データDB23に対応する。
ところで、上記したプログラム103a〜103cとは、必ずしもROM103に記憶させておく必要はなく、例えば、コンピュータシステム100に挿入されるフレキシブルディスク(FD)、CD−ROM、MOディスク、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」の他に、コンピュータシステム100の内外に備えられるハードディスクドライブ(HDD)などの「固定用の物理媒体」、さらに、公衆回線、インターネット、LAN、WANなどを介してコンピュータシステム100に接続される「他のコンピュータシステム」に記憶させておき、コンピュータシステム100がこれらからプログラムを読み出して実行するようにしてもよい。
(付記1)複数の帳票を予め記憶する登録帳票記憶部と、各種の帳票における論理要素と各論理要素の間の関係とを示した論理構造を記憶する共通論理構造記憶部とを備え、前記共通論理構造記憶部に記憶される論理構造に基づいて、入力された入力帳票の論理構造を抽出することをコンピュータに実行させる帳票データ抽出プログラムであって、
前記登録帳票記憶部に記憶される各種の帳票に対応付けて、前記共通論理構造記憶部に記憶される論理構造に基づいて取得された当該登録帳票上の論理要素と論理要素の位置情報と各論理要素間の関係とを示した登録帳票データを記憶する登録帳票データ記憶手段と、
前記入力帳票に対して、前記共通論理構造記憶部に記憶される論理構造に基づいて、当該入力帳票上の論理要素と論理要素の位置以上と各論理要素間の関係とを示した入力帳票データを抽出する入力帳票データ抽出手順と、
前記入力帳票データ抽出手順により抽出された入力帳票データに基づいて、当該入力帳票データに類似する登録帳票データを前記登録帳票データ記憶手段から特定する帳票特定手順と、
前記帳票特定手順により特定された入力帳票データに類似する登録帳票データの論理要素の位置情報と各論理要素間の関係とに基づいて、前記入力帳票から入力帳票データを再抽出し、再抽出できない論理要素については前記入力帳票データから抽出して、再抽出した入力帳票データを新たな登録帳票データとして生成するデータ生成手順と、
をコンピュータに実行させることを特徴とする帳票データ抽出プログラム。
(付記2)前記登録帳票データ記憶手段は、前記登録帳票データの論理要素それぞれについて、当該論理要素の重み付けを示す評価値を記憶し、
前記帳票特定手順は、前記入力帳票データ抽出手順により抽出された入力帳票データと前記登録帳票データの論理要素の評価値とに基づいて、前記入力帳票データ抽出手順により抽出された入力帳票データに類似する登録帳票データを前記登録帳票データ記憶手段から特定することを特徴とする付記1に記載の帳票データ抽出プログラム。
(付記3)前記帳票特定手順は、前記入力帳票データに類似する登録帳票データ以外にさらに前記入力帳票データに類似する登録帳票データの特定を要求する帳票特定要求を前記データ生成手順から受信した場合に、前記特定された登録帳票データ以外の登録帳票データから前記入力帳票データに類似する第二の登録帳票データを特定し、
前記データ生成手順は、前記帳票特定手順により特定された入力帳票データに類似する登録帳票データの論理要素の位置情報と各論理要素間の関係とに基づいて、前記入力帳票から入力帳票データを再抽出し、前記入力帳票から再抽出できない論理要素がある場合に、前記帳票特定手順に対して帳票特定要求を送信して得られた第二の登録帳票データの論理要素の位置情報と各論理要素間の関係とに基づいて、前記入力帳票から入力帳票データを再抽出し、再抽出した入力帳票データを新たな登録帳票データとして生成することを特徴とする付記1に記載の帳票データ抽出プログラム。
(付記4)前記帳票特定手順は、前記帳票特定要求を前記データ生成手順から受信する度に、前記既に特定された登録帳票データ以外の登録帳票データから前記入力帳票データに類似する登録帳票データを前記登録帳票データ記憶手段から特定し、
前記データ生成手順は、前記帳票特定手順により特定された入力帳票データに類似する登録帳票データの論理要素の位置情報と各論理要素間の関係とに基づいて、前記入力帳票から入力帳票データを再抽出し、前記入力帳票から再抽出できない論理要素がある場合に、前記帳票特定手順に対して帳票特定要求を送信することを所定の回数繰り返した後に、再抽出した入力帳票データを新たな登録帳票データとして生成することを特徴とする付記1に記載の帳票データ抽出プログラム。
(付記5)前記帳票特定手順は、前記入力帳票データ抽出手順により抽出された入力帳票データの複数の領域において、それぞれの領域のみ一致する複数の登録帳票データを前記登録帳票データ記憶手段からから特定し、
前記データ生成手順は、前記帳票特定手順により特定された複数の登録帳票データの論理要素の位置情報と各論理要素間の関係とのそれぞれに基づいて、前記入力帳票から複数の入力帳票データを再抽出し、再抽出した複数の入力帳票データを組み合わせて新たな登録帳票データとして生成することを特徴とする付記1に記載の帳票データ抽出プログラム。
(付記6)前記帳票特定手順は、前記入力帳票データ抽出手順により抽出された入力帳票データにおける各論理要素の外接矩形の4頂点と、前記登録帳票データ記憶手段に記憶される登録帳票データにおける各論理要素の外接矩形の4頂点とを比較することで、前記入力帳票データにおける各論理要素が前記登録帳票データにおける各論理要素のどれに該当するかを判断して、前記入力帳票データに類似する登録帳票データを前記登録帳票データ記憶手段から特定することを特徴とする付記1〜5のいずれか一つに記載の帳票データ抽出プログラム。
(付記7)複数の帳票を予め記憶する登録帳票記憶部と、各種の帳票における論理要素と各論理要素の間の関係とを示した論理構造を記憶する共通論理構造記憶部とを備え、前記共通論理構造記憶部に記憶される論理構造に基づいて、入力された入力帳票の論理構造を抽出する帳票データ抽出装置であって、
前記登録帳票記憶部に記憶される各種の帳票に対応付けて、前記共通論理構造記憶部に記憶される論理構造に基づいて取得された当該登録帳票上の論理要素と論理要素の位置情報と各論理要素間の関係とを示した登録帳票データを記憶する登録帳票データ記憶手段と、
前記入力帳票に対して、前記共通論理構造記憶部に記憶される論理構造に基づいて、当該入力帳票上の論理要素と論理要素の位置以上と各論理要素間の関係とを示した入力帳票データを抽出する入力帳票データ抽出手段と、
前記入力帳票データ抽出手段により抽出された入力帳票データに基づいて、当該入力帳票データに類似する登録帳票データを前記登録帳票データ記憶手段から特定する帳票特定手段と、
前記帳票特定手段により特定された入力帳票データに類似する登録帳票データの論理要素の位置情報と各論理要素間の関係とに基づいて、前記入力帳票から入力帳票データを再抽出し、再抽出できない論理要素については前記入力帳票データから抽出して、再抽出した入力帳票データを新たな登録帳票データとして生成するデータ生成手段と、
を備えたことを特徴とする帳票データ抽出装置。
(付記8)複数の帳票を予め記憶する登録帳票記憶部と、各種の帳票における論理要素と各論理要素の間の関係とを示した論理構造を記憶する共通論理構造記憶部とを備え、前記共通論理構造記憶部に記憶される論理構造に基づいて、入力された入力帳票の論理構造を抽出することに適した帳票データ抽出方法であって、
前記登録帳票記憶部に記憶される各種の帳票に対応付けて、前記共通論理構造記憶部に記憶される論理構造に基づいて取得された当該登録帳票上の論理要素と論理要素の位置情報と各論理要素間の関係とを示した登録帳票データを記憶する登録帳票データ記憶手段と、
前記入力帳票に対して、前記共通論理構造記憶部に記憶される論理構造に基づいて、当該入力帳票上の論理要素と論理要素の位置以上と各論理要素間の関係とを示した入力帳票データを抽出する入力帳票データ抽出工程と、
前記入力帳票データ抽出工程により抽出された入力帳票データに基づいて、当該入力帳票データに類似する登録帳票データを前記登録帳票データ記憶手段から特定する帳票特定工程と、
前記帳票特定工程により特定された入力帳票データに類似する登録帳票データの論理要素の位置情報と各論理要素間の関係とに基づいて、前記入力帳票から入力帳票データを再抽出し、再抽出できない論理要素については前記入力帳票データから抽出して、再抽出した入力帳票データを新たな登録帳票データとして生成するデータ生成工程と、
を含んだことを特徴とする帳票データ抽出方法。
以上のように、本発明に係る帳票データ抽出プログラムは、複数の帳票を予め記憶する登録帳票記憶部と、各種の帳票における論理要素と各論理要素の間の関係とを示した論理構造を記憶する共通論理構造記憶部とを備え、前記共通論理構造記憶部に記憶される論理構造に基づいて、入力された入力帳票の論理構造を抽出することに有用であり、特に、登録してある帳票でなくても容易にデータを抽出することが可能であることと、新たな登録帳票を容易に作成することに適する。
実施例1に係る帳票データ抽出装置の構成を示すブロック図である。 入力帳票の例を示す図である。 登録帳票DB21に記憶される登録帳票の例および入力帳票に対する論理構造認識結果を示す図である。 共通論理構造DB22に記憶される論理構造の例を示す図である。 登録帳票データDB23に記憶される登録帳票データの例を示す図である。 入力帳票から抽出された正しい論理構造と認識された論理構造の例を示す図である。 実施例1に係る帳票データ抽出装置における全体的な処理の流れを示すフローチャートである。 実施例1に係る帳票データ抽出装置における論理構造認識処理の流れを示すフローチャートである。 実施例1に係る帳票データ抽出装置における論理要素照合処理の流れを示すフローチャートである。 算出されるグラフの例を示す図である。 作成されるクリークの例を示した図である。 最大クリークの選択例を示した図である。 実施例1に係る帳票データ抽出装置における最適登録帳票からのデータ抽出処理の流れを示すフローチャートである。 データ再抽出項目の決定例を示す図である。 登録帳票の例を示す図である。 入力帳票の例を示す図である。 入力帳票を受け付けた際に論理構造認識した結果の例を示す図である。 最適登録帳票の論理要素の座標を用いてデータを再抽出した例を示す図である。 実施例2に係る帳票データ抽出装置における二次登録帳票選択処理の流れを示すフローチャートである。 入力帳票の例を示す図である。 選択された最適登録帳票の例を示す図である。 最大グラフの重複例を示す図である。 選択された二次登録帳票の例を示す図である。 実施例2に係る帳票データ抽出装置における二次登録帳票データ抽出の流れを示すフローチャートである。 最適登録帳票の例を示す図である。 二次登録帳票の例を示す図である。 最終的に抽出された入力帳票データの例を示す図である。 実施例3に係る帳票データ抽出装置の処理の流れを示すフローチャートである。 入力帳票の例を示す図である。 入力帳票の上部中央部が一致する登録帳票を示す図である。 入力帳票の中央部下部が一致する登録帳票を示す図である。 複数の登録帳票データを用いてグラフ処理を行った結果の例を示す図である。 帳票データ抽出プログラムを実行するコンピュータシステムの例を示す図である。
符号の説明
10 帳票データ抽出装置
11 入力受付部
12 表示部
20 記憶部
21 登録帳票DB
22 共通論理構造DB
23 登録帳票データDB
30 制御部
31 入出力制御I/F部
32 論理構造認識部
33 論理構造照合部
34 最適登録帳票選択部
35 登録帳票生成部
100 コンピュータシステム
101 RAM
102 HDD
102a 登録帳票テーブル
102b 共通論理構造テーブル
102c 登録帳票データテーブル
103 ROM
103a 入力帳票データ抽出プログラム
103b 帳票判定プログラム
103c データ生成プログラム
104 CPU
104a 入力帳票データ抽出プロセス
104b 帳票判定プロセス
104c データ生成プロセス

Claims (7)

  1. コンピュータに、
    共通論理構造記憶部に記憶される、各種の帳票における論理要素と各論理要素の間の関係とを示した論理構造に基づいて、入力帳票の論理構造示す入力帳票データを抽出する入力帳票データ抽出手順と、
    前記各種の帳票各々の論理構造を示す登録帳票データを記憶する登録帳票データ記憶部から、前記入力帳票データ抽出手順により抽出された入力帳票データに基づいて、前記入力帳票データに類似する登録帳票データを特定する帳票特定手順と、
    前記帳票特定手順により特定された登録帳票データと前記入力帳票データとを用いて、前記入力帳票データの論理要素のうち前記登録帳票データに含まれる論理要素と同じ位置関係に位置する論理要素を特定する特定手順と、
    前記特定手順により特定された入力帳票データにおける各論理要素の位置情報と、当該論理要素と同じ位置関係に位置する前記登録帳票データにおける論理要素の位置情報との差分を抽出し、前記登録帳票データに含まれる論理要素の位置情報に前記差分を加算した位置情報を用いて、前記特定手順によって特定された論理要素以外の論理要素を前記入力帳票から再抽出する再抽出手順と、
    前記特定手順により特定された論理要素と、前記再抽出手順により再抽出された論理要素とを組み合わせた新たな登録帳票データ生成するデータ生成手順と、
    を実行させることを特徴とする帳票データ抽出プログラム。
  2. 前記登録帳票データ記憶は、前記登録帳票データの論理構造を形成する論理要素それぞれについて、当該論理要素の重み付けを示す評価値を記憶し、
    前記帳票特定手順は、前記入力帳票データ抽出手順により抽出された入力帳票データと前記登録帳票データの論理要素の評価値とに基づいて、前記入力帳票データ抽出手順により抽出された入力帳票データに類似する登録帳票データを前記登録帳票データ記憶から特定することを特徴とする請求項1に記載の帳票データ抽出プログラム。
  3. 前記帳票特定手順は、前記再抽出手順が前記入力帳票から論理要素を再抽出できない場合には、前記特定された登録帳票データ以外の登録帳票データから前記入力帳票データに類似する第二の登録帳票データを特定し、
    前記特定手順は、前記第二の登録帳票データと前記入力帳票データと用いて、同じ位置関係に位置する論理要素を特定し、
    前記再抽出手順は、前記入力帳票データ上の論理要素の位置情報と前記第二の登録帳票データ上の論理要素の位置情報との差分を抽出し、前記第二の登録帳票データに含まれる論理要素の位置情報に前記差分を加算した位置情報を用いて、前記特定手順によって特定された論理要素以外の論理要素を前記入力帳票から再抽出することを特徴とする請求項1に記載の帳票データ抽出プログラム。
  4. 前記帳票特定手順は、前記再抽出手順が前記入力帳票から論理要素を再抽出できない場合には、予め定めた所定の回数繰り返して、前記入力帳票データに類似する登録帳票データを特定し、
    前記特定手順は、前記帳票特定手順により特定された各登録帳票データと前記入力帳票データと用いて、同じ位置関係に位置する論理要素を特定し、
    前記再抽出手順は、前記入力帳票データ上の論理要素の位置情報と前記各登録帳票データ上の論理要素の位置情報との差分を抽出し、前記各登録帳票データに含まれる論理要素の位置情報に前記差分を加算した位置情報を用いて、前記特定手順によって前回までに特定された論理要素以外の論理要素を前記入力帳票から再抽出することを特徴とする請求項に記載の帳票データ抽出プログラム。
  5. 前記帳票特定手順は、前記入力帳票データ抽出手順により抽出された入力帳票データにおける各論理要素の外接矩形の4頂点と、前記登録帳票データ記憶に記憶される登録帳票データにおける各論理要素の外接矩形の4頂点とを比較することで、前記入力帳票データにおける各論理要素が登録帳票データにおける各論理要素のどれに該当するかを判断して、前記入力帳票データに類似する登録帳票データを前記登録帳票データ記憶から特定することを特徴とする請求項1〜4のいずれか一つに記載の帳票データ抽出プログラム。
  6. 種の帳票における論理要素と各論理要素の間の関係とを示した論理構造を記憶する共通論理構造記憶手段
    前記各種の帳票各々の論理構造を示す登録帳票データを記憶する登録帳票データ記憶手段と、
    前記共通論理構造記憶手段に記憶される、各種の帳票における論理要素と各論理要素の間の関係とを示した論理構造に基づいて、入力帳票の論理構造示す入力帳票データを抽出する入力帳票データ抽出手段と、
    前記登録帳票データ記憶手段から、前記入力帳票データ抽出手段により抽出された入力帳票データに基づいて、前記入力帳票データに類似する登録帳票データを特定する帳票特定手段と、
    前記帳票特定手段により特定された登録帳票データと前記入力帳票データとを用いて、前記入力帳票データの論理要素のうち前記登録帳票データに含まれる論理要素と同じ位置関係に位置する論理要素を特定する特定手段と、
    前記特定手段により特定された入力帳票データにおける各論理要素の位置情報と、当該論理要素と同じ位置関係に位置する前記登録帳票データにおける論理要素の位置情報との差分を抽出し、前記登録帳票データに含まれる論理要素の位置情報に前記差分を加算した位置情報を用いて、前記特定手段によって特定された論理要素以外の論理要素を前記入力帳票から再抽出する再抽出手段と、
    前記特定手段により特定された論理要素と、前記再抽出手段により再抽出された論理要素とを組み合わせた新たな登録帳票データ生成するデータ生成手段と、
    を備えたことを特徴とする帳票データ抽出装置。
  7. コンピュータが、
    共通論理構造記憶部に記憶される、各種の帳票における論理要素と各論理要素の間の関係とを示した論理構造に基づいて、入力帳票の論理構造示す入力帳票データを抽出する入力帳票データ抽出工程と、
    前記各種の帳票各々の論理構造を示す登録帳票データを記憶する登録帳票データ記憶部から、前記入力帳票データ抽出工程により抽出された入力帳票データに基づいて、前記入力帳票データに類似する登録帳票データを特定する帳票特定工程と、
    前記帳票特定工程により特定された登録帳票データと前記入力帳票データとを用いて、前記入力帳票データの論理要素のうち前記登録帳票データに含まれる論理要素と同じ位置関係に位置する論理要素を特定する特定工程と、
    前記特定工程により特定された入力帳票データにおける各論理要素の位置情報と、当該論理要素と同じ位置関係に位置する前記登録帳票データにおける論理要素の位置情報との差分を抽出し、前記登録帳票データに含まれる論理要素の位置情報に前記差分を加算した位置情報を用いて、前記特定工程によって特定された論理要素以外の論理要素を前記入力帳票から再抽出する再抽出工程と、
    前記特定工程により特定された論理要素と、前記再抽出工程により再抽出された論理要素とを組み合わせた新たな登録帳票データ生成するデータ生成工程と、
    を含んだことを特徴とする帳票データ抽出方法。
JP2007292619A 2007-11-09 2007-11-09 帳票データ抽出プログラム、帳票データ抽出装置および帳票データ抽出方法 Expired - Fee Related JP4998220B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2007292619A JP4998220B2 (ja) 2007-11-09 2007-11-09 帳票データ抽出プログラム、帳票データ抽出装置および帳票データ抽出方法
US12/267,253 US8418050B2 (en) 2007-11-09 2008-11-07 Computer readable recording medium on which form data extracting program is recorded, form data extracting apparatus, and form data extracting method
CN2008101741087A CN101430761B (zh) 2007-11-09 2008-11-07 表格数据提取装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007292619A JP4998220B2 (ja) 2007-11-09 2007-11-09 帳票データ抽出プログラム、帳票データ抽出装置および帳票データ抽出方法

Publications (2)

Publication Number Publication Date
JP2009122723A JP2009122723A (ja) 2009-06-04
JP4998220B2 true JP4998220B2 (ja) 2012-08-15

Family

ID=40624894

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007292619A Expired - Fee Related JP4998220B2 (ja) 2007-11-09 2007-11-09 帳票データ抽出プログラム、帳票データ抽出装置および帳票データ抽出方法

Country Status (3)

Country Link
US (1) US8418050B2 (ja)
JP (1) JP4998220B2 (ja)
CN (1) CN101430761B (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5428967B2 (ja) * 2010-03-15 2014-02-26 富士ゼロックス株式会社 文書処理システム及び文書処理プログラム
CN102375978A (zh) * 2010-08-17 2012-03-14 富士通株式会社 处理图像的方法和设备
US8977971B2 (en) * 2010-12-24 2015-03-10 General Electric Company Metadata generation systems and methods
JP6222541B2 (ja) * 2013-03-05 2017-11-01 富士ゼロックス株式会社 画像処理装置及びプログラム
CN104346616B (zh) * 2013-08-09 2017-12-12 北大方正集团有限公司 字符识别装置和字符识别方法
JP6194781B2 (ja) * 2013-12-11 2017-09-13 富士ゼロックス株式会社 画像処理装置及びプログラム
JP6965657B2 (ja) * 2017-09-22 2021-11-10 カシオ計算機株式会社 帳票管理装置及びプログラム
CN108710602A (zh) * 2018-05-15 2018-10-26 深圳市继尧信息技术有限公司 成绩数据的处理方法、装置、计算机设备及存储介质
JP7131488B2 (ja) * 2018-07-20 2022-09-06 株式会社リコー 情報処理装置、情報処理方法及び情報処理プログラム
JP2021028770A (ja) * 2019-08-09 2021-02-25 株式会社日立製作所 情報処理装置及び表認識方法
JP2021043775A (ja) * 2019-09-12 2021-03-18 富士ゼロックス株式会社 情報処理装置及びプログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5434962A (en) * 1990-09-07 1995-07-18 Fuji Xerox Co., Ltd. Method and system for automatically generating logical structures of electronic documents
JP3602596B2 (ja) * 1995-02-22 2004-12-15 株式会社東芝 ドキュメントファイリング装置および方法
WO1997005561A1 (fr) * 1995-07-31 1997-02-13 Fujitsu Limited Processeur de supports et procede de traitement de supports
JPH11328306A (ja) * 1998-03-09 1999-11-30 Ricoh Co Ltd 文書画像の論理要素抽出方法、装置および記録媒体
JP4141556B2 (ja) * 1998-12-18 2008-08-27 株式会社日立製作所 構造化文書管理方法及びその実施装置並びにその処理プログラムを記録した媒体
JP3851742B2 (ja) 1999-03-31 2006-11-29 株式会社東芝 帳票処理方法及び装置
JP3860389B2 (ja) * 2000-04-21 2006-12-20 日立オムロンターミナルソリューションズ株式会社 帳票イメージ処理装置
JP3886720B2 (ja) * 2000-11-15 2007-02-28 グローリー株式会社 辞書作成装置、辞書作成方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
EP1603072A1 (de) * 2004-06-02 2005-12-07 CCS Content Conversion Specialists GmbH Verfahren und Einrichtung zur Strukturanalyse eines Dokuments
JP2006004005A (ja) * 2004-06-15 2006-01-05 Fuji Xerox Co Ltd 文書処理装置、文書処理方法及びプログラム
US7725814B2 (en) * 2005-08-04 2010-05-25 Microsoft Corporation Form merging
US7840891B1 (en) * 2006-10-25 2010-11-23 Intuit Inc. Method and system for content extraction from forms
CN101276412A (zh) * 2007-03-30 2008-10-01 夏普株式会社 信息处理装置、信息处理系统和信息处理方法
US8260049B2 (en) * 2007-09-28 2012-09-04 Abbyy Software Ltd. Model-based method of document logical structure recognition in OCR systems
US8411956B2 (en) * 2008-09-29 2013-04-02 Microsoft Corporation Associating optical character recognition text data with source images

Also Published As

Publication number Publication date
US8418050B2 (en) 2013-04-09
US20090125797A1 (en) 2009-05-14
CN101430761B (zh) 2012-10-10
JP2009122723A (ja) 2009-06-04
CN101430761A (zh) 2009-05-13

Similar Documents

Publication Publication Date Title
JP4998220B2 (ja) 帳票データ抽出プログラム、帳票データ抽出装置および帳票データ抽出方法
JP6938228B2 (ja) 計算機、文書識別方法、及びシステム
JP4998219B2 (ja) 帳票認識プログラム、帳票認識装置および帳票認識方法
US6721451B1 (en) Apparatus and method for reading a document image
KR101083557B1 (ko) 장표 인식 장치, 방법, 데이터베이스 작성 장치, 방법, 및 기록 매체
JP5271667B2 (ja) メタデータ抽出装置およびその方法
US20090226090A1 (en) Information processing system, information processing apparatus, information processing method, and storage medium
JP6938408B2 (ja) 計算機及びテンプレート管理方法
JP2004139484A (ja) 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム
JP4473893B2 (ja) 作業項目抽出装置、作業項目抽出方法、および、作業項目抽出プログラム
WO2005073886A1 (ja) 表フォーマットデータ処理方法並びに表フォーマットデータ処理装置
CN106164932A (zh) 用于识别音乐符号的方法和装置
JPH11282955A (ja) 文字認識装置、文字認識方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2005085077A (ja) Cadデータ変換装置、cadデータ変換方法、及びcadデータ変換プログラム
JP4521466B2 (ja) 帳票処理装置
JP7312646B2 (ja) 情報処理装置、文書識別方法、及び情報処理システム
JP4213558B2 (ja) 文書レイアウト解析プログラム、文書レイアウト解析プログラムを記憶したコンピュータ読み取り可能な記憶媒体、文書レイアウト解析方法および文書レイアウト解析装置
JP7015706B2 (ja) 計算機及び文書データの処理方法
JP4521377B2 (ja) 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム
JP4614568B2 (ja) コード検索処理システム
JP4405604B2 (ja) 情報処理装置及び定義方法
JP7377565B2 (ja) 図面検索装置、図面データベース構築装置、図面検索システム、図面検索方法、及びプログラム
WO2016046988A1 (ja) 文書処理装置および項目抽出方法
KR20220142901A (ko) 반정형 문서로부터 정보를 추출하는 방법 및 시스템
CN115759020A (zh) 表格信息提取方法、表格模板配置方法和电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100616

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110913

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120417

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120430

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150525

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees