JP4871889B2 - 表認識方法及び表認識装置 - Google Patents

表認識方法及び表認識装置 Download PDF

Info

Publication number
JP4871889B2
JP4871889B2 JP2008009505A JP2008009505A JP4871889B2 JP 4871889 B2 JP4871889 B2 JP 4871889B2 JP 2008009505 A JP2008009505 A JP 2008009505A JP 2008009505 A JP2008009505 A JP 2008009505A JP 4871889 B2 JP4871889 B2 JP 4871889B2
Authority
JP
Japan
Prior art keywords
item
likelihood
data
relationship
cell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008009505A
Other languages
English (en)
Other versions
JP2009169844A (ja
Inventor
正和 藤尾
隆 小野山
亮 中重
勝美 丸川
健 永崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Solutions Ltd
Original Assignee
Hitachi Solutions Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Solutions Ltd filed Critical Hitachi Solutions Ltd
Priority to JP2008009505A priority Critical patent/JP4871889B2/ja
Publication of JP2009169844A publication Critical patent/JP2009169844A/ja
Application granted granted Critical
Publication of JP4871889B2 publication Critical patent/JP4871889B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)

Description

本発明は、表形式データの処理技術に関し、特に表に記載された情報の属性を認識する技術に関する。
表形式は、情報を整理してコンパクトに伝えることができるため、様々な文書で用いられている。Webや電子文書の情報検索の世界では、表構造から得られる項目と対象データの関係を用いて、検索の絞込みや質問応答に応用することが提案されている。
表の表現方法には様々なものがあり、罫線を使用するものや、スペースだけで表現するものなどがある。また、電子文書では、フォント、太さ、背景色など様々な方法で表現される。
紙文書から表形式データの内容を抽出するものとしては、OCR帳票認識が挙げられる。OCR(Optical Character Reader)における帳票認識方式では、予め読み取り位置が決められている定型帳票を認識対象としているものが多かった。しかし、給与支払報告書やレセプトのように、同じ種類の帳票でも1枚ごとに罫線の本数やセルの位置や大きさなどが微妙に異なる帳票や、登記済通知書のように、項目名がほぼ同じだけで、配置関係も異なる場合がある。このような非定型帳票を認識するために、読取った文字と項目単語辞書との照合による帳票種類判定と組み合わせた帳票認識技術も提案されている(特許文献3)。
上記方式では、項目名単語辞書を用意し、項目名単語照合に成功した文字列を項目名が記載されたセルと、項目名単語照合に成功しなかった文字列をデータが記載されたセルと判定し、この項目名文字列とデータ文字列との配置関係からデータと項目名の対応づけを行う。これにより、事前レイアウト定義がなくても、非定型な帳票の読み取りを実現している。
特開2004−139484号公報 特開平9−319824号公報 特開2007-328820号公報
非定型帳票を認識する方法として、レイアウト定義は行わず、項目単語辞書のみを用いる手段が考えられる。すなわち、項目名の標準的な辞書を用意し、セル内文字行と辞書との照合もしくは部分照合により、項目名を判断する。この方法は、認識対象文書の分野が限られており、項目単語辞書が完備な場合にはうまく行くが、対象を拡大した場合には、項目単語辞書の曖昧性による問題が生じる。例えば、項目名やその部分文字列には、データ行にも出現するものがあるため、辞書照合結果のみでは、文字列が、項目かデータかを判別することはできなかった。例えば、総合振込伝票を例にすると、“銀行”と“銀行名”、“金額”と“価格”と“〜費”、“氏名”と“名”等の表記ゆれが存在する。
紙文書の場合、まず画像処理によりセル構造を得るというステップが入るが、表構造の解析における上記課題は、電子・紙文書の表に共通する課題である。
上記課題を解決するため、本発明では、以下のステップで項目名とデータの曖昧性を解消する。
(1) 言語パターンと、レイアウトパターンに基づき、各文字列の項目らしさの尤度を計算する。
(2) 上下、左右の近傍の文字列のラベルの組合せに対し、単語共起尤度と、レイアウトパターン共起尤度を計算する。
(3) 上記(1)による尤度と(2)による尤度の積が最も高くなるような、ラベルの組み合わせを選択する。
上記ステップ(1)では、予め用意した項目辞書との照合パターン(完全一致、部分一致、境界一致)により、項目らしさの数値を計算する。また、予め用意した言語パターン辞書との照合により、データらしさの数値を計算する。レイアウトパターンとしては、ハッチングパターンを使うことができる。例えば、縦又は横に連続するセルの背景色もしくはハッチングが途中で変化する場合に、上端又は左端の背景もしくはハッチングを持つセルの項目らしさを高くする。
ステップ(2)では、隣接文字列ペアが、人手で整備されたオントロージーやシソーラスにおけるIs-A関係(上位・下位概念関係)の場合に、項目−項目関係である尤度を高めに設定し、Has-A関係(部分と全体の関係)に該当する場合に、項目−データ関係である尤度を高めに設定する。また、隣接文字列ペアのレイアウトパターン(背景パターン、セルの太さ、文字の太さ、セルの高さ等)が、変化している場合に項目−データ関係である尤度を高くし、同じ場合に項目−項目関係、データ−データ関係の尤度を高くする。
ステップ(3)では、まず、ステップ(1)で得られた尤度を元に、項目とデータのラベルの初期状態を設定し、ステップ(2)の処理で、近傍のラベルとの関係で、可能なラベルのうち尤度の高いラベルに変更する処理を、尤度の上昇が閾値以下になるまで繰り返す。
以上の方法により、文字列自身の項目名らしさと、近傍との関係の尤度を元に、尤もらしい、項目名とデータの組合せ及び関係を選択することができる。
本発明によると、枠あり/枠なし/背景色利用型/スペース型など、様々な表データから項目と値の論理関係を推定し、入力支援、情報抽出に利用することができる。
(1)項目辞書の誤照合による表論理関係解析誤りを軽減できる。
(2)既存の表認識への影響を気にすることなく、項目辞書の追加を行うことができる。
(3)項目単語辞書が不完全な場合でも、項目とデータの認識を高精度で行うことができる。
本発明は、帳票や一般文書中に含まれる表形式データを対象としている。また、紙をスキャンしてできる電子化文書、Word、Excel、PowerPoint等の電子文書いずれかに限定されるものでもない。
≪用語説明≫
本発明において、表とは、枠を含むかどうかにはよらない。図22に示すような、部分枠型の表2201や、スペースのみによる表2202、背景色による表2203を含む。本発明では、表の各枠に相当する部分を、セルと呼ぶことにする。
レイアウトパターンとは、表のデザインや形のことを言う。レイアウトパターンには、隣接セルの数の他、背景色、ハッチング、枠色、枠線種、枠線太さ、セルの幅、セル内文字列配置(右寄せ、左寄せ、センタリング)、文字色、文字太さ、文字フォント、文字装飾などがある。
言語パターンとは、「数値+“%”」「数値+“円”」「数値+“名”」などの単位表現や、「数値+“年”+数値+“月”+数値+“日”」などの日付表現などのように、正規表現などで表現された文字列パターンのことを言う。また、人名、組織名、場所、時間、金額など、文字列の種類のことも、広義の言語パターンと呼ぶ。
≪表の論理関係解析について説明≫
まず最初に、表の論理関係解析について説明する。
図6は、表形式データ及びその論理関係を示したものである。表60は、項目名として、学歴601、性別602、生年月日603、卒年604、学歴605を持ち、それ以外のセルをデータとして持つ。
図7は、図6と同じ表に対して、論理関係のみを示したものである。実線の矢印76〜78は、項目名とデータ間の対応関係を表す。破線の矢印79a、79b、79c、79d、79eは、同一レコードとしてまとめられるデータの塊を表す。
関係76は、卒年74の親属性が、学歴71であることを表す。関係77は、データ78aの属性が、卒年74であることを表す。関係78は、同一項目データの並列関係を表す。また、矢印79eは、各項目に対応するデータ78a〜78dが、同一レコードとして一塊であることを表す。このように、表中の項目セル(文字列)とデータセル(文字列)を判別し、項目とデータの対応関係を決定することを表の論理関係解析と呼ぶ。このようにして解析された論理関係は、たとえばXML形式に変換することで、検索、データ交換、質問応答など、後処理での利便性を高めることができる。
図8は、図7に示した表の論理関係をXML形式で表現したものである。XMLのタグ81は、図7の79eのデータをXML形式で表現したものである。タグ83は、項目名71に対応し、タグ84は、その子属性である項目名74に対応する。文字列801は、データ78aに対応し、それが項目74に対応づけられていることを表す。また、タグ85は項目名72に対応し、対応するデータが文字列803、すなわちデータ78cであることを表現している。このように、表の論理関係解析結果は、XML形式で表現できる。
本発明は、表の論理関係、特に、項目名とデータの対応関係を抽出し、例えば図8のような出力を得る技術に関するものである。
≪本発明で解決する課題の具体的説明≫
次に、本発明が解決しようとする課題について、具体例を用いて説明する。
図4は、総合振込み伝票の一例を示したものである。従来の表論理関係解析手法では、まず処理対象分野の項目単語辞書を用意する。この例では、少なくとも“銀行名”、“支店名”、“種別”、“口座番号”、“受取人”を持つ必要がある。次に、セル・文字行抽出を行った後、各行の文字列と項目単語辞書の照合を行う。そして項目単語辞書との照合に成功すれば、項目名だと判定する。
しかし、一般に項目名は、同じ内容でも表記ゆれが存在し、“銀行名”と書かれることもあれば、“銀行”と書かれることもある。そのため、項目単語辞書は、短いほうの文字列“銀行”を持つ必要がある。その結果、データ文字列42〜45に項目名が誤照合し、判定を間違ってしまう。すなわち、項目単語辞書だけでは、当該文字列が項目名なのかデータなのかの曖昧性を解消することができない。
このような課題を解決するために、本発明では、辞書引き結果はあくまで特徴量のひとつとして使用し、自身を含む近傍領域の各種特徴量を用いて、項目らしさとデータらしさを数値化し、この値がなるべく大きくなるように、項目及びデータの組合せ及び関係を決定する。使用する特徴量については、実施例1〜5において具体的に説明する。
≪表論理関係解析装置の構成≫
図1は、本発明の実施形態の表論理関係解析装置の構成例を示す図である。
表論理関係解析装置10は、入力手段11、表示装置12、CPU13、印刷装置14、ワークエリア15、情報保持手段16を備える。ワークエリア15には、OS151のほか、認識プログラム(表論理関係解析プログラム)153、通信プログラム152を備える、もしくは必要に応じて情報保持手段16からロードされる。情報保持手段16には、認識プログラム153が必要とする各種辞書を備える。
入力手段11の入力装置110は、認識プログラム153にコマンド等を入力するためのキーボード及びマウス等の装置である。画像入力装置111は、紙文書を処理対象とする場合に、表を画像データとして、認識プログラム153に入力するためのスキャナ等の装置である。
OS151は、入力手段11、表示装置12、CPU13、印刷手段14、通信プログラム152、認識プログラム153、その他図示しないメモリ、記憶装置の動作を制御する機能を備える。通信プログラム152は、処置対象の文書をネットワーク経由で取得するための通信機能を備える。認識プログラム153は、画像入力装置111によって得られた画像、もしくは通信プログラム152によって得られた電子文書から、表領域を抽出し、表の論理関係を解析する機能を備える。
情報保持手段16が持つ、項目名単語辞書161、レイアウトパターン知識辞書162、言語パターン知識辞書163、レイアウト共起辞書164、言語共起辞書165は、認識プログラム153が表の論理関係を解析する際に参照する辞書データベースである。項目名単語辞書161は、項目名を判定する際に参照する辞書であり、項目名の候補となる単語が格納されている。レイアウトパターン知識辞書162は、セルのデザイン(背景色、配置、枠線の種類、文字フォント、太さ、サイズ、色)特徴に基づき、項目らしさとデータらしさを数値化した情報を格納する。レイアウトパターン辞書の例を、図5に示す。レイアウトパターン辞書510は、各セルのレイアウトパターンと、それに対する項目らしさ、データらしさを数値化した情報を格納する。知識は、パターン事例516、その際の対象セル位置517、セルのタイプ518(項目かデータか)、尤度519から構成される。例えば、知識511は文字太さに関するレイアウトパターンがある条件を満たすときのセルの項目らしさを格納し、知識512は文字フォントに関するパターンがある条件を満たすときのセルの項目らしさを格納し、知識513は、文字斜体装飾のパターンがある条件を満たす時のセルの項目らしさを格納している。また、知識514は表内に複数罫線があり、その中の一つが太線である場合に、太線の上にあるセルの項目らしさを格納している。言語パターン知識辞書163は、図14の例に示すように、「数字列+%」「数字+月+数字+日」など、項目らしさあるいはデータらしさを判定するための文字列パターン(正規表現)と、その項目らしさとデータらしさを数値化した情報を格納する。レイアウト共起辞書164は、図17の例に示すように、物理的連接関係にあるセル同士のデザインの組合せ(レイアウト共起)に基づき、項目らしさとデータらしさを数値化した情報を格納する。言語共起辞書165は、図18の例に示すように、物理的連接関係にあるセル同士の言語パターンの組合せ(言語共起)に基づき、項目らしさとデータらしさを数値化した情報を格納する。
表示装置12は、認識プログラム153によって表の論理関係が解析された結果を表示するディスプレイ等の装置である。CPU13は、ワークエリア15内の各種プログラムをロードし、実行するための想定である。印刷装置14は、認識プログラム153による表の論理関係解析結果を出力するための装置である。通信ネットワーク19は、ネットワークでつながった別の装置上のデータやワークエリア、情報保持手段にアクセスするための装置である。
≪概要・効果≫
次に、本発明の概要と効果について説明する。
本発明の前提となる技術は、表論理関係解析において、項目単語辞書との照合により、表中の項目名領域を判定し、データの文字列と項目名文字列の属性を対応付けることである。
本発明の概要は、上記の表論理関係解析において、過剰な辞書照合により項目名文字列の判定が誤る場合に、文字列の特徴、文字列セルの特徴、近傍文字列の特徴、近傍セルの特徴を用いて項目名らしさ及びデータらしさを数値化し、この値がなるべく大きくなるように、項目及びデータの組合せ及び関係を決定することである。
本発明の効果は、辞書照合のみでは項目かデータか曖昧性が残る場合に、その曖昧性を解消することである。
以下、図を用いて本発明における構造要約機能の実施例を詳細に説明する。
≪本発明の表解析フロー≫
本発明では、表の論理関係を解析するため、項目縦(Fv)、項目横(Fh)、データ縦横(Vvh)、データ縦(Vv)、データ(Vh)の5種類のカテゴリを定義し、各セルごとに最適ラベルを選択する問題を考える。例えば、前述した図7の論理関係は、上記ラベルを用いて、図9の表90のように表現できる。ここで、ラベルFx(xはh、v、vhのいずれか)は、項目であることを表し、ラベルVxは、データであることを表す。また、ラベルXv(XはF又はV)は、下に隣接するセルと論理関係を持つことを表し、ラベルXh(Xは、F又はV)は、右方向に隣接するセルと論理関係を持つことを表す。Vvhは、上及び横の隣接するセルと論理関係を持つことを表す。
図9において、ラベル910は学歴71のラベルを表す。学歴71は項目名であり、その下方に隣接するセル、卒年74、学歴75と論理関係(項目階層関係)を持つため、ラベルFvで表現される。ラベル911は、性別72のラベルを表す。性別72は項目名であり、その下方に隣接するセルと論理関係(項目−データ関係)を持つため、ラベルFvで表現される。ラベル913は、卒年74のラベルを表す。卒年74は、項目名であり、下方に隣接するセルと論理関係(項目−データ関係)を持つため、ラベルFvを持つ。ラベル920は、文字列771のラベルを表す。文字列771は、データであり、下方に隣接するセルと論理関係(データの繰り返し)を持つため、ラベルVvで表現される。以上のように、表の論理関係が決まると、対応するラベルを一意に決定することができる。逆に、ラベルが決まると、論理関係が一意に決まる。以下の処理フローならびに実施例では、このラベルを決定する処理について説明する。
図3は、本発明の実施形態の表構造解析装置10によって実行される表の論理関係解析処理の概要を示すフローチャートである。
セル・文字行抽出(S31)において、入力された文書から文字行を抽出する。本発明で文字行とは、項目名ないしはデータの判定を行うための単位であり、セルもしくはスペースにより明確に区切られた、文字の塊を表すものとする。次に、項目名文字列照合(S32)により、予め登録された項目名単語辞書と照合し、照合パターン(部分一致、完全一致)を記録する。次に、項目名照合度計算(S33)により、照合パターン(完全一致、部分一致か)によって、項目らしさ(すなわちFx、Vxの各尤度)を計算する。実際の計算方法については、実施例1で述べる。
次に、項目・データ尤度計算(S34)により、処理対象の文字列もしくは文字列が含まれるセルの項目らしさ(Fx、Vxの各尤度)を計算する。Fx、Vxの尤度は、レイアウトパターン及び言語パターンに基づいて計算する。例えば、文字の太さ、セルの背景色、割付、インデント等のレイアウトパターンや、「数字列+%」、「数字+月+数字+日」など、言語パターンを用いることができる。実際の計算方法については、実施例2で述べる。
次に、関係尤度計算(S35)により、処理対象のセルと隣接セルとの関係の確からしさを計算する。例えば、図7において、項目71と74の関係76について考える。この場合、ますレイアウトパターンに着目すると、項目71のセルは、項目74のセルを包含する関係にあり、項目が階層関係にある可能性が高い(すなわち項目71のラベルはFv)。また、言語パターンに着目すると、“学歴”という単語は“卒年”という単語の上位概念であると考えられる。これは、概念辞書などを用いることによって判断できる。従って、レイアウトパターン、言語パターン両方の観点から、項目71と項目74の関係は確からしいと言うことができる。仮に、項目71のラベルがFhであるとした場合、項目71のセルが項目72のセルに含まれるため、確からしさが下がる。また、“学歴”が“性別”の上位概念にあると仮定することになり、やはり確からしさが下がる。以上のように、レイアウトパターンと言語パターンに着目することにより、関係の確からしさを調べることができる。関係の確からしさを計算する方法については、実施例3で述べる。
次に、最適解候補探索(S36)により、各文字列に付与するラベルの適切な組合せを探索する。項目・データ尤度計算(S34)、関係尤度計算(S35)の計算結果の全体統合尤度が大きくなる組合せを選択する必要がある。全ての組合せの全解探索は、セルの数の指数オーダで増加するため、ビームサーチなどの近似解探索の工夫が必要となる。本発明では、処理効率を考慮し、Markov Random Field(Patrick Perez, Markov Random Fields and Images, CWI Quarterly,Vol11(4), pp.413-437,1998)と組み合わせた方法について説明する。詳細については、実施例4で述べる。
≪ラベル尤度計算方法≫
ラベル尤度とは、項目らしさ、データらしさの程度の数値を表すものとする。確率モデルを用いる場合は、項目の確率=項目の尤度である。
以下、項目名照合度計算(S33)について、具体的な実施例を用いて説明する。
(実施例1:項目名照合度による項目らしさの計算)
図10に、各文字行と辞書エントリの照合パターンの例を示す。項目辞書101は、図3の処理フローで参照される項目名単語辞書161と同じものである。単語リスト102は、登録されている単語の一例を示す。照合事例テーブル103は、文字行と辞書照合結果のパターンとその尤度を示したものである。事例1031は、文字行“銀行名”の照合パターンを表す。この場合、単語リスト102中の単語と完全マッチするため、高い尤度が適当と考えられる。事例1032は、文字行“×××銀行”の照合パターンを表す。この場合、単語リスト102中の単語と右端が一致する形で文字行中に完全に含まれる。この場合、事例1031の完全一致ほどではないが、項目名の可能性が高い。事例1033は、文字行“○○価格(××)”の照合パターンを表す。この場合、単語リスト102中の“価格”が部分一致する。ただし、“価格”の右隣接文字が記号“(”であるため、右境界一致とする。この場合、事例1031の完全一致ほどではないが、項目名の可能性が高い。最後に、事例1034は、文字列“単価(△)”の照合パターンを表す。この場合、単語リスト102中の“単価”が部分一致する。ただし、“単価”の左端が一致し、右隣接文字が記号“(”であるため、項目名の可能性が高い。
以上のように、項目単語辞書単語との照合パターンにより、項目名らしさを定義することができる。尤度1035〜1038の値は、以上に述べた項目名らしさを反映する形で、人手で与えることも可能である。また、処理対象分野の正解データを用意し、以下の計算式により計算してもよい。
文字列照合パターンによる尤度(LstrMatch(xi))=項目名の頻度数÷各パターンの帳票全体での頻度 …(1)
式(1)について、図4の例で説明する。今、項目単語辞書中に、“銀行”という単語が含まれる場合を考える。このとき、図4の例では、“銀行”にマッチするセルが、5個ある。このうち、項目名であった頻度は1である。従って、LstrMatch(“銀行”)=1/5=0.2と計算される。実際には帳票サンプル全体の合計数で計算する。
次に、項目・データ尤度計算(S34)について、具体的な実施例を用いて説明する。下記実施例2a〜2dで決定される尤度は、近傍のラベルとは無関係に計算される尤度である。後で式(7)に示すように、使用する各属性の尤度の積により、項目・データ尤度計算(S34)の統合尤度が計算できる。また、以下の特徴は全て使用しても、使用する特徴をユーザが指定してもよい。
(実施例2a:背景パターンによる尤度計算)
項目・データ尤度計算(S34)において、縦方向に連続するセルの背景色もしくはハッチングパターンが、その下に隣接するセルの背景色もしくはハッチングパターンと異なる場合、その最上段側に連続するセル内の文字列が、項目名の可能性が高いと判断できる。この処理は、横方向に同じ高さのセルが繰返し連続している場合にも同様に実行できる。
図11の表の例では、左端の文字列“趣味”、“学歴”、が全てハッチングを持ち、“趣味”の隣接セルがハッチングを持たないため、“趣味”、“学歴”が項目名の可能性が高いと判断できる。加えて、その他の文字列“高校”、“専門/大学”、“その他”や、“職業”、“年収”、“貯蓄額”が、同じハッチングパターンを持っているため、項目名の可能性が高いと推測できる。レイアウトパターンに基づく尤度は、例えば以下の計算式により算出できる。
レイアウトパターンによる尤度(LlayoutMatch(xi))=項目名の頻度数÷パターンの頻度 …(2)
式(2)について、図11の例で説明する。図11の例では、ハッチングを持つセルが8回現われている。それに対し、実際項目名であったのは8回である。従って、Llayoutmatch(“ハッチング”)=8/8=1と計算される。実際には帳票サンプル全体の合計数で計算する。
(実施例2b:文字スタイル)
項目・データ尤度計算(S34)において、縦方向に同じ幅のセルが繰返し接続している場合に、繰返しの最上段のセル内の文字の太さと下側のセル内の文字の太さが異なる場合に、その最上段のセル内の文字列が、項目名の可能性が高いと判断する。この処理は、太さ以外の文字のスタイル(フォント、斜体、下線等)についても適用できる。また、この処理は、横方向に同じ高さのセルが繰返し接続している場合にも同様に実行できる。
図12の表の例では、上側の項目、“学歴”、“性別”、“生年月日”、“卒年”が他の文字列よりも太く、項目名の可能性が高いと判断できる。
本特徴による尤度は、人手で与えるか、式(2)により計算できる。
(実施例2c:線幅)
項目・データ尤度計算(S34)において、縦方向に同じ幅のセルが繰り返し接続している場合に、繰返しの最上段のセルの下側の罫線が太く、その他の罫線の太さが細い場合に、その最上段のセル内の文字列が、項目名の可能性が高いと判断する。この処理は、横方向に同じ高さのセルが繰返し連続している場合にも同様に実行できる。
図13の表の例では、上側の項目、“学校”、“卒年”、“性別”、“生年月日”の下側罫線のみが太く、これらの文字列は項目名の可能性が高いと判断できる。
本特徴による尤度は、人手で与えるか、式(2)により計算できる。
(実施例2d:言語パターンによる尤度計算)
項目・データ尤度計算(S34)において、処理対象文字列が、言語パターン知識辞書163に定義済みのパターンにマッチする時、パターンごとに定義される項目らしさの値を付与する。
図14は、言語パターン知識辞書のエントリ例を示す。エントリ1411は、文字列が数字と記号だけで表現される場合を表す。この場合、データである可能性が高い。図4の表の例では、文字列46が、これに相当する。エントリ1412は、“30名”、“20%”、“1,000円”などの単位表現を表す。この場合、データである可能性が高い。図15の例では、文字列1512が、これに相当する。エントリ1413は、年月日表現を表す。この場合、データである可能性が高い。図6では、文字列611〜615が、これに相当する。エントリ1414は、別の年月日表現を表す。この場合、データの可能性が高いが、スケジュール表などの場合は項目の可能性が高い。例えば、図15の例では、本来項目である文字列1511に、エントリ1414のパターンがマッチする。従って、データらしさの尤度は相対的に低めに設定してある。
また、言語パターンとレイアウトパターンの組あわせごとに、尤度を定義してもよい。例えば、エントリ1415では、最上セルもしくは最左セルにあり、言語パターンがエントリ1414と照合する場合に、項目の尤度を高く設定している。
エントリ1416では、上下又は左右の隣接セルが同じパターンを持つ場合に、日付の連続性が保たれていなければ、データの尤度を高く設定している。図16の表の例では、文字列1611、1612、1613が、このパターンに該当する。
本特徴量により計算される尤度を、以降、LstrpatMatch(xi)と表現するものとする。
以上、レイアウトパターン、言語パターンにより決定される各文字列のFx、Vx尤度(項目らしさ、データらしさの尤度)を組み合わせて用いることで、各文字列の項目らしさを総合的に判断し、項目かデータかの曖昧性を解消することができる。
実施例1、2では、項目単語辞書、レイアウトパターン、言語パターンによる尤度計算方法について説明した。しかし、各知識辞書により示される結果は相反する場合もありうる。その場合は、どの特徴による尤度が大きいか、また、どの特徴を重要視するかによって総合的に判断される。例えば、全ての特徴による値の掛け算により、項目らしさ、データらしさを総合的に計算することができる。以下の例では、式(7)において、そのような計算を行っている。
≪関係の確からしさの計算≫
以下、関係尤度計算(S35)について、具体的な実施例を用いて説明する。下記実施例3a〜3eで決定される尤度は、近傍のラベルに依存して決まる尤度である。
(実施例3a:レイアウト共起辞書)
図17に、隣接するセル同士のレイアウトパターンと、論理関係別の尤度を示す。これは、図3のレイアウト共起辞書164の一例である。テーブル170は、特徴量として、接続方向(縦あるいは横)1704、接触罫線の種類1705、接触罫線の太さ1706を用い、接続関係(2つの文字列のラベル(Fx、Vx)の組合せ)別に、関係尤度を定義している。
定義1701は、横方向に隣接関係を持ち、かつ太い実線で区切られた場合に、各文字列のラベルが、項目−項目(F−F)、項目‐値(F−V)、項目‐項目(V−V)である場合の尤度を示している。図15の表の例では、文字列1521と文字列1522の関係が当てはまる。この場合、太線によりラベルの種類が変わることを示している場合が多いため、ラベルの種類の異なる項目−値(F−V)の関係の尤度が高くなっている。
定義1702は、縦方向に隣接関係を持ち、かつ破線で区切られた場合に、各文字列のラベルが、項目−項目(F−F)、項目‐値(F−V)、項目‐項目(V−V)である場合の尤度を示している。図19の例では、文字列1901と文字列1902の関係や、文字列1911と文字列1912の関係が、これに該当する。破線で区切られた関係は、同種ラベルの連続である場合が多いため、ラベルの種類が等しい、項目−項目(F−F)、値−値(V−V)の関係の尤度が高くなっている。
これらの尤度は、処理対象分野の正解サンプルを用いて、以下の式で計算できる
関係パターン尤度(LrelLayout(xi,xj))=各関係の頻度÷各パターンの全体頻度 …(3)
式(3)について、図19の例で説明する。縦方向の隣接セル間の枠線の種別(破線)が破線の場合を考える。図19に示した表190の例では、このような隣接関係が、30回現われている。そのうち、値−値(V−V)関係のものは、30回である。従って、LrelLayout(“破線枠”)=30/30=1と計算される。実際には帳票サンプル全体の合計数で計算する。
テーブル171は、特徴量として、割付方向1704,1705、セルの幅1706、背景色1707を用い、接続関係(2つの文字列のラベル(Fx、Vx)の組合せ)別に、関係尤度を定義している。
定義1711は、横(縦)方向に隣接関係を持ち、かつ左(上)のセルの文字列が右詰め、右のセルの文字列が左詰めで、セル背景色が同じ場合の、各関係の尤度を表している。この場合、割付のパターンが変化し、かついずれもセンタリングではないので、両方データである可能性が高いが、セルの背景色が同じであるため、両方項目である可能性も高い。よって、F−F及び、V−Vの関係の尤度が高くなっている。図20の表200の例では、セル2001内の文字列とセル2002内の文字列の関係が、このパターンに該当する。
定義1712は、横(縦)方向に隣接関係を持ち、かつ左(上)のセルの文字列がセンタリングされており、右側の文字列がセンタリングされておらず、セル背景色が異なる場合の、各関係の尤度を表している。この場合、左(上)のセルの文字列が項目名であり、右(下)のセルの文字列が値である可能性が高い。図11の表の例では、セル1105内の文字列とセル1106内の文字列が、このパターンに該当する。
これらの尤度は、式(3)により同様に計算できる。
(実施例3b:言語共起辞書)
図18に、隣接するセル同士の言語特徴と、関係尤度の定義例を示す。これは、図3の言語共起辞書165の一例である。テーブル180は、特徴量として、左(上)のセルの文字列の項目種別1804、右(下)のセルの言語パターン/固有表現カテゴリ1805を用いて、接続関係(2つの文字列のラベル(Fx、Vx)の組合せ)1806別に、関係尤度1807を定義している。図18では、最も尤度が高い関係以外は省略している。
定義1801は、左(上)側のセルの文字列が、“誕生日”、“生年月日”、“発効日”等の日付項目に類し、右(下)側のセルの文字列が日付表現である場合の、項目−値(F−V)関係の尤度を表している。日付表現は、「数値表現+“年”+数値表現+“月”+数値表現+“日”」等の正規表現を整備することで判定できる。定義1801において、F−Vの値が0.9であり、F−Fの値が0.0であるということは、あるセルの言語パターンが日付表現を表し、その周囲に“誕生日”、“生年月日”等の日付項目表現があれば、その二つのセルが項目と値という論理関係で強く結びつくことを表わしている。
同様に、定義1802は、左(上)側のセルの文字列が、“現住所”、“緊急連絡先”等の住所項目に類し、右(下)側のセルの文字列が住所表現である場合の、項目−値(F−V)関係の尤度を表している。住所表現は、住所データベースを用いることで判定できる。定義1802において、F−Vの値が0.9であり、F−Fの値が0.0であるということは、住所項目を持つセルと、住所表現の言語パターンを持つセルが隣接関係にあれば、その二つが強く結びつくことを表している。
同様に、定義1803は、“取引先”という文字列と組織名表現の関係、定義1804は“価格”と金額表現の関係、定義1805は“受取人”と人名表現の関係、定義1806は“手数料”と金額表現の関係の強さを定義している。以上の定義では、各文字列が、人名表現か、組織名表現か、場所表現か、金額表現か、といった種別を判別する必要がある。このように、文字列を切り出し、種別を判別する技術を固有表現抽出という。これには、『工藤拓、松本裕治、「チャンキングの段階適用による日本語係り受け解析」、情報処理学会論文誌、Vol.43、No.6、pp.1834-1842』による方法を用いることができる。
定義1807は、“履歴”という文字列と“学歴”という文字列が論理関係(F−F)を持つ可能性が高いことを示している。これは一般に項目の階層関係を表す。同様に、定義1808は、“履歴”という文字列と“年齢”という文字列が論理関係(F−F)を持つ可能性が高いことを示している。定義1809は、“学歴”という文字列と“大学”という文字列が論理関係(F−V)を持つ可能性が高いことを示している。定義1810は、“性別”という文字列と“男”という文字列が論理関係(F−V)を持つ可能性が高いことを示している。定義1807〜1809の関係は、オントロージーやシソーラスにおけるIs-A関係(上位・下位概念関係)や、Has-A関係(部分と全体の関係)により定義できる。例えば、“車”と“乗り物”は、Is-A関係にある。“車”と“エンジン”は、Has-A関係にある。それ以外の関係では、対象分野の正解データを用意し、階層関係にある項目のペアを抽出することで、特定の言語パターン同士の関係強度を計算してもよい。その場合、以下の式により、関係の強さを計算できる。
言語パターン共起尤度(LrelLang(xi,xj))=文字列ペアがF−F(F−V)関係であった頻度÷文字列が隣接していた頻度 …(4)
以上、隣接関係にある文字列の、レイアウト共起パターン、言語共起パターンにより、論理関係の確からしさを総合的に判断し、表中の項目名とデータの曖昧性を解消することができる。
実施例1、2、3では、項目単語辞書、レイアウトパターン、言語パターン、レイアウト共起パターン、言語共起パターンによる、尤度計算方法について説明した。しかし、各知識辞書により示される結果は相反する場合もありうる。その場合は、どの特徴による尤度が大きいか、また、どの特徴を重要視するかによって総合的に判断される。例えば、全ての特徴による値の掛け算により、項目らしさ、データらしさを総合的に計算することができる。以下の例では、式(7)と式(8)(9)において、そのような計算を行っている。
≪解探索方法≫
上記実施例で説明したように、項目名照合度計算(S33)、項目・データ尤度計算(S34)、関係尤度計算(S35)により、各文字列の近傍情報のみを用いて、項目名らしさ、データらしさを評価する手段を提供した。最後に、これらの尤度を統合した全体尤度が大きくなるラベルの組合せを選択する必要がある。
全ての組合せの全解探索は、セルの数の指数オーダで増加するため、ビームサーチなどの近似解探索の工夫が必要となる。本発明では、Markov Random Field(MRF)手法を用いて行う方法について説明する。
以下、解候補探索(S36)について、具体的な実施例を用いて説明する。
(実施例4:解候補探索)
いま、観測データをyとし、変数をxとおく。表データのラベル付け問題では、各セル内の文字列集合y=(y1,y2,…,yN)が観測データであり、それらのラベル集合x=(x1,x2,…,xN)が隠れ変数である(但し、xk={Fv,Fh,Fvh,Vv,Vh,l0:l0はラベルが未設定})。
MRFでは、まず近傍関係グラフを定義する。形式的には、ノードSとエッジEのグラフGとして以下のように定義される。
Figure 0004871889
表データの場合、各セルをノード、上下左右の隣接関係をエッジとして、近傍関係グラフを定義できる。図21に、表データの近傍グラフの例を示す。図21において、変数x1,x2,…,xNが、各セル2201に対応するノードを表し、セルの隣接関係で定義される関係2111〜2114が、エッジを表す。
表データの論理関係の解析は、ノード集合x=(x1,x2,…,xN)に対する結合確率P(x)を最大とするラベル集合ω=(ω12,…,ωN)を選ぶ問題と定式化できる。MRFによるモデル化では、各変数は、近傍の要素のみに直接依存関係があると仮定し、以下のGibbs分布により、結合確率を、独立成分に分解する。
Figure 0004871889
ここで、Vcは、近傍集合cにより定義されるポテンシャル関数をあらわす。表データでは、近傍集合cは、上下左右の4点で定義できる。図21の例では、xqの近傍は、xl,xr,xt,xbとなる。ポテンシャルVcは、実施例1、実施例2a〜2d、実施例3a、3bで定義した尤度を用いて、以下の式で定義する。
Figure 0004871889
ここで、Feature(xi)、Value(xi)は、項目名照合度計算(S33)及び、項目・データ尤度計算(S34)で計算される項目らしさ、データらしさの尤度を表す。具体的には実施例2a〜2dで示したものを用いる。FeatureFeature(xi,xj)、FeatureValue(xi,xj)、ValueValue(xi,xj)は、関係尤度計算(S35)で計算される値で、着目している2つのセルの論理関係の尤度を表す。具体的には実施例3で示したものを用いる。
Figure 0004871889
式(7)に示したV(xi,xj)の右辺第1項は、Feature(xi)>T1すなわち1より大きいとき、変数xiのラベルがFであれば小さくなり、Vであれば大きくなる。すなわち、項目尤度の高さとxiのラベルが同期する場合、ポテンシャル関数Vcが小さくなり、式(6)の確率が高くなるという性質を持つ。
同様に、式(7)に示したV(xi,xj)の右辺第6項は、xiとxj論理関係FVの尤度と、実際のxiとxjの関係ラベルが一致する時に小さくなり、そうでない時に大きくなる。すなわち、式(6)の確率が大きくなる。
上記ポテンシャル関数を用いて、あるノードxiのラベルがsのとき、そのラベル状態がどの程度安定かを計算する尺度、UnStablexi(s)を導入する。
Figure 0004871889
UnStablexq(s)が正の値のとき、より安定な(よりエネルギーの低い)ラベルが存在することを意味する。
次に、式(7)のポテンシャル関数を用いて、ラベルを決定するアルゴリズムについて説明する。
図2は、解候補探索(S36)の処理の概要を示すフローチャートである。
項目・データラベル初期化(S21)において、F(xi)もしくはV(xi)の値が最大のノードについて、Fv(Fh)あるいはVv(Vh)のラベルを設定する。それ以外のノードは、l0に初期化しておく。初期化に際しては、項目名単語辞書と言語パターン知識辞書を用いて尤度計算を行う。次に、ラベル安定度計算(S22)により、各ノードの安定度(式(10))を計算する。式(10)では、値が大きいほど不安定であることを表す。次に、グラフ探索順序初期化(S23)により、探索順序を決定する。グラフ上の探索は、UnStablexq(s)の大きい順に行う。探索順序は、ラベルが更新されるたびに、逐次変化する。探索順序を管理する方法として、priority queueの一種であるヒープ構造を用いることができる。ヒープ構造は、半順序集合をツリーで表現したデータ構造で、ノードの追加・削除を効率的に行うことができる。
次に、ラベル更新候補検出(S24)により、ラベル付けを行うノードxqを選択する。これは、ヒープ構造のルートノードを選択すればよい。次に、終了判定(S25)により、xqの不安定度UnStablexqq)が、閾値以上であれば終了し、そうでなければ、ラベル更新(S26)を実行する。次に、グラフ探索順序更新(S27)により、探索順序を更新する。探索順序の更新は、ヒープ構造からのノードの削除と追加で実現できる。
いま、xqがヒープ構造のルートノードであったとする。つまり、UnStablexk(s)が最大のノードがxqであったとする。このとき、xqのラベルを、sからtに変更したとする。すると、xqと、その4近傍のUnStablexk(s)の値が変わるため、ヒープ構造のルートノード及び近傍ノードを削除し、ラベル更新後のUnStablexk(s)の値に従い、ヒープにノードを追加する。
以上の探索方法により、項目らしさ、データらしさの尤度が高いセルから逐次ラベルを決定し、不安程度の高いノードのラベルを更新していくことで、項目名とデータの曖昧性を解消することができる。
本発明を用いた一般文書中の表の論理関係解析により、検索精度の向上や、リレーショナルデータベースへのデータ統合を効率化できる。また、帳票データ入力作業を効率化することができる。
表論理関係解析装置の構成例を示す図。 解候補探索のフロー図。 表論理関係解析の概要フロー図。 伝票の一例を示す図。 レイアウト知識辞書の例を示す図。 表形式データ及びその論理関係の説明図。 表の理関係を示す説明図。 表論理関係をXML表現で示した図。 表論理関係をセルのラベルで表現した図。 項目単語辞書と文字行の照合パターン例を示す図。 背景特徴を持つ表の例を示す図。 文字スタイル特徴を持つ表の例を示す図。 罫線太さ特徴を持つ表の例を示す図。 言語パターン知識辞書のエントリ例を示す図。 言語パターン知識辞書があてはまる表の例を示す図。 言語パターン知識辞書及びレイアウトパターンが当てはまる表の例を示す図。 レイアウト共起辞書の例を示す図。 言語共起辞書の例を示す図。 破線罫線を持つ表の例を示す図。 縞模様を持つ表の例を示す図。 表のセル構造により定義される近傍グラフの図。 表の例を示す図。
符号の説明
10 表論理関係解析装置
11 入力手段
12 表示装置
13 CPU
14 印刷装置
15 ワークエリア
16 情報保持手段
19 通信ネットワーク
110 入力装置
111 画像入力装置
151 OS
152 通信プログラム
153 認識プログラム
161 項目名単語辞書
162 レイアウトパターン知識辞書
163 言語パターン知識辞書
164 レイアウト共起辞書
165 言語共起辞書

Claims (7)

  1. 項目名の候補となる単語を記憶した項目名単語辞書と、
    文字列の言語パターンに基づき、文字列の項目らしさとデータらしさを数値化した情報を格納した言語パターン知識辞書と、
    文字列が含まれるセルのデザイン特徴に基づき、当該デザイン特徴を有するセルの項目らしさとデータらしさを数値化した情報を格納したレイアウトパターン知識辞書と、
    入力された表の論理関係を解析する表解析手段とを有し、
    前記表解析手段は、入力された表のセル内の文字列と前記項目名単語辞書との照合具合により項目名らしさを判定し、セルのデザイン特徴を前記レイアウトパターン知識辞書と照合して項目らしさあるいはデータらしさを判定し、セル内の言語パターンを前記言語パターン知識辞書と照合して項目らしさあるいはデータらしさを判定し、前記各判定を総合して表中の各セルが項目であるかデータであるかを判別することを特徴とする表構造解析装置。
  2. 請求項1に記載の表構造解析装置において、前記表解析手段は、入力された表のセル内の文字列と前記項目名単語辞書との照合パターンが完全一致であるか、部分一致であるか、境界一致であるかを考慮して項目らしさの数値を計算することを特徴とする表構造解析装置。
  3. 請求項2に記載の表構造解析装置において、前記表解析手段は、前記各判定で求められた項目らしさあるいはデータらしさを表す数値の積によって表中の各セルが項目であるかデータであるかを判別することを特徴とする表構造解析装置。
  4. 請求項1に記載の表構造解析装置において、
    物理的連接関係にあるセル同士のデザインの組合せに基づき、項目らしさとデータらしさを数値化した情報を格納したレイアウト共起辞書と、物理的連接関係にあるセル同士の言語共起に基づき、項目らしさとデータらしさを数値化した情報を格納した言語共起辞書を更に有し、
    前記表解析手段は、入力された表の物理的連接関係にあるセル同士のデザインの組合せを前記レイアウト共起辞書と照合して項目らしさあるいはデータらしさを判定し、入力された表の物理的連接関係にあるセル同士の言語共起を前記言語共起辞書に照合して項目らしさあるいはデータらしさを判定し、これらの判定をも総合して表中の各セルが項目であるかデータであるかを判別することを特徴とする表構造解析装置。
  5. 請求項4に記載の表構造解析装置において、前記レイアウト共起辞書は、縦又は横に連続するセルの背景色もしくはハッチングが途中で変化する場合に、上端又は左端の背景もしくはハッチングを持つセルの項目の尤度を高く設定していることを特徴とする表構造解析装置。
  6. 請求項4に記載の表構造解析装置において、
    前記言語共起辞書は、隣接文字列ペアがIs-A関係(上位・下位概念関係)の場合に項目−項目関係である尤度を高く設定し、Has-A関係(部分と全体の関係)に該当する場合に項目−データ関係である尤度を高く設定しており、
    前記レイアウト共起辞書は、隣接文字列ペアのレイアウトパターンが、変化している場合に項目−データ関係である尤度を高く設定し、同じ場合に項目−項目関係、データ−データ関係の尤度を高く設定していることを特徴とする表構造解析装置。
  7. 請求項4に記載の表構造解析装置において、前記表解析手段は、前記項目名単語辞書と言語パターン知識辞書とを用いた照合により項目名らしさとデータらしさを判定してセルの状態を項目かデータかに初期設定し、次に、前記レイアウト共起辞書と言語共起辞書を用いた照合によりセルの状態の尤度を定量化し、状態(項目名かデータか)を変更することで尤度が上昇する場合に別の状態に変更し、表中のどのセルの状態を変更しても、尤度が低下するか、尤度の上昇が低い場合を最終の状態とすることを特徴とする表構造解析装置。
JP2008009505A 2008-01-18 2008-01-18 表認識方法及び表認識装置 Expired - Fee Related JP4871889B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008009505A JP4871889B2 (ja) 2008-01-18 2008-01-18 表認識方法及び表認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008009505A JP4871889B2 (ja) 2008-01-18 2008-01-18 表認識方法及び表認識装置

Publications (2)

Publication Number Publication Date
JP2009169844A JP2009169844A (ja) 2009-07-30
JP4871889B2 true JP4871889B2 (ja) 2012-02-08

Family

ID=40970908

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008009505A Expired - Fee Related JP4871889B2 (ja) 2008-01-18 2008-01-18 表認識方法及び表認識装置

Country Status (1)

Country Link
JP (1) JP4871889B2 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5621169B2 (ja) * 2010-05-26 2014-11-05 日立オムロンターミナルソリューションズ株式会社 帳票認識装置および帳票認識方法
JP5653817B2 (ja) * 2011-03-29 2015-01-14 日立オムロンターミナルソリューションズ株式会社 帳票認識装置、帳票認識方法およびそのためのプログラム
JP5703191B2 (ja) * 2011-11-02 2015-04-15 株式会社日立製作所 文書認識支援装置、文書検索装置及び文書管理方法
JP2013105321A (ja) * 2011-11-14 2013-05-30 Hitachi Ltd 文書処理装置、文書構成要素間の関係解析方法およびプログラム
JP5775839B2 (ja) * 2012-03-14 2015-09-09 株式会社日立製作所 表構造解析装置及び表構造解析方法
JPWO2014068770A1 (ja) * 2012-11-02 2016-09-08 株式会社日立製作所 データ抽出方法、データ抽出装置及びそのプログラム
JPWO2014170965A1 (ja) * 2013-04-16 2017-02-16 株式会社日立製作所 文書処理方法、文書処理装置および文書処理プログラム
JP6390085B2 (ja) * 2013-10-03 2018-09-19 富士通株式会社 プログラム、情報処理装置、及び、情報処理方法
JP6174466B2 (ja) * 2013-11-22 2017-08-02 日立オムロンターミナルソリューションズ株式会社 帳票認識装置、帳票認識方法、及びプログラム
JP6406932B2 (ja) * 2014-08-29 2018-10-17 日立オムロンターミナルソリューションズ株式会社 帳票認識装置及び方法
JP6612680B2 (ja) * 2016-06-02 2019-11-27 日本電信電話株式会社 論理関係認識装置、論理関係認識方法および論理関係認識プログラム
JP6947971B2 (ja) * 2016-11-17 2021-10-13 キヤノンマーケティングジャパン株式会社 情報処理装置、制御方法、プログラム
JP2018092459A (ja) * 2016-12-06 2018-06-14 株式会社アイリックコーポレーション 画像分析装置、画像分析方法および画像分析プログラム
US10679049B2 (en) * 2017-09-29 2020-06-09 Konica Minolta Laboratory U.S.A., Inc. Identifying hand drawn tables
WO2019245016A1 (ja) * 2018-06-22 2019-12-26 株式会社ミラボ 標準項目名設定装置、標準項目名設定方法及び標準項目名設定プログラム
JP7041963B2 (ja) * 2018-06-22 2022-03-25 株式会社ミラボ 標準項目名設定装置、標準項目名設定方法及び標準項目名設定プログラム
US10846525B2 (en) 2019-02-15 2020-11-24 Wipro Limited Method and system for identifying cell region of table comprising cell borders from image document
CN111062259B (zh) * 2019-11-25 2023-08-25 泰康保险集团股份有限公司 表格识别方法和装置
CN113407717B (zh) * 2021-05-28 2022-12-20 数库(上海)科技有限公司 消除新闻中行业词歧义的方法、装置、设备和存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09319824A (ja) * 1996-05-30 1997-12-12 Hitachi Ltd 帳票認識方法
JP3190603B2 (ja) * 1997-09-05 2001-07-23 翼システム株式会社 文字読み取り装置、その読み取り方法および記録媒体
JP2000163441A (ja) * 1998-11-30 2000-06-16 Nippon Telegr & Teleph Corp <Ntt> 辞書作成方法及び装置及び辞書作成プログラムを格納した記憶媒体及び検索要求作成方法及び装置及び検索要求作成プログラムを格納した記憶媒体及び多言語対応情報検索システム
JP4566510B2 (ja) * 2002-12-20 2010-10-20 富士通株式会社 帳票認識装置および帳票認識方法
JP2006092207A (ja) * 2004-09-22 2006-04-06 Fuji Xerox Co Ltd 文書属性取得装置、文書属性取得方法および文書属性取得プログラム
JP4651488B2 (ja) * 2005-09-14 2011-03-16 川崎重工業株式会社 エンジンのジェネレータ冷却構造
JP2007233913A (ja) * 2006-03-03 2007-09-13 Fuji Xerox Co Ltd 画像処理装置及びプログラム

Also Published As

Publication number Publication date
JP2009169844A (ja) 2009-07-30

Similar Documents

Publication Publication Date Title
JP4871889B2 (ja) 表認識方法及び表認識装置
US11734328B2 (en) Artificial intelligence based corpus enrichment for knowledge population and query response
RU2613846C2 (ru) Метод и система извлечения данных из изображений слабоструктурированных документов
Sage et al. Recurrent neural network approach for table field extraction in business documents
CN112434691A (zh) 基于智能解析识别的hs编码匹配、展示方法、系统及存储介质
US11568666B2 (en) Method and system for human-vision-like scans of unstructured text data to detect information-of-interest
EP3948501A1 (en) Hierarchical machine learning architecture including master engine supported by distributed light-weight real-time edge engines
EP4141818A1 (en) Document digitization, transformation and validation
Tkaczyk New methods for metadata extraction from scientific literature
CN110287493B (zh) 风险短语识别方法、装置、电子设备及存储介质
Romero et al. Modern vs diplomatic transcripts for historical handwritten text recognition
Cheddad et al. SHIBR—The Swedish historical birth records: A semi-annotated dataset
CN117034948B (zh) 基于多特征自适应融合的段落识别方法、系统及存储介质
Belaid et al. Administrative document analysis and structure
US11868313B1 (en) Apparatus and method for generating an article
CN110188340B (zh) 一种研报文本实体名词自动识别方法
Gutehrlé et al. Processing the structure of documents: logical layout analysis of historical newspapers in French
Dejean Extracting structured data from unstructured document with incomplete resources
CN113254583B (zh) 一种基于语义向量的文档标记方法、装置及介质
CN112613318B (zh) 实体名称归一化系统及其方法、计算机可读介质
Kuropiatnyk et al. Automation of template formation to identify the structure of natural language documents
Souza et al. ARCTIC: metadata extraction from scientific papers in pdf using two-layer CRF
CN112395429A (zh) 基于图神经网络的hs编码判定、推送、应用方法、系统及存储介质
Gutehrlé et al. Logical Layout Analysis Applied to Historical Newspapers
Lamba et al. Exploring OCR Errors in Full-Text Large Documents: A Study of LIS Theses and Dissertations

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101111

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111006

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111025

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111121

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141125

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees