JP4940973B2 - 論理構造認識処理プログラム、論理構造認識処理方法および論理構造認識処理装置 - Google Patents
論理構造認識処理プログラム、論理構造認識処理方法および論理構造認識処理装置 Download PDFInfo
- Publication number
- JP4940973B2 JP4940973B2 JP2007024125A JP2007024125A JP4940973B2 JP 4940973 B2 JP4940973 B2 JP 4940973B2 JP 2007024125 A JP2007024125 A JP 2007024125A JP 2007024125 A JP2007024125 A JP 2007024125A JP 4940973 B2 JP4940973 B2 JP 4940973B2
- Authority
- JP
- Japan
- Prior art keywords
- template
- logical structure
- nodes
- node
- recognition processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
- Document Processing Apparatus (AREA)
- Character Discrimination (AREA)
Description
また、特許文献3では、マッチングアルゴリズムは深さ優先探索アルゴリズムで、モデルを表現しているグラフ構造におけるノードの対応をリンクにそって順に仮定していくため、レイアウト要素と構造モデルの対応がレイアウト要素から構造モデルへ全射でなければならないという条件があり、多様なレイアウトの文書を対象とするのが難しく、論理構造を認識する前のレイアウトや文字の認識失敗に大きく影響されるという問題がある。
本発明はこのような点に鑑みてなされたものであり、複雑なレイアウトを持つ文書の論理構造を高精度に認識する論理構造認識処理プログラム、論理構造認識処理方法および論理構造認識処理装置を提供することを目的とする。
本発明に係る論理構造認識処理プログラムは、種々の文書レイアウト入力に対し、整合性の高いテンプレートとそのマッチング結果である文書レイアウトに対する論理構造認識結果を出力するプログラムである。
テンプレート格納手段2は、互いの位置関係が定義づけられそれぞれ見出しまたはデータで構成された複数のノードを有するテンプレートを複数格納する。このテンプレートの各ノードは、それぞれ下位テンプレートを構成しており、下位テンプレートには、下位テンプレートを構成するノード間の位置関係が定義づけられている。
出力手段4は、得られた文字情報の各文字列に対し、テンプレート格納手段2に格納されたテンプレート毎に、テンプレートに含まれるノード単位で各文字列との一致を、そのノードによって構成される下位テンプレートの整合性を再帰的に検証することにより判断して文字情報との整合性を備えるテンプレートを検出し、検出されたテンプレートの各ノード間の位置関係が、得られたレイアウト構造を満たすか否かを判断し、位置関係を満たすテンプレートを、入力された文書レイアウトのテンプレートとして出力する。
まず、本発明の概要について説明し、その後、実施の形態を説明する。
図1は、本発明の概要を示す図である。
テンプレート格納手段2には、複数のテンプレートが格納されている。
また、各ノードは、それぞれが1つのテンプレート(下位のテンプレート)を構成しており、下位のテンプレートには、下位のテンプレートを構成するノード間の位置関係が定義づけられている。
認識情報取得手段3は、外部から入力される文書レイアウトのレイアウト構造を認識することによりそのレイアウト構造および文字情報を得る。
図2は、論理構造認識処理装置のハードウェア構成例を示す図である。
論理構造認識処理装置100は、入力される文書レイアウトに対し、予め用意された複数の論理構造テンプレート(テンプレート)を当てはめる論理構造認識処理を行うことによって、文書レイアウトに対する整合性の高いテンプレートを出力する装置である。
論理構造認識処理装置100は、テンプレート作成部110と、処理部120とを有している。
テンプレート作成部110は、論理構造テンプレート入力受付部111と、論理構造テンプレート格納部112とを有している。
図4に示す申込書200において、例えば名前登録部201のトピックとして、「お名前」、「ローマ字」等の文字列の集合を考えることができる。また、「お名前」、「ローマ字」それぞれについて、文字単位での集合を考えることができる。ここで、「トピック」とは、文字列の集合であり、意味的にあるまとまりをなすものであり、「文字列」とは、トピックを構成するものであり、「文字」とは文字列を構成するものである。
図5は、論理構造テンプレートの一例を示す図である。なお、図5では、説明を分かり易くするために、論理構造テンプレートを、文書レイアウト階層と対比して示している。
図5には、「全体」の論理構造テンプレートTe1と、「トピック」の論理構造テンプレートTe2と、「文字列」の論理構造テンプレートTe3とが図示されている。
図6に示す「トピック」の論理構造テンプレートTe2には、「名前」ノードに、それぞれ「名前」ノード、「お名前」ノード、「氏名」ノード、「ご氏名」ノードを備える可能テンプレートリストTe21を保持させておく。「ローマ字」ノードに、「ローマ字」ノードを備える可能テンプレートリストTe22を保持させておく。「自署」ノードに、それぞれ「自署」ノード、「本人自署」ノード、「ご本人自署」ノードを備える可能テンプレートリストTe23を保持させておく。
図7に示すように、「全体」の論理構造テンプレートTe1は、「トピックの個数」、「各トピックのデータ」、「トピック間の関係」の情報を有している。「トピック」の論理構造テンプレートTe2は、「文字列の個数」、「各文字列のデータ」、「文字列間の関係」の情報を有している。「文字列」の論理構造テンプレートは、「文字の個数」、「各文字のデータ」、および「文字間の関係」の情報を有している。「文字」の論理構造テンプレートは、コード(文字コード)を有している。
以下、論理構造テンプレート、または、ノードを実際のレイアウト上で実現したときの領域のことを、「実領域」と言う。ノードとノードとの関係は、ノードの実領域間の関係を表す。ノードに対する実矩形領域を、ノードを構成する文字集合がすべて、かつ、それらのみが一つのセル(cell)に属しているときはそのセルの領域とし、それ以外は、ノードを構成する文字集合の外接矩形と定義する。ノード間の関係は、ノードに対する実矩形領域間に対する、階層関係(h)、平行関係(p)、単語関係(w)、独立関係(d)の4つの関係で構成される。
図8は、階層関係を示す図である。なお、図8中、紙面上方向を「上」、紙面下方向を「下」、紙面左方向を「左」、紙面右方向を「右」、紙面の上下方向をY方向、紙面の左右方向をX方向という(図9および図10も同様)。
実矩形領域αと実矩形領域βとがともにセル領域のときは
・左にあり、かつ、Y方向へ射影したときに真に含む
・上にあり、かつ、X方向へ射影したときに真に含む
それ以外のときは、
・左にあり、かつ、Y方向へ射影したときに重複部分がある
・上にあり、かつ、X方向へ射影したときに重複部分がある
のいずれかが成り立つとき、階層関係(h)が成り立つとする。
図9は平行関係を示す図である。
ノードaに対する実矩形領域αがノードbに対する実矩形領域βに対し、
実矩形領域αと実矩形領域βとがともにセル領域のときは、
・左にあり、かつ、Y方向へ射影したときに一致する
・右にあり、かつ、Y方向へ射影したときに一致する
・上にあり、かつ、X方向へ射影したときに一致する
・下にあり、かつ、X方向へ射影したときに一致する
それ以外のときは、
・左にあり、かつ、Y方向へ射影したときに重複部分がある
・右にあり、かつ、Y方向へ射影したときに重複部分がある
・上にあり、かつ、X方向へ射影したときに重複部分がある
・下にあり、かつ、X方向へ射影したときに重複部分がある
のいずれかが成り立つとき、平行関係(p)が成り立つとする。
図10は、単語関係を示す図である。
ノードaに対する実矩形領域αがノードbに対する実矩形領域βに対し、
・左にあり、かつ、中心線がほぼ一致する
・右にあり、かつ、中心線がほぼ一致する
・上にあり、かつ、中心線がほぼ一致する
・下にあり、かつ、中心線がほぼ一致する
のいずれかが成り立つとき、単語関係(w)が成り立つとする。
ノードaに対する実矩形領域αがノードbに対する実矩形領域βに対し、重複しない関係が成り立つとき、独立関係(d)が成り立つとする。
処理部120は、文書レイアウト入力に対し、それらの構造を満たす箇所を作成された論理構造テンプレートを用いて検索し、得られる検索結果の整合性を取ることで、全体の論理構造を認識する。以下、文書レイアウトとして帳票を例にとって説明する。
処理部120は、レイアウト認識部121と、一文字領域仮説生成部122と、文字認識部123と、文字データ抽出部124と、論理構造認識処理部125とを有している。
図12は、一文字領域仮説生成部の機能を示す図である。
全体から、帳票の「表の個数」および「各表のデータ」を取得する。各表のデータは、それぞれ「座標」、「セルの個数」および「各セルのデータ」を有している。各セルのデータは、それぞれ「座標」、「テキストブロックの個数」および「各テキストブロックのデータ」を有している。各テキストブロックのデータは、それぞれ「座標」、「文字の個数」および「各文字のデータ」(文字データ)を有している。各文字データは、それぞれ「座標」および「コード」を有している。
文字データ抽出部124は、文書作成用エディタによって作成された電子文書に対し、ファイルからコードおよび座標を有する文字データを抽出する。
論理構造認識処理は、得られた文字データを、「全体」の論理構造テンプレートと順次マッチングさせ、最もマッチング率の高い論理構造テンプレートとのマッチング結果を論理構造認識結果とする処理である。文字データに対し、論理構造テンプレートをマッチングさせると、論理構造テンプレートに対する実領域とマッチングの度合を表すマッチング率が出力される。
次に、iがNより小さいか否かを判断する(ステップS2)。
iがN以上の場合(ステップS2のNo)、論理構造認識処理を終了する。
PtiがPtより小さい場合(ステップS4のNo)、ステップS6に移行する。
次に、iをインクリメントし(ステップS6)、ステップS2に移行する。
次に、マッチング処理について詳しく説明する。
論理構造認識処理部125は、完全グラフ化部125aと、グラフ生成部125bと、クリーク抽出部125cと、マッチング結果算出部125dとを有している。
完全グラフ化部125aは、論理構造テンプレートの各要素のうち、関係が明らかに定められていない関係について、自分以外のすべての要素との関係を明らかに定められた関係を用いて論理構造テンプレートを明確にする。論理構造テンプレートを明確にすることを完全グラフ化という。
図中、「名前」ノードと「データ#1」ノードおよび「データ#2」ノードとの関係が不明である。また、「自署」ノードと「データ#2」ノードとの関係が不明である。また、「ローマ字」ノードと「データ#1」ノードとの関係が不明である。よってこれらの関係を明確にする。
図17(a)に示すように、パスが接続された論理構造テンプレートTe2aが得られる。また、図17(b)に示すように、テンプレートテーブルTet2の空欄の階層関係が全て埋められ、完全グラフ化が行われたことが分かる。
グラフ生成部125bは、完全グラフ化が行われた論理構造テンプレートを構成する各ノードに対し、入力される文字データにおける実領域を検索してリストアップする(リストアップ処理)。そして、リストアップされた実領域に対し、論理構造テンプレート上で定められた関係を満たすかどうかを判定し、実領域間の整合性を表すグラフを生成する。
リストアップ処理では、各ノードについて、可能テンプレートリストに属する下位の論理構造テンプレートに対して再帰的に論理構造テンプレートのマッチングを行い、複数の実領域を候補として抽出する。
次に、iがNより小さいか否かを判断する(ステップS22)。
一方、iがNより小さい場合(ステップS22のYes)、可能テンプレートの個数に関するパラメータとして使用するkを初期化する(ステップS23)。
kがNTi以上の場合(ステップS24のNo)、iをインクリメントする(ステップS25)。その後、ステップS22に移行し、それ以降の処理を繰り返す。
次に、パラメータとして使用するmを初期化(=0)する(ステップS27)。
一方、mがNAkより小さい場合(ステップS28のYes)、ノードjを生成する(ステップS30)。
次に、mをインクリメントする(ステップS32)。その後、ステップS28に移行し、それ以降の処理を繰り返す。
図19および図20は、リストアップ処理の具体例を説明する図である。ここで、図19(a)および図20(a)は、それぞれ文書レイアウトを示す図であり、図19(b)および図20(b)は、それぞれ論理構造テンプレートにリストアップ処理を施す過程を示す図である。
グラフ生成部125bは、リストアップされた実領域に対し、論理構造テンプレート上で定められた関係を満たすかどうかを判定する。この判定は、実領域間の各文字データに含まれる座標の関係と、論理構造テンプレートのノード間の関係とを対比することにより行う。そして、関係を満たすと判定されたときはそれらに対応するノード間にパスを引き、満たさないと判断したときは何もしない。このようにして、実領域間の整合性を表すグラフg1を生成する。
クリーク抽出部125cは、生成されたグラフg1からクリーク(任意の二頂点間に枝があるような頂点集合の中で最大のもの)を抽出することで、論理構造テンプレートを満たす実領域の集合を抽出する。
クリーク抽出部125cは、斜線部に示す、グラフの極大完全部分グラフであるクリークCL1を抽出する。ここで、極大完全部分グラフとは、そのグラフをとったときに、自分以外のどの実領域に対しても線が引かれているグラフをいう。すなわち、クリークを構成する全ての実領域は、自分以外の実領域とパスで結ばれる。
マッチング結果算出部125dは、抽出されたクリークから(クリークは通常複数抽出される)、論理構造テンプレートを構成するノードの個数に対してある割合以上の個数を持つクリークを選択し、それらに対応するクリークとマッチング率(クリークのノードの個数/論理構造テンプレートを構成するノードの個数)をマッチング結果として算出する。図22に示すクリークCL1の場合、元々5つのノードのうち、「自署」ノード以外の4つのノードとの対応がとれたことになる。さらに、マッチング結果算出部125dは、対応のとれたノードについて、下の階層の文字階層におけるマッチングのマッチング率を計算する。例えば、帳票画像の文字データが、A1「お名前」、B「ご木人自署」、C1「ローマ字」、D「Taro Yamada」であったとき、クリークCL1と論理構造テンプレートTe2とを比較すると、Bのみ1文字(本→木)誤っており、A、C1、Dが100%、Bが80%(4文字/5文字)のマッチング率となる。その結果、図22に示すクリークCL1の論理構造テンプレートTe2に対するマッチング率は(1+0.8+1+0+1)/5=0.76となる。
また、完全グラフ化部125aが、論理構造テンプレートの完全グラフ化を行うことにより、マッチングを行う問題を、グラフからクリークを抽出する問題に変換し、グラフ生成部125bが生成したグラフからクリーク抽出部125cがクリークを抽出し、マッチング結果算出部125dが、抽出したクリークマッチング結果を算出するようにしたので、レイアウト認識や、文字認識の失敗に影響されずに帳票文書の論理構造を認識することができる。
なお、上記の処理機能は、コンピュータによって実現することができる。その場合、論理構造認識処理装置100が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等が挙げられる。磁気記録装置としては、例えば、ハードディスク装置(HDD)、フレキシブルディスク(FD)、磁気テープ等が挙げられる。光ディスクとしては、例えば、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等が挙げられる。光磁気記録媒体としては、例えば、MO(Magneto-Optical disk)等が挙げられる。
互いの位置関係が定義づけられそれぞれ見出しまたはデータで構成された複数のノードを有するテンプレートであって、前記テンプレートの各ノードは、それぞれ下位テンプレートを構成しており、前記下位テンプレートには、前記下位テンプレートを構成するノード間の位置関係が定義づけられている前記テンプレートを複数格納するテンプレート格納手段、
外部から入力される文書レイアウトのレイアウト構造を認識することによりそのレイアウト構造および文字情報を得る認識情報取得手段、
得られた前記文字情報の各文字列に対し、前記テンプレート格納手段に格納された前記テンプレート毎に、前記テンプレートに含まれる前記ノード単位で前記各文字列との一致を、そのノードによって構成される前記下位テンプレートの整合性を再帰的に検証することにより判断して前記文字情報との整合性を備える前記テンプレートを検出し、検出された前記テンプレートの前記各ノード間の位置関係が、得られたレイアウト構造を満たすか否かを判断し、位置関係を満たす前記テンプレートを、入力された前記文書レイアウトのテンプレートとして出力する出力手段、
として機能させることを特徴とする論理構造認識処理プログラム。
(付記3) 前記出力手段は、得られた前記文字情報の各文字列に対し、前記テンプレート格納手段に格納された最上位のテンプレート毎に、該テンプレートに含まれる前記ノード単位で前記各文字列との一致を判断することを特徴とする付記1記載の論理構造認識処理プログラム。
前記出力手段は、各ノードについて、前記可能テンプレートリストに格納された前記下位テンプレートに対し、再帰的に整合性を検証することを特徴とする付記1記載の論理構造認識処理プログラム。
前記テンプレートにおいて互いの位置関係が直接定義づけられていない2つのノードが存在する場合、間接的に定義づけられた互いの位置関係を利用して前記2つのノードの直接的な位置関係を決定する決定手段と、
前記テンプレートにおける前記見出しまたは前記データを頼りに得られた前記文字情報の各文字列に一致する前記ノードを抽出し、抽出した前記ノードを互いにパスで結んだグラフを生成するグラフ生成手段と、
生成された前記グラフから、クリークを抽出するクリーク抽出手段と、
抽出された前記クリークが複数存在する場合、前記テンプレートにおける前記ノードの個数に対する前記クリークのノードの個数の割合が最も大きい組み合わせを前記文書レイアウトのテンプレートとして出力するマッチング結果算出手段と、
を有することを特徴とする付記1記載の論理構造認識処理プログラム。
テンプレート格納手段が、互いの位置関係が定義づけられそれぞれ見出しまたはデータで構成された複数のノードを有するテンプレートであって、前記テンプレートの各ノードは、それぞれ下位テンプレートを構成しており、前記下位テンプレートには、前記下位テンプレートを構成するノード間の位置関係が定義づけられている前記テンプレートを複数格納し、
認識情報取得手段が、外部から入力される文書レイアウトのレイアウト構造を認識することによりそのレイアウト構造および文字情報を取得し、
出力手段が、得られた前記文字情報の各文字列に対し、前記テンプレート格納手段に格納された前記テンプレート毎に、前記テンプレートに含まれる前記ノード単位で前記各文字列との一致を、そのノードによって構成される前記下位テンプレートの整合性を再帰的に検証することにより判断して前記文字情報との整合性を備える前記テンプレートを検出し、検出された前記テンプレートの前記各ノード間の位置関係が、得られたレイアウト構造を満たすか否かを判断し、位置関係を満たす前記テンプレートを、入力された前記文書レイアウトのテンプレートとして出力する、
ことを特徴とする論理構造認識処理方法。
(付記9) 前記出力手段は、得られた前記文字情報の各文字列に対し、前記テンプレート格納手段に格納された最上位のテンプレート毎に、該テンプレートに含まれる前記ノード単位で前記各文字列との一致を判断することを特徴とする付記7記載の論理構造認識処理方法。
前記出力手段は、各ノードについて、前記可能テンプレートリストに格納された前記下位テンプレートに対し、再帰的に整合性を検証することを特徴とする付記7記載の論理構造認識処理方法。
前記テンプレートにおいて互いの位置関係が直接定義づけられていない2つのノードが存在する場合、間接的に定義づけられた互いの位置関係を利用して前記2つのノードの直接的な位置関係を決定する決定手段と、
前記テンプレートにおける前記見出しまたは前記データを頼りに得られた前記文字情報の各文字列に一致する前記ノードを抽出し、抽出した前記ノードを互いにパスで結んだグラフを生成するグラフ生成手段と、
生成された前記グラフから、クリークを抽出するクリーク抽出手段と、
抽出された前記クリークが複数存在する場合、前記テンプレートにおける前記ノードの個数に対する前記クリークのノードの個数の割合が最も大きい組み合わせを前記文書レイアウトのテンプレートとして出力するマッチング結果算出手段と、
を有することを特徴とする付記7記載の論理構造認識処理方法。
互いの位置関係が定義づけられそれぞれ見出しまたはデータで構成された複数のノードを有するテンプレートであって、前記テンプレートの各ノードは、それぞれ下位テンプレートを構成しており、前記下位テンプレートには、前記下位テンプレートを構成するノード間の位置関係が定義づけられている前記テンプレートを複数格納するテンプレート格納手段と、
外部から入力される文書レイアウトのレイアウト構造を認識することによりそのレイアウト構造および文字情報を得る認識情報取得手段と、
得られた前記文字情報の各文字列に対し、前記テンプレート格納手段に格納された前記テンプレート毎に、前記テンプレートに含まれる前記ノード単位で前記各文字列との一致を、そのノードによって構成される前記下位テンプレートの整合性を再帰的に検証することにより判断して前記文字情報との整合性を備える前記テンプレートを検出し、検出された前記テンプレートの前記各ノード間の位置関係が、得られたレイアウト構造を満たすか否かを判断し、位置関係を満たす前記テンプレートを、入力された前記文書レイアウトのテンプレートとして出力する出力手段と、
を有することを特徴とする論理構造認識処理装置。
(付記15) 前記出力手段は、得られた前記文字情報の各文字列に対し、前記テンプレート格納手段に格納された最上位のテンプレート毎に、該テンプレートに含まれる前記ノード単位で前記各文字列との一致を判断することを特徴とする付記13記載の論理構造認識処理装置。
前記出力手段は、各ノードについて、前記可能テンプレートリストに格納された前記下位テンプレートに対し、再帰的に整合性を検証することを特徴とする付記13記載の論理構造認識処理装置。
前記テンプレートにおいて互いの位置関係が直接定義づけられていない2つのノードが存在する場合、間接的に定義づけられた互いの位置関係を利用して前記2つのノードの直接的な位置関係を決定する決定手段と、
前記テンプレートにおける前記見出しまたは前記データを頼りに得られた前記文字情報の各文字列に一致する前記ノードを抽出し、抽出した前記ノードを互いにパスで結んだグラフを生成するグラフ生成手段と、
生成された前記グラフから、クリークを抽出するクリーク抽出手段と、
抽出された前記クリークが複数存在する場合、前記テンプレートにおける前記ノードの個数に対する前記クリークのノードの個数の割合が最も大きい組み合わせを前記文書レイアウトのテンプレートとして出力するマッチング結果算出手段と、
を有することを特徴とする付記13記載の論理構造認識処理装置。
2 テンプレート格納手段
3 認識情報取得手段
4 出力手段
100 論理構造認識処理装置
110 テンプレート作成部
111 論理構造テンプレート入力受付部
112 論理構造テンプレート格納部
120 処理部
121 レイアウト認識部
122 一文字領域仮説生成部
123 文字認識部
124 文字データ抽出部
125 論理構造認識処理部
125a 完全グラフ化部
125b グラフ生成部
125c クリーク抽出部
125d マッチング結果算出部
α、β 実矩形領域
a1、a2、a3、a4、A1、A2、B、C1、C2、D、P、Q、R 実領域
CL1 クリーク
g1 グラフ
Tet2 テンプレートテーブル
T1、T2、T3 テンプレート
Te1、Te2、Te3 論理構造テンプレート
Te21、Te22、Te23 可能テンプレートリスト
Claims (6)
- 種々の文書レイアウト入力に対し、整合性の高いテンプレートを出力する論理構造認識処理プログラムにおいて、
コンピュータを、
互いの位置関係が定義づけられそれぞれ見出しまたはデータで構成された複数のノードを有するテンプレートであって、前記テンプレートの各ノードは、それぞれ下位テンプレートを構成しており、前記下位テンプレートには、前記下位テンプレートを構成するノード間の位置関係が定義づけられている前記テンプレートを複数格納するテンプレート格納手段、
外部から入力される文書レイアウトのレイアウト構造を認識することによりそのレイアウト構造および文字情報を得る認識情報取得手段、
得られた前記文字情報の各文字列に対し、前記テンプレート格納手段に格納された前記テンプレート毎に、前記テンプレートに含まれる前記ノード単位で前記各文字列との一致を、そのノードによって構成される前記下位テンプレートの整合性を再帰的に検証することにより判断して前記文字情報との整合性を備える前記テンプレートを検出し、検出された前記テンプレートの前記各ノード間の位置関係が、得られたレイアウト構造を満たすか否かを判断し、位置関係を満たす前記テンプレートを、入力された前記文書レイアウトのテンプレートとして出力する出力手段、
として機能させることを特徴とする論理構造認識処理プログラム。 - 前記見出しで構成された前記各ノードは、それぞれ該各ノードと同一又は類似の関係を示す前記下位テンプレートが格納された可能テンプレートリストを備えており、
前記出力手段は、各ノードについて、前記可能テンプレートリストに格納された前記下位テンプレートに対し、再帰的に整合性を検証することを特徴とする請求項1記載の論理構造認識処理プログラム。 - 前記出力手段は、
前記テンプレートにおいて互いの位置関係が直接定義づけられていない2つのノードが存在する場合、間接的に定義づけられた互いの位置関係を利用して前記2つのノードの直接的な位置関係を決定する決定手段と、
前記テンプレートにおける前記見出しまたは前記データを頼りに得られた前記文字情報の各文字列に一致する前記ノードを抽出し、抽出した前記ノードを互いにパスで結んだグラフを生成するグラフ生成手段と、
生成された前記グラフから、クリークを抽出するクリーク抽出手段と、
抽出された前記クリークが複数存在する場合、前記テンプレートにおける前記ノードの個数に対する前記クリークのノードの個数の割合が最も大きい組み合わせを前記文書レイアウトのテンプレートとして出力するマッチング結果算出手段と、
を有することを特徴とする請求項1記載の論理構造認識処理プログラム。 - 前記認識情報取得手段は、入力される前記文書レイアウトから、文字を構成する可能性のあるパターンの組合せを、垂直方向および水平方向の両方向の重複を許しながら多重に生成し、それぞれを文字認識して前記文字情報を得ることを特徴とする請求項1記載の論理構造認識処理プログラム。
- 種々の文書レイアウト入力に対し、整合性の高いテンプレートを出力する論理構造認識処理方法において、
テンプレート格納手段が、互いの位置関係が定義づけられそれぞれ見出しまたはデータで構成された複数のノードを有するテンプレートであって、前記テンプレートの各ノードは、それぞれ下位テンプレートを構成しており、前記下位テンプレートには、前記下位テンプレートを構成するノード間の位置関係が定義づけられている前記テンプレートを複数格納し、
認識情報取得手段が、外部から入力される文書レイアウトのレイアウト構造を認識することによりそのレイアウト構造および文字情報を取得し、
出力手段が、得られた前記文字情報の各文字列に対し、前記テンプレート格納手段に格納された前記テンプレート毎に、前記テンプレートに含まれる前記ノード単位で前記各文字列との一致を、そのノードによって構成される前記下位テンプレートの整合性を再帰的に検証することにより判断して前記文字情報との整合性を備える前記テンプレートを検出し、検出された前記テンプレートの前記各ノード間の位置関係が、得られたレイアウト構造を満たすか否かを判断し、位置関係を満たす前記テンプレートを、入力された前記文書レイアウトのテンプレートとして出力する、
ことを特徴とする論理構造認識処理方法。 - 種々の文書レイアウト入力に対し、整合性の高いテンプレートを出力する論理構造認識処理装置において、
互いの位置関係が定義づけられそれぞれ見出しまたはデータで構成された複数のノードを有するテンプレートであって、前記テンプレートの各ノードは、それぞれ下位テンプレートを構成しており、前記下位テンプレートには、前記下位テンプレートを構成するノード間の位置関係が定義づけられている前記テンプレートを複数格納するテンプレート格納手段と、
外部から入力される文書レイアウトのレイアウト構造を認識することによりそのレイアウト構造および文字情報を得る認識情報取得手段と、
得られた前記文字情報の各文字列に対し、前記テンプレート格納手段に格納された前記テンプレート毎に、前記テンプレートに含まれる前記ノード単位で前記各文字列との一致を、そのノードによって構成される前記下位テンプレートの整合性を再帰的に検証することにより判断して前記文字情報との整合性を備える前記テンプレートを検出し、検出された前記テンプレートの前記各ノード間の位置関係が、得られたレイアウト構造を満たすか否かを判断し、位置関係を満たす前記テンプレートを、入力された前記文書レイアウトのテンプレートとして出力する出力手段と、
を有することを特徴とする論理構造認識処理装置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007024125A JP4940973B2 (ja) | 2007-02-02 | 2007-02-02 | 論理構造認識処理プログラム、論理構造認識処理方法および論理構造認識処理装置 |
US12/005,527 US8224090B2 (en) | 2007-02-02 | 2007-12-27 | Apparatus and method for analyzing and determining correlation of information in a document |
CN200810004819XA CN101236609B (zh) | 2007-02-02 | 2008-02-02 | 用于分析并确定文档中信息的相关性的装置和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007024125A JP4940973B2 (ja) | 2007-02-02 | 2007-02-02 | 論理構造認識処理プログラム、論理構造認識処理方法および論理構造認識処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008191833A JP2008191833A (ja) | 2008-08-21 |
JP4940973B2 true JP4940973B2 (ja) | 2012-05-30 |
Family
ID=39676233
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007024125A Expired - Fee Related JP4940973B2 (ja) | 2007-02-02 | 2007-02-02 | 論理構造認識処理プログラム、論理構造認識処理方法および論理構造認識処理装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8224090B2 (ja) |
JP (1) | JP4940973B2 (ja) |
CN (1) | CN101236609B (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4940973B2 (ja) * | 2007-02-02 | 2012-05-30 | 富士通株式会社 | 論理構造認識処理プログラム、論理構造認識処理方法および論理構造認識処理装置 |
WO2013153556A2 (en) * | 2012-03-16 | 2013-10-17 | N Sringeri OMPRAKASH | Document analysis system |
JP2013254339A (ja) * | 2012-06-06 | 2013-12-19 | Toyota Motor Corp | 言語関係判別装置、言語関係判別プログラム、言語関係判別方法 |
JP5831420B2 (ja) * | 2012-09-28 | 2015-12-09 | オムロン株式会社 | 画像処理装置および画像処理方法 |
US9600461B2 (en) * | 2013-07-01 | 2017-03-21 | International Business Machines Corporation | Discovering relationships in tabular data |
CN104809143B (zh) * | 2014-01-29 | 2019-05-28 | 西门子公司 | 用于将表格信息植入信息库的方法和装置 |
CN105205087B (zh) * | 2014-06-30 | 2019-11-05 | 中兴通讯股份有限公司 | 一种对大数据的数据分析结果进行处理的方法和装置 |
CN107004208A (zh) * | 2014-08-27 | 2017-08-01 | 麦修斯资源有限公司 | 媒体产生系统及其执行方法 |
CN107977475A (zh) * | 2014-12-24 | 2018-05-01 | 北京奇虎科技有限公司 | 数据库内置数据的处理方法及装置 |
CN107463868B (zh) * | 2016-06-02 | 2021-02-23 | 阿里巴巴集团控股有限公司 | 一种电子表单核验方法及装置 |
US10438098B2 (en) * | 2017-05-19 | 2019-10-08 | Hand Held Products, Inc. | High-speed OCR decode using depleted centerlines |
JP6889623B2 (ja) * | 2017-06-22 | 2021-06-18 | シャープ株式会社 | 画像形成装置 |
US10885323B2 (en) * | 2019-02-28 | 2021-01-05 | International Business Machines Corporation | Digital image-based document digitization using a graph model |
CN111832396B (zh) | 2020-06-01 | 2023-07-25 | 北京百度网讯科技有限公司 | 文档布局的解析方法、装置、电子设备和存储介质 |
JP7385075B1 (ja) * | 2023-06-28 | 2023-11-21 | 株式会社朝日新聞社 | 情報処理装置、情報処理方法、及びプログラム |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05159101A (ja) * | 1991-11-01 | 1993-06-25 | Fuji Xerox Co Ltd | 文書論理構造認識および文書内容認識のための装置および方法 |
JP2579397B2 (ja) * | 1991-12-18 | 1997-02-05 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 文書画像のレイアウトモデルを作成する方法及び装置 |
US5787414A (en) * | 1993-06-03 | 1998-07-28 | Kabushiki Kaisha Toshiba | Data retrieval system using secondary information of primary data to be retrieved as retrieval key |
JPH096784A (ja) * | 1995-06-22 | 1997-01-10 | Fuji Xerox Co Ltd | 文書型の同定装置 |
US6562077B2 (en) * | 1997-11-14 | 2003-05-13 | Xerox Corporation | Sorting image segments into clusters based on a distance measurement |
US5953724A (en) * | 1997-11-24 | 1999-09-14 | Lowry Software, Incorporated | Global database library data structure for hierarchical graphical listing computer software |
DE50009493D1 (de) * | 2000-10-26 | 2005-03-17 | Mathias Wettstein | Verfahren zur Erfassung des vollständigen Datensatzes mit Schriftzeichen versehener Formulare |
US20020107885A1 (en) * | 2001-02-01 | 2002-08-08 | Advanced Digital Systems, Inc. | System, computer program product, and method for capturing and processing form data |
US20040013302A1 (en) * | 2001-12-04 | 2004-01-22 | Yue Ma | Document classification and labeling using layout graph matching |
JP2004139484A (ja) * | 2002-10-21 | 2004-05-13 | Hitachi Ltd | 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム |
JP4442136B2 (ja) * | 2003-07-28 | 2010-03-31 | 株式会社日立製作所 | 文字認識方法および装置 |
ATE530992T1 (de) * | 2003-08-21 | 2011-11-15 | Microsoft Corp | Elektronische tintenverarbeitung |
US20050120296A1 (en) * | 2003-12-01 | 2005-06-02 | Zeuli Bruce W. | Method and apparatus for processing image data |
JP4347677B2 (ja) * | 2003-12-08 | 2009-10-21 | 富士フイルム株式会社 | 帳票ocrプログラム、方法及び装置 |
JP2005275830A (ja) * | 2004-03-25 | 2005-10-06 | Hitachi Computer Peripherals Co Ltd | 帳票認識方法 |
JP2006134106A (ja) | 2004-11-05 | 2006-05-25 | Hammock:Kk | 帳票認識システム、帳票認識方法及びコンピュータプログラム |
US20060136810A1 (en) * | 2004-12-22 | 2006-06-22 | Sap Aktiengesellschaft | Electronic form generator |
US7639876B2 (en) * | 2005-01-14 | 2009-12-29 | Advanced Digital Systems, Inc. | System and method for associating handwritten information with one or more objects |
KR20060086742A (ko) | 2005-01-27 | 2006-08-01 | 비오이 하이디스 테크놀로지 주식회사 | 멀티 셀 갭 프린지 필드 스위칭 모드 액정표시장치 |
EP1854048A1 (en) * | 2005-02-28 | 2007-11-14 | ZI Decuma AB | Recognition graph |
US7549830B2 (en) | 2005-04-15 | 2009-06-23 | Illinois Tool Works Inc. | Serviceable w-base fastener |
US7392473B2 (en) * | 2005-05-26 | 2008-06-24 | Xerox Corporation | Method and apparatus for determining logical document structure |
US7853871B2 (en) * | 2005-06-10 | 2010-12-14 | Nokia Corporation | System and method for identifying segments in a web resource |
JP4848221B2 (ja) | 2006-07-31 | 2011-12-28 | 富士通株式会社 | 帳票処理プログラム、該プログラムを記録した記録媒体、帳票処理装置、および帳票処理方法 |
US7522176B2 (en) * | 2006-11-14 | 2009-04-21 | Microsoft Corporation | Dynamically generating mini-graphs to represent style and template icons |
US8209605B2 (en) * | 2006-12-13 | 2012-06-26 | Pado Metaware Ab | Method and system for facilitating the examination of documents |
JP4940973B2 (ja) * | 2007-02-02 | 2012-05-30 | 富士通株式会社 | 論理構造認識処理プログラム、論理構造認識処理方法および論理構造認識処理装置 |
-
2007
- 2007-02-02 JP JP2007024125A patent/JP4940973B2/ja not_active Expired - Fee Related
- 2007-12-27 US US12/005,527 patent/US8224090B2/en not_active Expired - Fee Related
-
2008
- 2008-02-02 CN CN200810004819XA patent/CN101236609B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008191833A (ja) | 2008-08-21 |
CN101236609B (zh) | 2012-09-05 |
US8224090B2 (en) | 2012-07-17 |
US20080187240A1 (en) | 2008-08-07 |
CN101236609A (zh) | 2008-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4940973B2 (ja) | 論理構造認識処理プログラム、論理構造認識処理方法および論理構造認識処理装置 | |
JP4443443B2 (ja) | 文書画像レイアウト解析プログラム、文書画像レイアウト解析装置、および文書画像レイアウト解析方法 | |
RU2610241C2 (ru) | Способ и система синтеза текста на основе извлеченной информации в виде rdf-графа с использованием шаблонов | |
JP5071373B2 (ja) | 言語処理装置、言語処理方法および言語処理用プログラム | |
JP2006252428A (ja) | マルチリンガル翻訳メモリ、翻訳方法および翻訳プログラム | |
JP2021504781A (ja) | ブロックに基づく文書メタデータの抽出のための方法、コンピュータ・プログラム及びシステム | |
JPWO2007080642A1 (ja) | 帳票処理プログラムおよび帳票処理装置 | |
US20220414463A1 (en) | Automated troubleshooter | |
Rhee et al. | Efficient search strategy in structural analysis for handwritten mathematical expression recognition | |
JP2013105321A (ja) | 文書処理装置、文書構成要素間の関係解析方法およびプログラム | |
US7046847B2 (en) | Document processing method, system and medium | |
US20210103699A1 (en) | Data extraction method and data extraction device | |
CN112784009A (zh) | 一种主题词挖掘方法、装置、电子设备及存储介质 | |
KR101709693B1 (ko) | 크라우드 소싱을 이용한 웹툰 언어 자동 번역 방법 | |
Pecina | In search of a dataset for handwritten optical music recognition: Introducing MUSCIMA++ | |
CN111027312B (zh) | 文本扩充方法、装置、电子设备及可读存储介质 | |
KR101265928B1 (ko) | 논리 구조 및 레이아웃 기반의 오프라인 문자 인식을 위한방법, 시스템, 및 장치 판독 가능 매체 | |
Villegas et al. | Exploiting existing modern transcripts for historical handwritten text recognition | |
JP2009015395A (ja) | 辞書構築支援装置および辞書構築支援プログラム | |
US20220284188A1 (en) | Machine based expansion of contractions in text in digital media | |
US20230351112A1 (en) | Meaning representation analyzing system and meaning representation analyzing method | |
CN114970543A (zh) | 一种众包设计资源的语义分析方法 | |
CN104866607B (zh) | 一种东巴文释读数据库建立方法 | |
JP5172308B2 (ja) | テキスト整形規則獲得装置、構造判定装置、それらのプログラム | |
CN112651246B (zh) | 融合深度学习和工作流模式的服务需求冲突检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091016 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110526 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110607 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110805 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120131 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120213 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150309 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |