JP4476318B2 - 論理構造認識プログラム、論理構造認識装置、および論理構造認識方法 - Google Patents
論理構造認識プログラム、論理構造認識装置、および論理構造認識方法 Download PDFInfo
- Publication number
- JP4476318B2 JP4476318B2 JP2007283916A JP2007283916A JP4476318B2 JP 4476318 B2 JP4476318 B2 JP 4476318B2 JP 2007283916 A JP2007283916 A JP 2007283916A JP 2007283916 A JP2007283916 A JP 2007283916A JP 4476318 B2 JP4476318 B2 JP 4476318B2
- Authority
- JP
- Japan
- Prior art keywords
- heading
- candidate
- data
- word
- item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
Description
図1は、論理構造認識対象の一例(帳票)を示す説明図である。(A)において、帳票100はマトリクス状の論理構造を持ち、各セルの中には文字列が記述されている。文字列には、見出し項目として、旅費、設備費、消耗品費などの品目と、17年度〜19年度などの年度がある。これらを総称して文字情報と称す。そして、ある品目とある年度が交差する領域に記述されている値が、その品目についてのその年度の値であると特定される。たとえば、17年度の旅費のデータは、100,000(円)である。
図2は、帳票100の文字情報を示す説明図である。文字情報は、帳票100の読み取り結果をあらわしており、文字番号、文字コード、座標、およびセル番号を有する。文字番号とは、“1”から昇順に割り振られる固有の番号である。
つぎに、共通論理構造DBの記憶内容について説明する。図3−1〜図3−4は、共通論理構造DBの記憶内容を示す説明図である。図3−1および図3−2は、見出し項目に関する論理要素(以下、「見出し論理要素」という)を示すテーブルであり、図3−3および図3−4は、データに関する論理要素(以下、「データ論理要素」という)を示すテーブルである。
図4−1〜図4−3は、図1に示した帳票100からの単語候補抽出結果を示す説明図である。図4−1は、論理要素グループG1:品目に関する単語候補抽出結果401である。図4−2は、論理要素グループG2:年度に関する単語候補抽出結果402である。図4−3は、論理要素グループG3:データに関する単語候補抽出結果403である。
つぎに、論理構造認識装置の機能的構成について説明する。図5は、論理構造認識装置500の機能的構成を示すブロック図である。図5において、論理構造認識装置500は、単語候補抽出部501と、見出し論理要素グループ数検出部502と、一見出し・一データ組候補生成部503と、多見出し・一データ組候補生成部504と、確定組除去部505と、見出し単語候補評価部506と、データ単語候補評価部507と、出力部508と、を備えている。
つぎに、論理構造認識処理手順について説明する。図6は、論理構造認識処理手順を示すフローチャートである。図6において、帳票100を読み込んで(ステップS601)、文字情報(図2を参照)とレイアウト情報101に分解し、単語候補抽出部501により図4−1〜図4−3に示したような単語候補抽出結果を得る(ステップS602)。つぎに、見出し論理要素数検出部502により、帳票100の見出し論理要素数Nmaxを検出する(ステップS603)。
まず、一見出し・一データ組候補生成部503について説明する。図7は、二つ組候補の生成内容を示す説明図である。二つ組候補とは、ある見出し項目と、その見出し項目により特定される可能性があるデータとの組み合わせである。帳票100の見出し項目は、その下方向、右方向、右下方向に位置するデータと対応関係がある。ここでは、見出し項目に対してその下方向、右方向または右下方向の位置を指定領域と称す。したがって、見出し項目ごとに指定領域が異なる。この見出し項目とその指定領域に位置するデータが二つ組候補を構成する。
つぎに、多見出し・一データ組候補生成部504について説明する。図9は、(N+1)つ組候補の生成内容を示す説明図である。(N+1)つ組候補とは、複数種の見出し項目と、それらの見出し項目により特定される可能性があるデータとの組み合わせである。帳票100の見出し項目は、その下方向、右方向、右下方向に位置するデータと対応関係がある。ここでは、複数種の見出し項目の下方向、右方向または右下方向の重複する位置を指定領域と称す。
・HN(n,*):n番目のNつ組候補の*番目の見出し単語候補
・DN(n):n番目のNつ組候補のデータ単語候補
・GHN(n,*):HN(n,*)の*番目の論理要素グループ番号
・EHN(n,*):HN(n,*)の*番目の論理要素番号
・GDN(n):DN(n)の論理要素グループ番号
・EDN(n):DN(n)の論理要素番号
・H2(m):m番目の二つ組候補の見出し論理要素の単語候補
・D2(m):m番目の二つ組候補のデータ論理要素の単語候補
・GH2(m):H2(m)の論理要素グループ番号
・EH2(m):H2(m)の論理要素番号
・GD2(m):D2(m)の論理要素グループ番号
・ED2(m):D2(m)の論理要素番号
つぎに、確定組除去部505について説明する。図13および図14は、(N+1)つ組候補の確定組除去内容を示す説明図である。(N+1)つ組候補生成部によって生成された(N+1)つ組候補群には、候補が確定できているものとできていないものが存在する。これを、候補が確定できるものから決定し、決定された(N+1)つ組候補を(N+1)つ組候補群から除去することで、再帰的に複数の見出しに対応するデータを決定する。
図23では、同一のデータ単語候補“5,000”に対して見出し単語候補として“18年度”および“消耗品費”を選択した場合の三つ組候補を示している。(A)は、17年度の行の"消耗品費"を選択した場合の三つ組候補2301を示しており、(B)は、18年度の行の“消耗品費”を選択した場合の三つ組候補2302を示している。
つぎに、図5に示したデータ単語候補評価部507の詳細説明をする。図28は、帳票の別の例を示す説明図である。(A)に示すように、帳票2800の見出し項目(“旅費”、“設備費”)やデータ(“100,000”、“400,000”)には、2段併記されている箇所が含まれている。人間が見ると、旅費が100,000(円)であり、設備費が400,000(円)であることが直感的に分かるが、この論理構造を上述したように認識する場合、一意に特定することができない。
図37は、本実施の形態にかかる論理構造認識装置のハードウェア構成を示す説明図である。図37において、論理構造認識装置500は、コンピュータ本体3710と、入力装置3720と、出力装置3730と、から構成されており、不図示のルータやモデムを介してLAN,WANやインターネットなどのネットワーク3740に接続可能である。
帳票に記述されている文字列の中から単語候補を抽出する単語候補抽出手段、
前記単語候補抽出手段によって抽出された単語候補を前記帳票の見出しを構成する見出し単語候補群と前記帳票のデータを構成するデータ単語候補群に分け、前記単語候補の前記帳票上の位置に基づいて、前記見出し単語候補群の中から選ばれた一の見出し単語候補と当該一の見出し単語候補により特定される可能性がある前記データ単語候補群の中の一のデータ単語候補とからなる一見出し・一データ組候補を生成する一見出し・一データ組候補生成手段、
前記一見出し・一データ組候補生成手段によって生成された一見出し・一データ組候補を、種類が異なる見出し単語候補どうしで組み合わせることにより、複数種類の見出し単語候補および一のデータ単語候補とからなる多見出し・一データ組候補を生成する多見出し・一データ組候補生成手段、
前記多見出し・一データ組候補生成手段によって生成された多見出し・一データ組候補を構成する見出し単語候補とデータ単語候補の前記帳票上の位置に基づいて、前記多見出し・一データ組候補の中から、前記データごとに、前記データと当該データを特定する見出しからなる確定組を抽出する確定手段、
前記確定手段によって抽出された確定組を出力する出力手段、
として機能させることを特徴とする論理構造認識プログラム。
前記確定組の中に、複数種類の見出しと当該複数種類の見出しにより特定されるデータとからなる第1の確定組候補と、前記複数種類の見出しのうち一の見出しの位置のみが前記第1の確定組とは異なる第2の確定組候補とが存在する場合、前記一の見出しの位置と前記データの位置とに基づいて、前記第1および第2の確定組候補の中から妥当な確定組を選択する見出し単語候補評価手段として機能させ、
前記出力手段は、
前記見出し単語候補評価手段によって選択された妥当な確定組を出力することを特徴とする付記1に記載の論理構造認識プログラム。
前記データに対する前記一の見出しの前記帳票上の相対的な位置に基づいて、前記第1および第2の確定組候補の中から妥当な確定組を選択し、
前記出力手段は、
前記見出し単語候補評価手段によって選択された妥当な確定組を出力することを特徴とする付記2に記載の論理構造認識プログラム。
前記データと前記一の見出しとを包含する領域の面積に基づいて、前記第1および第2の確定組候補の中から妥当な確定組を選択し、
前記出力手段は、
前記見出し単語候補評価手段によって選択された妥当な確定組を出力することを特徴とする付記2に記載の論理構造認識プログラム。
前記確定組の中に、第1の見出しにより特定されるデータが複数あり、当該複数のデータにより特定される第2の見出しが前記データと同数存在する不定組が存在する場合、前記複数のデータおよび複数の前記第2の見出しの組み合わせからなる複数通りの確定組候補における前記データおよび前記第2の見出しの相対的な位置に基づいて前記確定組候補を比較することにより、前記複数通りの確定組候補の中から、妥当な確定組を選択するデータ単語候補評価手段として機能させ、
前記出力手段は、
前記データ単語候補評価手段によって選択された妥当な確定組を出力することを特徴とする付記1に記載の論理構造認識プログラム。
前記データと前記第2の見出しとの距離を前記確定組候補どうしで比較することにより、前記複数通りの確定組候補の中から、妥当な確定組を選択し、
前記出力手段は、
前記データ単語候補評価手段によって選択された妥当な確定組を出力することを特徴とする付記5に記載の論理構造認識プログラム。
前記データと前記第2の見出しとを包含する面積を前記確定組候補どうしで比較することにより、前記複数通りの確定組候補の中から、妥当な確定組を選択し、
前記出力手段は、
前記データ単語候補評価手段によって選択された妥当な確定組を出力することを特徴とする付記5に記載の論理構造認識プログラム。
前記単語候補抽出手段によって抽出された単語候補を前記帳票の見出しを構成する見出し単語候補群と前記帳票のデータを構成するデータ単語候補群に分け、前記単語候補の前記帳票上の位置に基づいて、前記見出し単語候補群の中から選ばれた一の見出し単語候補と当該一の見出し単語候補により特定される可能性がある前記データ単語候補群の中の一のデータ単語候補とからなる一見出し・一データ組候補を生成する一見出し・一データ組候補生成手段と、
前記一見出し・一データ組候補生成手段によって生成された一見出し・一データ組候補を、種類が異なる見出し単語候補どうしで組み合わせることにより、複数種類の見出し単語候補および一のデータ単語候補とからなる多見出し・一データ組候補を生成する多見出し・一データ組候補生成手段と、
前記多見出し・一データ組候補生成手段によって生成された多見出し・一データ組候補を構成する見出し単語候補とデータ単語候補の前記帳票上の位置に基づいて、前記多見出し・一データ組候補の中から、前記データごとに、前記データと当該データを特定する見出しからなる確定組を抽出する確定手段と、
前記確定手段によって確定された確定組を出力する出力手段と、
を備えることを特徴とする論理構造認識装置。
前記単語候補抽出工程によって抽出された単語候補を前記帳票の見出しを構成する見出し単語候補群と前記帳票のデータを構成するデータ単語候補群に分け、前記単語候補の前記帳票上の位置に基づいて、前記見出し単語候補群の中から選ばれた一の見出し単語候補と当該一の見出し単語候補により特定される可能性がある前記データ単語候補群の中の一のデータ単語候補とからなる一見出し・一データ組候補を生成する一見出し・一データ組候補生成工程と、
前記一見出し・一データ組候補生成工程によって生成された一見出し・一データ組候補を、種類が異なる見出し単語候補どうしで組み合わせることにより、複数種類の見出し単語候補および一のデータ単語候補とからなる多見出し・一データ組候補を生成する多見出し・一データ組候補生成工程と、
前記多見出し・一データ組候補生成工程によって生成された多見出し・一データ組候補を構成する見出し単語候補とデータ単語候補の前記帳票上の位置に基づいて、前記多見出し・一データ組候補の中から、前記データごとに、前記データと当該データを特定する見出しからなる確定組を抽出する確定工程と、
前記確定工程によって確定された確定組を出力する出力工程と、
を含んだことを特徴とする論理構造認識方法。
101 レイアウト情報
301〜304 論理要素テーブル
401〜403 単語候補抽出結果
500 論理構造認識装置
501 単語候補抽出部
502 論理要素グループ数検出部
503 一見出し・一データ組候補生成部
504 多見出し・一データ組候補生成部
505 確定組除去部
506 見出し単語候補評価部
507 データ単語候補評価部
508 出力部
Claims (9)
- コンピュータを、
上端の行方向の見出し項目と左端の列方向の見出し項目と前記行方向の見出し項目および前記列方向の見出し項目が交差するデータ項目となるマトリクス状の論理構造を有し前記各見出し項目およびデータ項目に文字列が記述されている帳票を読み込むことにより、前記帳票に記述されている文字列の中から、項目ごとに、項目位置に応じて単語候補を抽出する単語候補抽出手段、
前記単語候補抽出手段によって抽出された単語候補を前記見出し項目内に位置する見出し単語候補群と前記データ項目内に位置するデータ単語候補群に分け、前記行方向の見出し項目内の見出し単語候補の場合、当該見出し単語候補の列方向を含む右側の各データ項目内に位置するデータ単語候補の各々と組み合わせて行方向の一見出し・一データ組候補を生成するとともに、前記列方向の見出し項目内の見出し単語候補の場合、当該見出し単語候補の行方向を含む下側の各データ項目内に位置するデータ単語候補の各々と組み合わせて列方向の一見出し・一データ組候補を生成する一見出し・一データ組候補生成手段、
前記一見出し・一データ組候補生成手段によって生成された前記行方向の一見出し・一データ組候補と前記列方向の一見出し・一データ組候補を組み合わせることにより、前記行方向の見出し項目内の見出し単語候補と前記列方向の見出し項目内の見出し単語候補と前記行方向の一見出し・一データ組候補および前記列方向の一見出し・一データ組候補で重複したデータ項目内のデータ単語候補とからなる多見出し・一データ組候補を生成する多見出し・一データ組候補生成手段、
前記多見出し・一データ組候補生成手段によって生成された多見出し・一データ組候補を構成する前記行方向の見出し項目内の見出し単語候補と前記列方向の見出し項目内の見出し単語候補と前記行方向および前記列方向の見出し項目が交差するデータ項目内のデータ単語候補が唯一である場合に、前記行方向および前記列方向の見出し項目内の見出し単語候補と前記交差するデータ項目内のデータ単語候補の組み合わせを確定組とし、当該データ単語候補を前記多見出し・一データ組候補から削除するとともに、前記多見出し・一データ組候補内の前記行方向の残余の見出し項目内の見出し単語候補と前記列方向の残余の見出し項目内の見出し単語候補と前記行方向および前記列方向の見出し項目が交差する残余のデータ項目内のデータ単語候補が唯一である場合に、前記行方向および前記列方向の残余の見出し項目内の見出し単語候補と前記交差する残余のデータ項目内のデータ単語候補の組み合わせを確定組とし、当該データ単語候補を前記多見出し・一データ組候補から削除する確定手段、
前記確定手段によって抽出された確定組を出力する出力手段、
として機能させることを特徴とする論理構造認識プログラム。 - 前記コンピュータを、
前記確定組の中に、前記行方向または列方向のいずれか一方の方向の見出し項目内に見出し単語候補が複数あり、前記データ項目内に前記いずれか一方の方向の見出し項目内の複数の見出し単語候補と同数となる複数のデータ単語候補がある不定組が存在する場合、前記いずれか一方の方向の見出し項目内の複数の見出し単語候補から選ばれた見出し単語候補と前記同数となる複数のデータ単語候補から選ばれたデータ単語候補の組み合わせごとに、前記選ばれた見出し単語候補と前記選ばれたデータ単語候補との距離を求め、当該距離に基づいて、前記不定組の中から妥当な確定組を選択するデータ単語候補評価手段として機能させ、
前記出力手段は、
前記データ単語候補評価手段によって選択された妥当な確定組を出力することを特徴とする請求項1に記載の論理構造認識プログラム。 - コンピュータを、
第1の見出し項目と当該第1の見出し項目に並んで前記第1の見出し項目から所定方向に第2の見出し項目とデータ項目とが交互に1または複数存在する論理構造を有し前記各見出し項目およびデータ項目に文字列が記述されている帳票を読み込むことにより、前記帳票に記述されている文字列の中から、項目ごとに、項目位置に応じて単語候補を抽出する単語候補抽出手段、
前記単語候補抽出手段によって抽出された単語候補を前記第1の見出し項目内に位置する第1の見出し単語候補群と前記第2の見出し項目内に位置する第2の見出し単語候補群と前記データ項目内に位置するデータ単語候補群に分け、前記第1の見出し項目内の前記第1の見出し単語候補の場合、当該第1の見出し単語候補から前記所定方向の各データ項目内に位置するデータ単語候補の各々と組み合わせて第1の一見出し・一データ組候補を生成するとともに、前記第2の見出し項目内の前記第2の見出し単語候補の場合、当該第2の見出し単語候補から前記所定方向の各データ項目内に位置するデータ単語候補の各々と組み合わせて第2の一見出し・一データ組候補を生成する一見出し・一データ組候補生成手段、
前記一見出し・一データ組候補生成手段によって生成された前記第1の一見出し・一データ組候補と前記第2の一見出し・一データ組候補を組み合わせることにより、前記第1の見出し項目内の前記第1の見出し単語候補と前記第2の見出し項目内の前記第2の見出し単語候補と前記第1の一見出し・一データ組候補および前記第2の一見出し・一データ組候補で重複したデータ項目内のデータ単語候補とからなる多見出し・一データ組候補を生成する多見出し・一データ組候補生成手段、
前記多見出し・一データ組候補生成手段によって生成された多見出し・一データ組候補を構成する前記第1の見出し単語候補と当該第1の見出し単語候補に隣接する前記第2の見出し単語候補と当該第2の見出し単語候補に隣接するデータ単語候補の組み合わせを確定組とし、当該確定組となった前記第2の見出し単語候補および前記データ単語候補を前記多見出し・一データ組候補から削除するとともに、前記多見出し・一データ組候補内の前記第1の見出し単語候補と残余の前記第2の見出し単語候補と当該残余の前記第2の見出し単語候補に隣接する残余の前記データ単語候補の組み合わせを確定組とし、当該確定組となった前記第2の見出し単語候補および前記データ単語候補を前記多見出し・一データ組候補から削除する確定手段、
前記確定手段によって抽出された確定組を出力する出力手段、
として機能させることを特徴とする論理構造認識プログラム。 - 前記コンピュータを、
前記確定組を構成する前記第1の見出し単語候補と前記第2の見出し単語候補と前記データ単語候補の組み合わせが前記所定方向に並んでいるか否かを判断することにより、前記所定方向に並んでいる確定組を妥当な確定組として選択する見出し単語候補評価手段として機能させ、
前記出力手段は、
前記見出し単語候補評価手段によって選択された妥当な確定組を出力することを特徴ととする請求項3に記載の論理構造認識プログラム。 - 前記見出し単語候補評価手段は、
前記第1および第2の見出し単語候補が同一単語となる複数の確定組が存在する場合、一方の確定組における前記第2の見出し単語候補および前記データ単語候補の外接矩形の面積と他方の確定組における前記第2の見出し単語候補および前記データ単語候補の外接矩形の面積を比較することにより、当該面積の小さい方の確定組を前記妥当な確定組として選択することを特徴とする請求項4に記載の論理構造認識プログラム。 - 上端の行方向の見出し項目と左端の列方向の見出し項目と前記行方向の見出し項目および前記列方向の見出し項目が交差するデータ項目となるマトリクス状の論理構造を有し前記各見出し項目およびデータ項目に文字列が記述されている帳票を読み込むことにより、前記帳票に記述されている文字列の中から、項目ごとに、項目位置に応じて単語候補を抽出する単語候補抽出手段と、
前記単語候補抽出手段によって抽出された単語候補を前記見出し項目内に位置する見出し単語候補群と前記データ項目内に位置するデータ単語候補群に分け、前記行方向の見出し項目内の見出し単語候補の場合、当該見出し単語候補の列方向を含む右側の各データ項目内に位置するデータ単語候補の各々と組み合わせて行方向の一見出し・一データ組候補を生成するとともに、前記列方向の見出し項目内の見出し単語候補の場合、当該見出し単語候補の行方向を含む下側の各データ項目内に位置するデータ単語候補の各々と組み合わせて列方向の一見出し・一データ組候補を生成する一見出し・一データ組候補生成手段と、
前記一見出し・一データ組候補生成手段によって生成された前記行方向の一見出し・一データ組候補と前記列方向の一見出し・一データ組候補を組み合わせることにより、前記行方向の見出し項目内の見出し単語候補と前記列方向の見出し項目内の見出し単語候補と前記行方向の一見出し・一データ組候補および前記列方向の一見出し・一データ組候補で重複したデータ項目内のデータ単語候補とからなる多見出し・一データ組候補を生成する多見出し・一データ組候補生成手段と、
前記多見出し・一データ組候補生成手段によって生成された多見出し・一データ組候補を構成する前記行方向の見出し項目内の見出し単語候補と前記列方向の見出し項目内の見出し単語候補と前記行方向および前記列方向の見出し項目が交差するデータ項目内のデータ単語候補が唯一である場合に、前記行方向および前記列方向の見出し項目内の見出し単語候補と前記交差するデータ項目内のデータ単語候補の組み合わせを確定組とし、当該データ単語候補を前記多見出し・一データ組候補から削除するとともに、前記多見出し・一データ組候補内の前記行方向の残余の見出し項目内の見出し単語候補と前記列方向の残余の見出し項目内の見出し単語候補と前記行方向および前記列方向の見出し項目が交差する残余のデータ項目内のデータ単語候補が唯一である場合に、前記行方向および前記列方向の残余の見出し項目内の見出し単語候補と前記交差する残余のデータ項目内のデータ単語候補の組み合わせを確定組とし、当該データ単語候補を前記多見出し・一データ組候補から削除する確定手段と、
前記確定手段によって抽出された確定組を出力する出力手段と、
を備えることを特徴とする論理構造認識装置。 - 第1の見出し項目と当該第1の見出し項目に並んで前記第1の見出し項目から所定方向に第2の見出し項目とデータ項目とが交互に1または複数存在する論理構造を有し前記各見出し項目およびデータ項目に文字列が記述されている帳票を読み込むことにより、前記帳票に記述されている文字列の中から、項目ごとに、項目位置に応じて単語候補を抽出する単語候補抽出手段と、
前記単語候補抽出手段によって抽出された単語候補を前記第1の見出し項目内に位置する第1の見出し単語候補群と前記第2の見出し項目内に位置する第2の見出し単語候補群と前記データ項目内に位置するデータ単語候補群に分け、前記第1の見出し項目内の前記第1の見出し単語候補の場合、当該第1の見出し単語候補から前記所定方向の各データ項目内に位置するデータ単語候補の各々と組み合わせて第1の一見出し・一データ組候補を生成するとともに、前記第2の見出し項目内の前記第2の見出し単語候補の場合、当該第2の見出し単語候補から前記所定方向の各データ項目内に位置するデータ単語候補の各々と組み合わせて第2の一見出し・一データ組候補を生成する一見出し・一データ組候補生成手段と、
前記一見出し・一データ組候補生成手段によって生成された前記第1の一見出し・一データ組候補と前記第2の一見出し・一データ組候補を組み合わせることにより、前記第1の見出し項目内の前記第1の見出し単語候補と前記第2の見出し項目内の前記第2の見出し単語候補と前記第1の一見出し・一データ組候補および前記第2の一見出し・一データ組候補で重複したデータ項目内のデータ単語候補とからなる多見出し・一データ組候補を生成する多見出し・一データ組候補生成手段と、
前記多見出し・一データ組候補生成手段によって生成された多見出し・一データ組候補を構成する前記第1の見出し単語候補と当該第1の見出し単語候補に隣接する前記第2の見出し単語候補と当該第2の見出し単語候補に隣接するデータ単語候補の組み合わせを確定組とし、当該確定組となった前記第2の見出し単語候補および前記データ単語候補を前記多見出し・一データ組候補から削除するとともに、前記多見出し・一データ組候補内の前記第1の見出し単語候補と残余の前記第2の見出し単語候補と当該残余の前記第2の見出し単語候補に隣接する残余の前記データ単語候補の組み合わせを確定組とし、当該確定組となった前記第2の見出し単語候補および前記データ単語候補を前記多見出し・一データ組候補から削除する確定手段と、
前記確定手段によって抽出された確定組を出力する出力手段と、
を備えることを特徴とする論理構造認識装置。 - 上端の行方向の見出し項目と左端の列方向の見出し項目と前記行方向の見出し項目および前記列方向の見出し項目が交差するデータ項目となるマトリクス状の論理構造を有し前記各見出し項目およびデータ項目に文字列が記述されている帳票を読み込むことにより、前記帳票に記述されている文字列の中から、項目ごとに、項目位置に応じて単語候補を抽出する単語候補抽出工程と、
前記単語候補抽出工程によって抽出された単語候補を前記見出し項目内に位置する見出し単語候補群と前記データ項目内に位置するデータ単語候補群に分け、前記行方向の見出し項目内の見出し単語候補の場合、当該見出し単語候補の列方向を含む右側の各データ項目内に位置するデータ単語候補の各々と組み合わせて行方向の一見出し・一データ組候補を生成するとともに、前記列方向の見出し項目内の見出し単語候補の場合、当該見出し単語候補の行方向を含む下側の各データ項目内に位置するデータ単語候補の各々と組み合わせて列方向の一見出し・一データ組候補を生成する一見出し・一データ組候補生成工程と、
前記一見出し・一データ組候補生成工程によって生成された前記行方向の一見出し・一データ組候補と前記列方向の一見出し・一データ組候補を組み合わせることにより、前記行方向の見出し項目内の見出し単語候補と前記列方向の見出し項目内の見出し単語候補と前記行方向の一見出し・一データ組候補および前記列方向の一見出し・一データ組候補で重複したデータ項目内のデータ単語候補とからなる多見出し・一データ組候補を生成する多見出し・一データ組候補生成工程と、
前記多見出し・一データ組候補生成工程によって生成された多見出し・一データ組候補を構成する前記行方向の見出し項目内の見出し単語候補と前記列方向の見出し項目内の見出し単語候補と前記行方向および前記列方向の見出し項目が交差するデータ項目内のデータ単語候補が唯一である場合に、前記行方向および前記列方向の見出し項目内の見出し単語候補と前記交差するデータ項目内のデータ単語候補の組み合わせを確定組とし、当該データ単語候補を前記多見出し・一データ組候補から削除するとともに、前記多見出し・一データ組候補内の前記行方向の残余の見出し項目内の見出し単語候補と前記列方向の残余の見出し項目内の見出し単語候補と前記行方向および前記列方向の見出し項目が交差する残余のデータ項目内のデータ単語候補が唯一である場合に、前記行方向および前記列方向の残余の見出し項目内の見出し単語候補と前記交差する残余のデータ項目内のデータ単語候補の組み合わせを確定組とし、当該データ単語候補を前記多見出し・一データ組候補から削除する確定工程と、
前記確定工程によって抽出された確定組を出力する出力工程と、
を含んだことを特徴とする論理構造認識方法。 - 第1の見出し項目と当該第1の見出し項目に並んで前記第1の見出し項目から所定方向に第2の見出し項目とデータ項目とが交互に1または複数存在する論理構造を有し前記各見出し項目およびデータ項目に文字列が記述されている帳票を読み込むことにより、前記帳票に記述されている文字列の中から、項目ごとに、項目位置に応じて単語候補を抽出する単語候補抽出工程と、
前記単語候補抽出工程によって抽出された単語候補を前記第1の見出し項目内に位置する第1の見出し単語候補群と前記第2の見出し項目内に位置する第2の見出し単語候補群と前記データ項目内に位置するデータ単語候補群に分け、前記第1の見出し項目内の前記第1の見出し単語候補の場合、当該第1の見出し単語候補から前記所定方向の各データ項目内に位置するデータ単語候補の各々と組み合わせて第1の一見出し・一データ組候補を生成するとともに、前記第2の見出し項目内の前記第2の見出し単語候補の場合、当該第2の見出し単語候補から前記所定方向の各データ項目内に位置するデータ単語候補の各々と組み合わせて第2の一見出し・一データ組候補を生成する一見出し・一データ組候補生成工程と、
前記一見出し・一データ組候補生成工程によって生成された前記第1の一見出し・一データ組候補と前記第2の一見出し・一データ組候補を組み合わせることにより、前記第1の見出し項目内の前記第1の見出し単語候補と前記第2の見出し項目内の前記第2の見出し単語候補と前記第1の一見出し・一データ組候補および前記第2の一見出し・一データ組候補で重複したデータ項目内のデータ単語候補とからなる多見出し・一データ組候補を生成する多見出し・一データ組候補生成工程と、
前記多見出し・一データ組候補生成工程によって生成された多見出し・一データ組候補を構成する前記第1の見出し単語候補と当該第1の見出し単語候補に隣接する前記第2の見出し単語候補と当該第2の見出し単語候補に隣接するデータ単語候補の組み合わせを確定組とし、当該確定組となった前記第2の見出し単語候補および前記データ単語候補を前記多見出し・一データ組候補から削除するとともに、前記多見出し・一データ組候補内の前記第1の見出し単語候補と残余の前記第2の見出し単語候補と当該残余の前記第2の見出し単語候補に隣接する残余の前記データ単語候補の組み合わせを確定組とし、当該確定組となった前記第2の見出し単語候補および前記データ単語候補を前記多見出し・一データ組候補から削除する確定工程と、
前記確定工程によって抽出された確定組を出力する出力工程と、
を含んだことを特徴とする論理構造認識方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007283916A JP4476318B2 (ja) | 2007-10-31 | 2007-10-31 | 論理構造認識プログラム、論理構造認識装置、および論理構造認識方法 |
US12/180,202 US8010564B2 (en) | 2007-10-31 | 2008-07-25 | Logical structure analyzing apparatus, method, and computer product |
CN2008101458844A CN101425131B (zh) | 2007-10-31 | 2008-08-18 | 逻辑结构分析装置、方法和计算机产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007283916A JP4476318B2 (ja) | 2007-10-31 | 2007-10-31 | 論理構造認識プログラム、論理構造認識装置、および論理構造認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009110416A JP2009110416A (ja) | 2009-05-21 |
JP4476318B2 true JP4476318B2 (ja) | 2010-06-09 |
Family
ID=40584147
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007283916A Expired - Fee Related JP4476318B2 (ja) | 2007-10-31 | 2007-10-31 | 論理構造認識プログラム、論理構造認識装置、および論理構造認識方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8010564B2 (ja) |
JP (1) | JP4476318B2 (ja) |
CN (1) | CN101425131B (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012049861A1 (ja) * | 2010-10-15 | 2012-04-19 | 日本精工株式会社 | 電源状態診断方法及び装置 |
US8914419B2 (en) | 2012-10-30 | 2014-12-16 | International Business Machines Corporation | Extracting semantic relationships from table structures in electronic documents |
US9286290B2 (en) | 2014-04-25 | 2016-03-15 | International Business Machines Corporation | Producing insight information from tables using natural language processing |
US10025847B2 (en) | 2014-11-25 | 2018-07-17 | Oath Inc. | Method and system for providing a user agent string database |
WO2016082092A1 (en) * | 2014-11-25 | 2016-06-02 | Yahoo! Inc. | Method and system for analyzing user agent string |
JP7007609B2 (ja) * | 2020-05-22 | 2022-01-24 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、情報処理装置の制御方法、プログラム |
JP2022035594A (ja) * | 2020-08-21 | 2022-03-04 | 株式会社日立製作所 | 表構造認識装置及び表構造認識方法 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5566068A (en) * | 1993-09-15 | 1996-10-15 | Microsoft Corporation | Method and system for locating field breaks within input data |
JP3425834B2 (ja) * | 1995-09-06 | 2003-07-14 | 富士通株式会社 | 文書画像からのタイトル抽出装置および方法 |
US6507662B1 (en) * | 1998-09-11 | 2003-01-14 | Quid Technologies Llc | Method and system for biometric recognition based on electric and/or magnetic properties |
KR100319756B1 (ko) * | 2000-01-21 | 2002-01-09 | 오길록 | 논문 문서영상 구조 분석 방법 |
US6757870B1 (en) * | 2000-03-22 | 2004-06-29 | Hewlett-Packard Development Company, L.P. | Automatic table detection method and system |
US7171615B2 (en) * | 2002-03-26 | 2007-01-30 | Aatrix Software, Inc. | Method and apparatus for creating and filing forms |
US7305612B2 (en) * | 2003-03-31 | 2007-12-04 | Siemens Corporate Research, Inc. | Systems and methods for automatic form segmentation for raster-based passive electronic documents |
JP2005275830A (ja) | 2004-03-25 | 2005-10-06 | Hitachi Computer Peripherals Co Ltd | 帳票認識方法 |
US7917842B2 (en) * | 2004-05-27 | 2011-03-29 | Collegenet, Inc. | System for describing the overlaying of electronic data onto an electronic image |
CN1687926A (zh) * | 2005-04-18 | 2005-10-26 | 福州大学 | 一种基于xml的pdf文档信息抽取系统的方法 |
US7941744B2 (en) * | 2005-04-25 | 2011-05-10 | Adp, Inc. | System and method for electronic document generation and delivery |
JP2007249754A (ja) * | 2006-03-17 | 2007-09-27 | Internatl Business Mach Corp <Ibm> | 情報処理装置、情報処理方法およびプログラム |
JP4848221B2 (ja) | 2006-07-31 | 2011-12-28 | 富士通株式会社 | 帳票処理プログラム、該プログラムを記録した記録媒体、帳票処理装置、および帳票処理方法 |
US7886219B2 (en) * | 2007-02-26 | 2011-02-08 | Emc Corporation | Automatic form generation |
-
2007
- 2007-10-31 JP JP2007283916A patent/JP4476318B2/ja not_active Expired - Fee Related
-
2008
- 2008-07-25 US US12/180,202 patent/US8010564B2/en not_active Expired - Fee Related
- 2008-08-18 CN CN2008101458844A patent/CN101425131B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009110416A (ja) | 2009-05-21 |
CN101425131B (zh) | 2013-05-01 |
CN101425131A (zh) | 2009-05-06 |
US20090112797A1 (en) | 2009-04-30 |
US8010564B2 (en) | 2011-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4476318B2 (ja) | 論理構造認識プログラム、論理構造認識装置、および論理構造認識方法 | |
JP4848221B2 (ja) | 帳票処理プログラム、該プログラムを記録した記録媒体、帳票処理装置、および帳票処理方法 | |
CN106445926B (zh) | 翻译辅助系统确认控制方法 | |
Garain et al. | Recognition of online handwritten mathematical expressions | |
US9218525B2 (en) | Shape recognition using partial shapes | |
US11768838B2 (en) | Error identification, indexing and linking construction documents | |
CA2438187A1 (en) | Holistic-analytical recognition of handwritten text | |
CN102349087A (zh) | 自动提供与捕获的信息例如实时捕获的信息关联的内容 | |
Sardiu et al. | Topological scoring of protein interaction networks | |
CN102591846A (zh) | 文本生成装置和文本生成方法 | |
Rodrigues et al. | Application of deep learning approach for the classification of buildings’ degradation state in a BIM methodology | |
Patil et al. | Enhancing optical character recognition on images with mixed text using semantic segmentation | |
Khoma et al. | Development of supervised speaker diarization system based on the pyannote audio processing library | |
US20160055254A1 (en) | Method and System for Click-Thru Capability in Electronic Media | |
CN107797979B (zh) | 分析装置和分析方法 | |
Lin et al. | Detection and analysis of table of contents based on content association | |
JP2009098777A (ja) | データ処理装置及びデータ処理プログラム | |
Hung et al. | A case study of whistle detection and localization for humpback dolphins in Taiwan | |
JP4628278B2 (ja) | 表認識装置、及びコンピュータプログラム | |
JP2023111566A (ja) | 情報処理装置、情報処理方法、プログラム、情報処理システム | |
Sen et al. | Toward Universal Spatialization Through Wikipedia-Based Semantic Enhancement | |
JP2010218166A (ja) | 表示プログラム、表示装置、および表示方法 | |
Kempf et al. | KIETA: Key-insight extraction from scientific tables | |
EP4099189A1 (en) | Information processing apparatus, information processing system, and computer-implemented method for information processing | |
JP2018055578A (ja) | 帳票仕分プログラム、帳票仕分装置及び帳票仕分方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090319 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090903 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091013 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091207 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100302 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100309 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130319 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140319 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |