JP2006195982A - コンテンツテーブルの検出ならびに参照判定の方法 - Google Patents
コンテンツテーブルの検出ならびに参照判定の方法 Download PDFInfo
- Publication number
- JP2006195982A JP2006195982A JP2006001047A JP2006001047A JP2006195982A JP 2006195982 A JP2006195982 A JP 2006195982A JP 2006001047 A JP2006001047 A JP 2006001047A JP 2006001047 A JP2006001047 A JP 2006001047A JP 2006195982 A JP2006195982 A JP 2006195982A
- Authority
- JP
- Japan
- Prior art keywords
- content table
- text
- link
- fragment
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
- G06F40/143—Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
Abstract
【課題】構造化されていない文章からテーブルを抽出するための方法及び装置を提供する。
【解決手段】文書内のコンテンツテーブルを識別する方法であって、前記文書からテキスト断片の順序付きシーケンスを生成するステップと、前記テキスト断片の順序付きシーケンスの連続的なサブシーケンスとして、コンテンツテーブルを、(i)前記コンテンツテーブルのテキスト断片によって規定されるエントリが、前記エントリとの逐語的類似性を有するターゲットテキスト断片へのリンクを各々有し、(ii)前記コンテンツテーブルにはターゲットテキスト断片は存在せず、(iii)前記ターゲットテキスト断片は、前記ターゲットテキスト断片を規定する前記エントリの昇順に対応する昇順を有する、という基準を満たして選択するステップと、を包含する。
【選択図】図1
【解決手段】文書内のコンテンツテーブルを識別する方法であって、前記文書からテキスト断片の順序付きシーケンスを生成するステップと、前記テキスト断片の順序付きシーケンスの連続的なサブシーケンスとして、コンテンツテーブルを、(i)前記コンテンツテーブルのテキスト断片によって規定されるエントリが、前記エントリとの逐語的類似性を有するターゲットテキスト断片へのリンクを各々有し、(ii)前記コンテンツテーブルにはターゲットテキスト断片は存在せず、(iii)前記ターゲットテキスト断片は、前記ターゲットテキスト断片を規定する前記エントリの昇順に対応する昇順を有する、という基準を満たして選択するステップと、を包含する。
【選択図】図1
Description
以下は、情報の記憶及び処理技術に関している。これは、拡張可能マークアップ言語(XML)、標準一般化マークアップ言語(SGML)、ハイパーテキストマークアップ言語(HTML)などのようなマークアップフォーマットにおけるレガシー文書のカタログ化に関連して、特定のアプリケーションを見出し、特にそれを参照して記述される。しかし、以下が他の同様のアプリケーションに対して変更可能であることを理解されたい。
レガシー文書変換は、アドビ・ポータブル文書フォーマット(PDF)、様々なテキストフォーマット、様々なワードプロセッシングフォーマットなどのようなフォーマットにて存在している構造化されていない文書を、XML、SGML、HTMLなどのようなマークアップ言語を使用した構造化文書に変換することに関している。構造化文書では、コンテンツは、適切なヘッダなどを有する輪郭化されたセクションに組織化される。そのような組織化は、典型的にはマークアップタグを使用して具現化される。XMLのようないくつかの構造化文書フォーマットでは、文書タイプ定義(DTD)又は同様の文書部分が、セクションの識別のような文書についての全体的な情報を提供し、ネスト化されたセクションのような複雑な文書構造を容易化する。
一方、構造化されていない文書は、限定的な構造情報を提供するか、又は何の情報も提供しない。企業データベース、政府データベース、及びその他の文書保存場所における多くの文書は、構造化されていないフォーマットになっている。これは、それらの文書が、所有機関による構造化文書フォーマットの最初の使用に先立つ文書であるか、又は、ソフトウエア、文書スキャナ、又はその他の文書ソースが、通常は構造化されていないフォーマットに出力するからである。
構造化されていない文書の構造化フォーマットへの変換に対する関心が持たれている。文書を変換する動機は様々であり、典型的には、文書の一部の再利用又は再目的化、情報保存データベースにおける文書の統一化に対する欲望、文書検索の容易化などを含む。構造化されていない文書に追加すると有益な構造の一つのタイプは、コンテンツテーブルである。構造化されていない文書はしばしばコンテンツテーブルのテキストを含み、これは、構造化されていない文書のコンテンツに対する論理的組織又はフレームワークを提供し、このコンテンツフレームワークの論理テーブルを検出して、このコンテンツフレームワークの論理テーブルを、変換された構造化文書の構造に一体化することは有益である。
構造化されていない文書からテーブルを抽出するための現存する方法及び装置は、一般的にはロバストではない。例えば、いくつかの現存するアプローチは、コンテンツテーブルにてインデックスが付けられた文書ヘッディングと周囲のテキストとの間のフォントの相違に頼る。しかし、プレーンテキストフォーマットのようなある構造化されていない文書フォーマットでは、このフォント情報は利用できない。いくつかの現存するアプローチは、新しいページで始まるコンテンツテーブルでインデックスが付けられた各セクションに頼る。再び、多くのタイプの構造化されていない文書に対しては、この構造は有効ではない。いくつかの構造化されていないフォーマットは、ページ番号付けをすっかり省く。構造化されていないフォーマットがページ番号付けを提供するとしても、コンテンツテーブルによってインデックスが付けられたいくつかの部分は、ページの中間で始まる。
ある局面によれば、文書内のコンテンツテーブルを識別する方法が提供される。テキスト断片の順序付きシーケンスが、前記文書から生成される。逐語的類似性基準を満たすテキスト断片の対の間のリンクが規定される。各リンクは、ソーステキスト断片とターゲットテキスト断片とを含む。コンテンツテーブルが、テキスト断片の順序付きシーケンスの中から選択される。コンテンツテーブルは、テキスト断片の順序付きシーケンスの連続的なサブシーケンスを含む。コンテンツテーブルのテキスト断片はエントリを規定し、各エントリは、そのエントリをソーステキストコンテンツとして含むリンクから選択された最適化されたターゲットテキスト断片を有する。選択されたコンテンツテーブルは、少なくとも、(i)最適化されたターゲットテキスト断片に対する昇順を提供する、及び(ii)選択されたコンテンツテーブルに含まれる最適化されたターゲットテキスト断片を有するエントリは存在しないことを提供する、という基準に関して、最適化される。
他の局面によれば、文書内のコンテンツテーブルを識別する方法が提供される。前記文書からテキスト断片の順序付きシーケンスが生成される。コンテンツテーブルは、前記テキスト断片の順序付きシーケンスの連続的なサブシーケンスとして、(i)前記コンテンツテーブルのテキスト断片によって規定されるエントリが、前記エントリとの逐語的類似性を有するターゲットテキスト断片とのリンクを各々有し、(ii)前記コンテンツテーブルにはターゲットテキスト断片は存在せず、(iii)前記ターゲットテキスト断片は、前記ターゲットテキスト断片を規定する前記エントリの昇順に対応する昇順を有する、という基準を満たして選択される。
他の局面によれば、文書内のコンテンツテーブルを識別する装置が開示される。テキスト断片化器は、テキスト断片の順序付きシーケンスを文書から生成する。リンク識別器は、逐語的類似性基準を満たすテキスト断片の対の間のリンクを規定する。各リンクは、ソーステキスト断片とターゲットテキスト断片とを含む。候補コンテンツテーブル選択器は、複数の候補コンテンツテーブルを選択する。各候補は、少なくとも順序付け基準と非自己参照基準とを含む基準を潜在的に満足することができるテキスト断片の順序付きシーケンスの連続的なサブシーケンスを含む。コンテンツテーブル選択器は、候補コンテンツテーブルの一つを選択する。リンク最適化器は、選択されたコンテンツテーブルに対するエントリを規定するテキスト断片に対する最適化されたリンクを選択する。最適化されたリンクは、順序付け基準と非自己参照基準とを満足する。
図1を参照すると、構造化されていない文書10におけるコンテンツテーブルを識別する装置が記述される。テキスト断片化器12が、構造化されていない文書10をテキスト断片14の順序付きシーケンスに分解する。典型的には、構造化されていない文書10は、オフ・ザ・シェルフ変換器を使用して、文書から作成されたテキスト又はXMLファイルからのテキストストリングのリストとして、(アドビPDF、Wordフレームメーカなどのような)入力フォーマットにロードされる。紙の文書は、光スキャナを使用して適切にスキャンされて、光文字認識器(OCR)によって処理される。テキスト文書に対しては、各行は適切に、行毎に順序付けられた断片になる。XML又はHTML文書については、各PCDATAが適切にテキスト断片になる。
テキスト断片を順序付けるために、深さ第1(depth-first)の最後から先頭へ、左から右への(文書順の)横断、又はページ内の断片位置の使用など、いくつかの戦略を使用することができる。また、XMLノードとテキスト断片との間の関係を保存して、検出されたコンテンツテーブル及び参照を処理の終了時にXMLノード上にマッピングし戻すことができる。テキスト断片化器12が、行、ブロック、1行の単語の連続における逐語的コンテンツを断片化することができ、又は(例えば、タイトルの最初の単語の最初の文字についての異なるフォーマットのために)1つの単語を2つのテキスト断片に分割しても良い。ここで記述されるコンテンツテーブル識別アプローチは、これらの様々なタイプのテキスト断片化に関してロバストであることが見出されている。
結果として得られたテキスト断片14の順序付きシーケンスは、リンク22を識別する逐語的類似性リンク識別器20によって処理される。各リンクは、逐語的に類似したテキスト断片の対によって規定される。リンクを規定する対のテキスト断片は、ここではソース及びターゲットテキスト断片として識別される。
そのようなテキスト断片対を規定する様々な方法がある。一般に、N個の断片について、リンクの計算は0(N2)のオーダである。加えて、テキストにおけるノイズの存在の可能性も、考慮に入れられるべきである。ノイズは、PDFからテキストへの誤変換、又はコンテンツテーブルには現れるが文書本体には現れないページ番号のようなコンテンツテーブルに特有の問題、あるいはページ番号をコンテンツテーブルにおけるセクションタイトルに関係付ける直列の楕円(………)のような、様々な原因から来ることができる。
いくつかの実施形態では、各テキスト断片は、タブ、スペース、又は句読点符号のような非英数字セパレータとともに、一連の英数字トークンにトークン化される。いくつかの実施形態では、逐語的類似性を測定するためにジャカード(Jaccard)が使用される。ジャカードは、候補ソース及びターゲットテキスト断片によって規定される2つのトークンセットの共通部分の基数を、これら2つのトークンセットの和集合の基数で除算したものとして計算される。ジャカードの測定値が選択されたマッチング閾値より大きい対に対して、リンクが規定される。他の実施形態では、編集距離又はその他の適切な測定値が、逐語的類似性の比較として使用される。編集距離の測定に対しては閾値は最大であり、編集距離閾値よりも小さい編集距離を有する対が、逐語的に類似した対と指定される。
図2を簡単に参照すると、逐語的類似性リンクは、類似性マトリクス100を使用して適切に視覚化される。ソーステキスト断片#iとターゲット断片#jとの間のリンクを(#i、#j)と指定すると、リンク(#i、#j)は閾値又はその他のリンク選択基準を満足するので、リンク(#j、#i)もまた閾値又はその他のリンク選択基準を満足することを理解されたい。類似性マトリクスの要素は、類似性マトリクス100の右上の半分(又は等価に左下の半分)のみについて計算される必要がある。図2において、計算されたJaccardが選択された閾値を超えるリンクは、リンクセルにて「X」マークで示されている。さらに、図2には示されていないが、閾値を越える各リンクは、逐語的類似性に関してリンクの強さを示す関連したJaccard又はその他の計測値を有する。
図3を参照すると、コンテンツテーブル110は、テキスト断片14の順序付きシーケンスの連続したサブシーケンスを表す。4つの一般的な基準を使用して、テキスト断片14の順序付きシーケンスの内部のコンテンツテーブル110を区別し識別する。
第1の基準は連続性である。コンテンツテーブルは、テキスト断片14の順序付きシーケンスの連続したサブシーケンスを含む。この連続したサブシーケンスのテキスト断片の大半は、コンテンツテーブルのエントリ112であることが期待される。各エントリは、リンク22の一つによって、コンテンツテーブルに引き続くテキストの部分にリンクされている。コンテンツテーブル110に関連しているこれらのリンクは、図3に、曲がった矢印114として示されている。コンテンツテーブル110のリンク114が、逐語的類似性リンク識別器20によって計算されたリンク22のサブセットであることを理解されたい。しかし、リンク22は、典型的には、リンク114のサブセットに加えて多くのリンクを含む。
コンテンツテーブル110のテキスト断片の大半はエントリ112であるが、コンテンツテーブル110を規定するテキスト断片の連続したサブシーケンスにおけるテキスト断片の小さな部分は、エントリ112ではなくホールであり得る。ホールは、関連したリンク114を有さず、文書の他の部分にリンクしているコンテンツテーブルエントリを示さない。ホールの例116が、図3に示されている。典型的には、ホール数のエントリ数に対する比率は、約0.2より小さい。いくつかの実施形態では、最大許容可能なホール数は、ユーザが選択可能なパラメータである。
第2の基準は、逐語的類似性である。各リンク114は、エントリ112を、エントリのテキストに類似したテキストを有するヘッディング又はその他のテキスト断片に接続すべきである。逐語的類似性は、逐語的類似性リンク識別器20によって使用されるJaccard又はその他のテキスト類似性測定値によって、適切に測定される。ターゲットテキスト断片は、通常のコンテンツテーブルの場合には、典型的にはセクションヘッディングである。文書の図をリストしているコンテンツテーブル(すなわち図テーブル)の場合には、ターゲットテキスト断片は図のキャプションであり得る。文書の表をリストしているコンテンツテーブル(すなわち表テーブル)の場合には、ターゲットテキスト断片は表のキャプションであり得る。いくつかの文書では、図及び/又は表のキャプションは、対応する図及び/又は表の下にあり得る。
第3の基準は順序付けである。リンク114のターゲットテキスト断片は、エントリ112の昇順に対応した昇順を有するべきである。すなわち、エントリのセット{#i1、#i2、#i3、…}が昇順を有しているリンクのセット{(#i1、#j1)、(#i2、#j2)、(#i3、#j3)、…}を有するエントリのセット{#i1、#i2、#i3、…}に対して、ターゲット断片の対応するセット{#j1、#j2、#j3、…}の順序もまた、昇順であるべきである。
第4の基準は、自己参照の欠如である。リンク114の全てはコンテンツテーブル110の内部から始まるべきであり、リンク114のいずれもコンテンツテーブル110の内部で終結すべきではない。エントリのセット{#i1、#i2、#i3、…}及び対応するターゲットテキスト断片のセット{#j1、#j2、#j3、…}は空の交点を有するべきであり、さらに、ターゲットテキスト断片{#j1、#j2、#j3、…}のいずれも、コンテンツテーブル110のホールテキスト断片に対応すべきではない。
図4を参照すると、自己参照の欠如と、コンテンツテーブルが典型的には文書の開始点の近傍で生じるという観察とは、類似性マトリクス100のサーチエリアをさらに減らすために使用されることができる。コンテンツテーブルがk個の最初及び最後のテキスト断片内のみにあると仮定すると、これにより、k=5に対して、図4のダークグレイの四角形120に示されているように、マトリクスの中央を対象から外す。
図1に戻って参照すると、テキスト断片14の順序付きシーケンスの中から、テキスト断片の順序付きシーケンスの連続したサブシーケンスを含むコンテンツテーブル110を選択する一つのアプローチが記述される。コンテンツテーブルは、連続性、テキストの類似性、順序付け、及び非自己参照の基準に基づいて選択される。候補コンテンツテーブル選択器30は、一つ又はそれ以上の候補コンテンツテーブルを選択する。一つの適切なアプローチでは、コンテンツテーブルに対して、N個の候補の開始テキスト断片に対応して、N個の仮説がテストされる。可能性のあるN個の開始テキスト断片の各々について、「コンテンツテーブルはこのテキスト断片で開始することができるか?」という仮説がテストされる。
いくつかの適切な実施形態では、テストが候補開始テキスト断片で始まり、それから各々の引き続くテキスト断片を調べて、候補コンテンツテーブルにそれを含めるべきかどうかが考慮される。候補コンテンツテーブルは、新しいテキスト断片の追加が順序制約を破るまで、引き続く連続したテキスト断片を加えることによって拡張される。例えば、最後に加えられたテキスト断片がターゲット断片#j=15及び#j=33へのリンクを有するソーステキスト断片であり、且つ考慮されている次のテキスト断片がターゲット断片#j=20のみへのリンクを有するソーステキスト断片であると、そのときには、#j=20が#j=15より大きいので、この次のテキスト断片は候補コンテンツテーブルに加えられることができる。しかし、次のテキスト断片がターゲット断片#j=12へのリンクのみを有しているソーステキスト断片であると、そのときにはこれは順序付けを破る。
しかし、候補コンテンツテーブルにいくつかのホールを許容するために、順序付けの制約をいくらか緩和することが有益である。これは、関連するリンクのないある数のテキスト断片の存在を許容し、且つリンクが交差したある数の断片、すなわちその関連するリンクの全てが候補コンテンツテーブルにて順序付け制約を破っているテキスト断片を許容することによって、適切に達成される。いくらかのリンク交差を許容することは、例えば、現在の候補コンテンツテーブルにおける以前のテキスト断片が、文書内の離れすぎた前方を指している一つのリンクしか含んでいないときに、有用である。
非自己参照制約を強化するために、候補コンテンツテーブルの大きさが順序付け制約に関して仮決定されると、第2のパスが適切に実行される。第2のパスを使用することは、コンテンツテーブルの終了点が分からないが、その開始点を越えて延びているときに、コンテンツテーブルの終了点に関する不確定さを説明する。第2のパスは、候補コンテンツテーブルの最上部で、オリジナルの開始テキスト断片にて始まる。各々の引き続くテキスト断片がテストされる。引き続くテキスト断片がそのコンテンツテーブル内のテキスト断片のみへのリンクを含んでいると、そのときに、それは非自己参照基準を守らない。したがって、第2のパスは、非自己参照を守らないそのテキスト断片の直前で、候補コンテンツテーブルを終端する。
しかし、再び、ある数のホールを許容することが有用であり得る。これは、候補コンテンツテーブルの一つ又はいくつかのテキスト断片を自己参照的にすることを可能にすることにより、第2のパスで適切に達成される。自己参照基準を守らないこれらのテキスト断片は、候補コンテンツテーブルにおいて、エントリというよりホールであると推定される。
この処理は、N個の可能性のある開始テキスト断片の各々について、繰り返される。この結果は、一つ又はそれ以上の候補コンテンツテーブルのセットであり、各々はテキスト断片の連続リストから形成されている。候補コンテンツテーブルは、順序付け及び非自己参照制約が従われることができる(その一方でオプションとして限定された数のホールを許容する)ことを確実にするような方法で構成されたので、候補コンテンツテーブルの各エントリについて、その許容可能なリンクのリストから、順序付け及び非自己参照制約が尊重されるように一つのリンクを選択することが可能である。オプションとして、フィルタリング基準が候補コンテンツテーブル選択器30によって適用されて、明らかに正しくない候補コンテンツテーブルを除去してもよい。例えば、3つより少ないテキスト断片を有する候補コンテンツテーブルは、適切に破棄され得る。
コンテンツテーブル選択器34は、候補コンテンツテーブルをランク付けし、最高にランクされたコンテンツテーブルを選択する。リンク最適化器38がそれから、その選択されたコンテンツテーブルに対するリンクを最適化して、最終の選択されたコンテンツテーブル110を作成する。このアプローチでは、コンテンツテーブル選択器34は、計算能力的に効率的なランク付け方法を使用して候補コンテンツテーブルをランク付けし、選択されたコンテンツテーブルのみがそれから、リンク最適化器38によって実行される計算能力的により強力な処理を受ける。このアプローチは、コンテンツテーブルを正確に選択するために満足したものであることが見出される。計算能力的により強力なアプローチもまた、リンク最適化が候補コンテンツテーブルの各々について実行され且つランク付けがリンク最適化の結果を考慮して企図される。
図1を引き続いて参照すると、コンテンツテーブル選択器34は、スコア付け機能を利用して候補コンテンツテーブルをランク付けする。最高にランクされた候補コンテンツテーブルが、それから更なる処理のために選択される。いくつかの実施形態では、スコア付け機能はエントリ重みの合計である。ここで、エントリ重みは、コンテンツテーブルのエントリに関連したリンクの数に反比例する。このエントリ重みは、所与のソーステキストターゲットで始まるリンクが多いほどそれらのリンクがコンテンツテーブルの「真の」リンクである可能性が低くなるという仮定の下で、その関連するリンクの任意のものの確実さを特徴付ける。
他のスコア付け機能が使用されることができる。例えば、他の企図されるスコア付け機能は、候補コンテンツテーブルにおけるエントリの数を合計する。短い候補コンテンツテーブルは、テキスト断片の大きな連続シーケンスが順序付け及び非自己参照基準を満足できることが見出される長いコンテンツテーブルよりも、典型的には「正しい」可能性が低い。さらに他の企図されるスコア付け機能は、ターゲットテキスト断片のスパンを文書10全体に関して特徴付ける。特定の候補コンテンツテーブルの利用可能なターゲットテキスト断片が文書10の小さな部分のみをスパンしていると、そのときには、その候補コンテンツテーブルはその文書に対する「真の」コンテンツテーブルである。これらのスコア付け機能は例であって、他のスコア付け機能、又は様々なスコア付け機能の組み合わせが、利用されることができる。
最高にランク付けされた候補コンテンツテーブルがひとたび選択されると、リンク最適化器38がそのコンテンツテーブルに適用されて、最終のコンテンツテーブル110を生成する。コンテンツテーブルのエントリの各々に対する最良のリンクの選択には、連続性、テキスト類似性、順序付け、及び非自己参照という4つのコンテンツテーブル制約を尊重しながらコンテンツテーブルに対するグローバル最適を見出すことが関与する。いくつかの実施形態では、重みは各々のリンクに関連しており、これはそのマッチングのレベルに比例する。
図5〜図10を参照すると、いくつかの実施形態では、ビタビ最短パスアルゴリズムが、最適化されたリンクを選択する際に利用される。コンテンツテーブルの各々のテキスト断片(#i)は、一つ又はそれ以上の可能なターゲットテキスト断片(#j)にリンク(#i、#j)として関連される。重みは、リンク(#i、#j)の各ターゲットテキスト断片#jに関連する。図5は一つの例を示しており、コンテンツテーブルはテキスト断片#1、#2、#3、#4を含む。テキスト断片#1は、2つの可能性のあるリンク(#1、#5)及び(#1、#7)に対するソーステキストターゲットである。(#1、#5)リンクに対する重みは0.3であり、(#1、#7)リンクに対する重みは0.4である。テキスト断片#2に対する可能性のあるリンクは、重み0.2の(#2、#7)及び重み0.3の(#2、#13)である。テキスト断片#3に対する可能性のあるリンクは、重み0.2の(#3、#8)及び重み0.4の(#3、#11)である。テキスト断片#4は、一つの可能性のあるリンク、すなわち重み0.6の(#4、#14)のみを有している。非自己参照基準を守らないどのリンクも、適切に省かれる。例えば、テキスト断片#2が潜在的なリンク(#2、#4)に対するソーステキスト断片でもあるならば、そのときには、これは非自己参照基準を守らないので図5では省かれる。
図6は、順序付け制約を満足するコンテンツテーブルの各テキスト断片に対するリンク選択の組み合わせのダイアグラムを示す。図6の矢印は、#jが#iに対して選択されたとしたら、#i+1に対する可能性のある選択を示している。例えば、テキスト断片#7がソーステキスト断片#1に対するターゲットテキスト断片として選ばれると、そのときには、ターゲットテキスト断片#13のみが、ソーステキスト断片#2に対するリンクとして選ばれることができる。なぜなら、他の可能性のあるターゲットテキスト断片#5は、順序付け特性を守らないからである。一方、テキスト断片#5がソーステキスト断片#1に対するターゲットテキスト断片として選ばれると、そのときには、ターゲットテキスト断片#13又はターゲットテキスト断片#7のいずれかが、ソーステキスト断片#2に対するリンクとして選ばれることができる。なぜなら、この場合、両方とも順序付け基準に従うからである。
図7を参照して、最良パスビタビアルゴリズムは、以前の最良のコンテンツテーブル選択肢が与えられたソーステキスト断片#iに対して、最良の選択肢を見出す。ビタビアルゴリズムにおけるパスのスコアは、そのノード重みの合計である。これは、図7に示される対応している#jと共に各ステージで最も良い可能性のあるスコアを維持することによって、達成される。図7における太字の矢印は最良の選択肢を示しており、対応している最良の選択肢スコアは太字で印刷されている。
図8を参照して、最良の組み合わせは、コンテンツテーブルの最後のアイテムに対する最良のスコアを選択し、且つそれからダイアグラムにて後方に(右から左へ)動き、各々のときに最良の矢印を選択することによって、達成される。この最良の組み合わせは、図8の湾曲した点線の矢印によって示される。
図7及び図8の例に示されたアプローチは、ホール、すなわち外部のヘッディング、キャプションなどに対するリンクを有さないコンテンツテーブルのテキスト断片の可能性を無視している。
図9は、ある数の連続したホール(すなわち、順序付け及び非自己参照基準に従うリンクのないテキスト断片)を有することをコンテンツテーブルに許容するように改変された図7のダイアグラムを示している。これは、あるステージをジャンプすることを可能にする。例えば、矢印は、潜在的な(#1、#5)リンクを潜在的な(#3、#8)リンクに接続する。これは、コンテンツテーブルのソーステキスト断片#2が、エントリというよりもむしろホールであり得る可能性を説明する。
潜在的なホールが含まれるときに図8を置き換える図10を参照して、最良の組み合わせは再び、コンテンツテーブルの最後のアイテムに対する最良のスコアを選択し、且つそれからダイアグラムを後方に動き、各々のときに最良の矢印を選択することによって、達成される。この特定の場合、最良の当てはめはホールを含まないので、図8及び図10に対する結果は同じである。他の場合、最良の当てはめは、コンテンツテーブルのテキスト断片の一つを「ジャンプして越える」矢印を含めることによって、ホールを含み得る。
コンテンツテーブルを識別する開示されたアプローチは、フレームメーカによって作成され且つそれに対する専用XMLタグがTOC及びその構成要素を示すXML文書の集積(corpus)に対して適用されてきた。この方法は、合計で約1500ページの11の文書について評価され、検出されたコンテンツテーブルの正確さ及びリコールが測定された。正確さは、実際にコンテンツ文書テーブルの一部である識別されたエントリのパーセンテージとして定義される。リコールは、検出されたTOCの一部である実際のコンテンツテーブルエントリのパーセンテージとして定義される。マッチング閾値が25%から67%の間(境界を含む)であり且つ許容されるホールの数が1から4の間(境界を含む)であるJaccardテキスト類似性測定値を使用して、90%を超える正確さ及びリコール値が典型的に得られて、いくつかの正確さ及びリコール値は97%を超える。
約50%のマッチング閾値が、いくつかの文書のコンテンツテーブル処理に対して最適であると見出された。リンクの処理は、全計算時間の大半を占めることが見出された。マッチング閾値が増すと、より少ない潜在的リンクが識別され、処理速度が増す。67%の閾値が、低減された計算時間を必要とする一方で、比較的一定の高い正確さを与えることが見出された。
以前に言及したように、テキスト断片化器12はオプションとして、コンテンツテーブルの一つのエントリが複数のテキスト断片に対応するようにテキストを断片化し得て、これは文書本体にも同様に適用され得る。これは、TOCにおいて、より低い参照決定の質ならびに可能性のあるホールに導くことができる。しかし、ここで記述されたアプローチは、そのような状況に対して比較的ロバストであることが見出されてきている。いくつかの実施形態では、OCRシステムにて普通に実行されるように、前処理ステージにて関連したテキスト断片へ文書コンテンツを断片化することが企図される。
自動化された処理では、一つ又はより多くのクオリティ制御チェックを含んで、問題のある有効性である生成されたコンテンツテーブルに自動的にフラグを立ててもよい。例えば、3つより少ないエントリを含むコンテンツテーブルは、無効である可能性が高い。同様に、文書全体の小さい部分のみをスパンするコンテンツテーブルは、オプションとして、疑いのあるものとしてフラグされる。
いくつかのアプリケーションでは、識別されたコンテンツテーブルが、さらなる処理のために使用される。例えば、コンテンツテーブル110を使用して、構造化されていない文書10をコンテンツテーブルのエントリにリンクされたテキストセクションに分割することによって構造化し、構造化された文書を作成することができる。コンテンツテーブルが文書の自動化された構造化のために使用されるとき、クロスリンクが構造化された文書のフォーマットにおける誤りを導くことができるので、順序付け基準を厳密に行使することが典型的には効果的である。
以上は、テキストセクションにインデックスするコンテンツテーブルを識別する例示的なアプリケーションを特に論じているが、開示されたアプローチが、図面(通常は「図テーブル」と呼ばれる)、表(通常は「表テーブル」と呼ばれる)、式などのような文書の他の特徴をインデックスするコンテンツテーブルを識別するためにも適用可能である。
10 構造化されていない文書、12 テキスト断片化器、14 テキスト断片、20 逐語的類似性リンク識別器、22 リンク、30 候補TOC選択器、34 TOC選択器、38 リンク最適化器、110 選択されたTOC。
Claims (4)
- 文書内のコンテンツテーブルを識別する方法であって、
前記文書からテキスト断片の順序付きシーケンスを生成するステップと、
前記テキスト断片の順序付きシーケンスの連続的なサブシーケンスとして、コンテンツテーブルを、
(i)前記コンテンツテーブルのテキスト断片によって規定されるエントリが、前記エントリとの逐語的類似性を有するターゲットテキスト断片へのリンクを各々有し、
(ii)前記コンテンツテーブルにはターゲットテキスト断片は存在せず、
(iii)前記ターゲットテキスト断片は、前記ターゲットテキスト断片を規定する前記エントリの昇順に対応する昇順を有する、
という基準を満たして選択するステップと、
を包含する、方法。 - 前記選択されたコンテンツテーブルが、エントリを規定しない前記選択されたコンテンツテーブルのテキストエントリによって規定されたホールを含み、ホールの数がエントリの数より実質的に小さく、前記ホールは基準(i)、(ii)、及び(iii)を評価する際に考慮されない、請求項1に記載の方法。
- 前記テキスト断片の順序付きシーケンスを含む構造化文書を構築するステップをさらに含み、前記構造化文書が、前記選択されたコンテンツテーブルに従って構築され且つ前記対応したターゲットテキスト断片に関連した部分を有している、請求項1に記載の方法。
- 前記コンテンツテーブルを選択するステップが、
テキスト断片の対に関連する複数の逐語的類似性リンクを決定するステップであって、少なくともいくつかのテキスト断片が一つより多くのリンクに含まれているステップと、
各々が前記テキスト断片の順序付きシーケンスの連続したサブシーケンスによって規定され、且つ各々が基準(i)、(ii)、及び(iii)を満たすリンクの少なくとも一つの組み合わせを有する複数の候補コンテンツテーブルを決定するステップと、
各々の候補コンテンツテーブルを、前記候補コンテンツテーブルに含まれるソーステキスト断片を有する前記逐語的類似性リンクに基づいてランク付けするステップと、
最高にランクされた候補コンテンツテーブルを、前記コンテンツテーブルとして選ぶステップと、
前記コンテンツテーブルに含まれるソーステキスト断片を有する前記複数の逐語的類似性リンクを最適化して、各々のエントリに対して一つより多くないリンクを選択するステップであって、前記最適化が基準(i)、(ii)、及び(iii)を満たすステップと、
をさらに包含する、請求項1に記載の方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/032,814 US8706475B2 (en) | 2005-01-10 | 2005-01-10 | Method and apparatus for detecting a table of contents and reference determination |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006195982A true JP2006195982A (ja) | 2006-07-27 |
Family
ID=36406010
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006001047A Pending JP2006195982A (ja) | 2005-01-10 | 2006-01-06 | コンテンツテーブルの検出ならびに参照判定の方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8706475B2 (ja) |
EP (1) | EP1679623A3 (ja) |
JP (1) | JP2006195982A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016053871A (ja) * | 2014-09-04 | 2016-04-14 | 日本電信電話株式会社 | データ生成装置、データ生成方法、及びプログラム |
Families Citing this family (53)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9110868B2 (en) | 2005-01-10 | 2015-08-18 | Xerox Corporation | System and method for logical structuring of documents based on trailing and leading pages |
US7937653B2 (en) | 2005-01-10 | 2011-05-03 | Xerox Corporation | Method and apparatus for detecting pagination constructs including a header and a footer in legacy documents |
US20070130202A1 (en) * | 2005-12-03 | 2007-06-07 | International Business Machines Corporation | System and method for automatically generating a searchable plug-in from text files |
US8429177B2 (en) * | 2006-02-08 | 2013-04-23 | Yahoo! Inc. | Using exceptional changes in webgraph snapshots over time for internet entity marking |
US20080065671A1 (en) * | 2006-09-07 | 2008-03-13 | Xerox Corporation | Methods and apparatuses for detecting and labeling organizational tables in a document |
US8782551B1 (en) | 2006-10-04 | 2014-07-15 | Google Inc. | Adjusting margins in book page images |
US7979785B1 (en) * | 2006-10-04 | 2011-07-12 | Google Inc. | Recognizing table of contents in an image sequence |
US7912829B1 (en) | 2006-10-04 | 2011-03-22 | Google Inc. | Content reference page |
US7797622B2 (en) * | 2006-11-15 | 2010-09-14 | Xerox Corporation | Versatile page number detector |
US20090013033A1 (en) * | 2007-07-06 | 2009-01-08 | Yahoo! Inc. | Identifying excessively reciprocal links among web entities |
US8023740B2 (en) * | 2007-08-13 | 2011-09-20 | Xerox Corporation | Systems and methods for notes detection |
US9224041B2 (en) * | 2007-10-25 | 2015-12-29 | Xerox Corporation | Table of contents extraction based on textual similarity and formal aspects |
US20090144277A1 (en) * | 2007-12-03 | 2009-06-04 | Microsoft Corporation | Electronic table of contents entry classification and labeling scheme |
US8392816B2 (en) * | 2007-12-03 | 2013-03-05 | Microsoft Corporation | Page classifier engine |
US8250469B2 (en) * | 2007-12-03 | 2012-08-21 | Microsoft Corporation | Document layout extraction |
JP2010044637A (ja) * | 2008-08-14 | 2010-02-25 | Just Syst Corp | データ処理装置、方法、及びプログラム |
US8352857B2 (en) * | 2008-10-27 | 2013-01-08 | Xerox Corporation | Methods and apparatuses for intra-document reference identification and resolution |
US20110113316A1 (en) * | 2008-12-31 | 2011-05-12 | Microsoft Corporation | Authoring tools for rich interactive narratives |
US20110113315A1 (en) * | 2008-12-31 | 2011-05-12 | Microsoft Corporation | Computer-assisted rich interactive narrative (rin) generation |
US9092437B2 (en) * | 2008-12-31 | 2015-07-28 | Microsoft Technology Licensing, Llc | Experience streams for rich interactive narratives |
US20110119587A1 (en) * | 2008-12-31 | 2011-05-19 | Microsoft Corporation | Data model and player platform for rich interactive narratives |
JP5412903B2 (ja) * | 2009-03-17 | 2014-02-12 | コニカミノルタ株式会社 | 文書画像処理装置、文書画像処理方法および文書画像処理プログラム |
US9135249B2 (en) * | 2009-05-29 | 2015-09-15 | Xerox Corporation | Number sequences detection systems and methods |
US8340425B2 (en) | 2010-08-10 | 2012-12-25 | Xerox Corporation | Optical character recognition with two-pass zoning |
US8645819B2 (en) | 2011-06-17 | 2014-02-04 | Xerox Corporation | Detection and extraction of elements constituting images in unstructured document files |
US8478046B2 (en) | 2011-11-03 | 2013-07-02 | Xerox Corporation | Signature mark detection |
US20130174030A1 (en) * | 2012-01-04 | 2013-07-04 | Freedom Solutions Group, LLC, d/b/a Microsystems | Method and apparatus for analyzing abbreviations in a document |
US9008443B2 (en) | 2012-06-22 | 2015-04-14 | Xerox Corporation | System and method for identifying regular geometric structures in document pages |
US8812870B2 (en) * | 2012-10-10 | 2014-08-19 | Xerox Corporation | Confidentiality preserving document analysis system and method |
US9008425B2 (en) | 2013-01-29 | 2015-04-14 | Xerox Corporation | Detection of numbered captions |
US9495347B2 (en) * | 2013-07-16 | 2016-11-15 | Recommind, Inc. | Systems and methods for extracting table information from documents |
US20150169676A1 (en) * | 2013-12-18 | 2015-06-18 | International Business Machines Corporation | Generating a Table of Contents for Unformatted Text |
US9672195B2 (en) | 2013-12-24 | 2017-06-06 | Xerox Corporation | Method and system for page construct detection based on sequential regularities |
RU2604668C2 (ru) * | 2014-06-17 | 2016-12-10 | Общество с ограниченной ответственностью "Аби Девелопмент" | Визуализация машинно-генерируемого изображения документа |
US9530070B2 (en) | 2015-04-29 | 2016-12-27 | Procore Technologies, Inc. | Text parsing in complex graphical images |
CN106683677B (zh) * | 2015-11-06 | 2021-11-12 | 阿里巴巴集团控股有限公司 | 语音识别方法及装置 |
US10896030B2 (en) | 2017-09-19 | 2021-01-19 | International Business Machines Corporation | Code generation relating to providing table of contents pointer values |
US10705973B2 (en) | 2017-09-19 | 2020-07-07 | International Business Machines Corporation | Initializing a data structure for use in predicting table of contents pointer values |
US11061575B2 (en) | 2017-09-19 | 2021-07-13 | International Business Machines Corporation | Read-only table of contents register |
US10725918B2 (en) | 2017-09-19 | 2020-07-28 | International Business Machines Corporation | Table of contents cache entry having a pointer for a range of addresses |
US10620955B2 (en) | 2017-09-19 | 2020-04-14 | International Business Machines Corporation | Predicting a table of contents pointer value responsive to branching to a subroutine |
US10884929B2 (en) | 2017-09-19 | 2021-01-05 | International Business Machines Corporation | Set table of contents (TOC) register instruction |
US10713050B2 (en) | 2017-09-19 | 2020-07-14 | International Business Machines Corporation | Replacing Table of Contents (TOC)-setting instructions in code with TOC predicting instructions |
US10726198B2 (en) | 2017-10-17 | 2020-07-28 | Handycontract, LLC | Method, device, and system, for identifying data elements in data structures |
US11475209B2 (en) | 2017-10-17 | 2022-10-18 | Handycontract Llc | Device, system, and method for extracting named entities from sectioned documents |
US10977240B1 (en) * | 2017-10-21 | 2021-04-13 | Palantir Technologies Inc. | Approaches for validating data |
US10762142B2 (en) | 2018-03-16 | 2020-09-01 | Open Text Holdings, Inc. | User-defined automated document feature extraction and optimization |
US11048762B2 (en) | 2018-03-16 | 2021-06-29 | Open Text Holdings, Inc. | User-defined automated document feature modeling, extraction and optimization |
US10650186B2 (en) | 2018-06-08 | 2020-05-12 | Handycontract, LLC | Device, system and method for displaying sectioned documents |
US11610277B2 (en) | 2019-01-25 | 2023-03-21 | Open Text Holdings, Inc. | Seamless electronic discovery system with an enterprise data portal |
US11468346B2 (en) | 2019-03-29 | 2022-10-11 | Konica Minolta Business Solutions U.S.A., Inc. | Identifying sequence headings in a document |
US11494555B2 (en) | 2019-03-29 | 2022-11-08 | Konica Minolta Business Solutions U.S.A., Inc. | Identifying section headings in a document |
CN113486071B (zh) * | 2021-07-27 | 2022-04-26 | 掌阅科技股份有限公司 | 基于电子书的搜索方法、服务端、客户端及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000330979A (ja) * | 1999-05-18 | 2000-11-30 | Ntt Data Corp | 検索対象となる電子文書の解析方法及び電子文書登録システム |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5434962A (en) | 1990-09-07 | 1995-07-18 | Fuji Xerox Co., Ltd. | Method and system for automatically generating logical structures of electronic documents |
US5491628A (en) | 1993-12-10 | 1996-02-13 | Xerox Corporation | Method and apparatus for document transformation based on attribute grammars and attribute couplings |
US6298357B1 (en) | 1997-06-03 | 2001-10-02 | Adobe Systems Incorporated | Structure extraction on electronic documents |
US6687404B1 (en) * | 1997-06-20 | 2004-02-03 | Xerox Corporation | Automatic training of layout parameters in a 2D image model |
IE980959A1 (en) | 1998-03-31 | 1999-10-20 | Datapage Ireland Ltd | Document Production |
US6199061B1 (en) * | 1998-06-17 | 2001-03-06 | Microsoft Corporation | Method and apparatus for providing dynamic help topic titles to a user |
US6769096B1 (en) * | 1998-06-24 | 2004-07-27 | Microsoft Corporation | System and method for updating a table of contents in a frameset |
US6167368A (en) * | 1998-08-14 | 2000-12-26 | The Trustees Of Columbia University In The City Of New York | Method and system for indentifying significant topics of a document |
US6487566B1 (en) | 1998-10-05 | 2002-11-26 | International Business Machines Corporation | Transforming documents using pattern matching and a replacement language |
US6421683B1 (en) * | 1999-03-31 | 2002-07-16 | Verizon Laboratories Inc. | Method and product for performing data transfer in a computer system |
US6772156B1 (en) * | 1999-11-29 | 2004-08-03 | Actuate Corporation | Method and apparatus for creating and displaying a table of content for a computer-generated report having page-level security |
US7028250B2 (en) * | 2000-05-25 | 2006-04-11 | Kanisa, Inc. | System and method for automatically classifying text |
US6772120B1 (en) * | 2000-11-21 | 2004-08-03 | Hewlett-Packard Development Company, L.P. | Computer method and apparatus for segmenting text streams |
US20040003028A1 (en) * | 2002-05-08 | 2004-01-01 | David Emmett | Automatic display of web content to smaller display devices: improved summarization and navigation |
US20020143818A1 (en) | 2001-03-30 | 2002-10-03 | Roberts Elizabeth A. | System for generating a structured document |
JP2003150586A (ja) | 2001-11-12 | 2003-05-23 | Ntt Docomo Inc | 文書変換システム、文書変換方法及び文書変換プログラムを記録したコンピュータ読み取り可能な記録媒体 |
US7137062B2 (en) * | 2001-12-28 | 2006-11-14 | International Business Machines Corporation | System and method for hierarchical segmentation with latent semantic indexing in scale space |
US6907431B2 (en) * | 2002-05-03 | 2005-06-14 | Hewlett-Packard Development Company, L.P. | Method for determining a logical structure of a document |
US20040024780A1 (en) * | 2002-08-01 | 2004-02-05 | Koninklijke Philips Electronics N.V. | Method, system and program product for generating a content-based table of contents |
US20040237037A1 (en) * | 2003-03-21 | 2004-11-25 | Xerox Corporation | Determination of member pages for a hyperlinked document with recursive page-level link analysis |
US20050076000A1 (en) * | 2003-03-21 | 2005-04-07 | Xerox Corporation | Determination of table of content links for a hyperlinked document |
US7296011B2 (en) * | 2003-06-20 | 2007-11-13 | Microsoft Corporation | Efficient fuzzy match for evaluating data records |
-
2005
- 2005-01-10 US US11/032,814 patent/US8706475B2/en active Active
-
2006
- 2006-01-06 JP JP2006001047A patent/JP2006195982A/ja active Pending
- 2006-01-10 EP EP06100201A patent/EP1679623A3/en not_active Ceased
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000330979A (ja) * | 1999-05-18 | 2000-11-30 | Ntt Data Corp | 検索対象となる電子文書の解析方法及び電子文書登録システム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016053871A (ja) * | 2014-09-04 | 2016-04-14 | 日本電信電話株式会社 | データ生成装置、データ生成方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
US8706475B2 (en) | 2014-04-22 |
EP1679623A2 (en) | 2006-07-12 |
EP1679623A3 (en) | 2007-09-05 |
US20060155703A1 (en) | 2006-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2006195982A (ja) | コンテンツテーブルの検出ならびに参照判定の方法 | |
US7890859B2 (en) | Rapid similarity links computation for table of contents determination | |
US7743327B2 (en) | Table of contents extraction with improved robustness | |
EP2180411B1 (en) | Methods and apparatuses for intra-document reference identification and resolution | |
US20080065671A1 (en) | Methods and apparatuses for detecting and labeling organizational tables in a document | |
US6999914B1 (en) | Device and method of determining emotive index corresponding to a message | |
JP4974529B2 (ja) | ヘッダ/フッタ等の既存文書内ページ区切り要素の検出方法及び装置 | |
US9135249B2 (en) | Number sequences detection systems and methods | |
US8023740B2 (en) | Systems and methods for notes detection | |
US6546401B1 (en) | Method of retrieving no word separation text data and a data retrieving apparatus therefor | |
US20090292698A1 (en) | Method for extracting a compact representation of the topical content of an electronic text | |
EP1843276A1 (en) | Method for automated processing of hard copy text documents | |
US20120197908A1 (en) | Method and apparatus for associating a table of contents and headings | |
US20080077847A1 (en) | Captions detector | |
US20100042397A1 (en) | Data processing apparatus and method | |
JP4865526B2 (ja) | データマイニングシステム、データマイニング方法及びデータ検索システム | |
WO2011006300A1 (en) | Acronym extraction | |
EP1745396A1 (en) | Document information mining tool | |
KR101143650B1 (ko) | 분석용 디스플레이 문서 준비 장치 | |
JP5097802B2 (ja) | ローマ字変換を用いる日本語自動推薦システムおよび方法 | |
Avetisyan et al. | Word embeddings for the armenian language: intrinsic and extrinsic evaluation | |
JP5226198B2 (ja) | 規則帰納システムのためのxmlベースのアーキテクチャ | |
JP4143085B2 (ja) | 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP2009009307A (ja) | 文書画像処理装置及びその方法 | |
JP2005222480A (ja) | 重要語抽出装置、重要語抽出方法、および重要語抽出プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20081229 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110426 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110726 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120605 |