JP2006195982A - コンテンツテーブルの検出ならびに参照判定の方法 - Google Patents

コンテンツテーブルの検出ならびに参照判定の方法 Download PDF

Info

Publication number
JP2006195982A
JP2006195982A JP2006001047A JP2006001047A JP2006195982A JP 2006195982 A JP2006195982 A JP 2006195982A JP 2006001047 A JP2006001047 A JP 2006001047A JP 2006001047 A JP2006001047 A JP 2006001047A JP 2006195982 A JP2006195982 A JP 2006195982A
Authority
JP
Japan
Prior art keywords
content table
text
link
fragment
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006001047A
Other languages
English (en)
Inventor
Herve Dejean
ドゥジャン エルベ
Jean-Luc Meunier
ムニエ ジーン−ルク
Olivier Fambon
ファンボン オリビエ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JP2006195982A publication Critical patent/JP2006195982A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]

Abstract

【課題】構造化されていない文章からテーブルを抽出するための方法及び装置を提供する。
【解決手段】文書内のコンテンツテーブルを識別する方法であって、前記文書からテキスト断片の順序付きシーケンスを生成するステップと、前記テキスト断片の順序付きシーケンスの連続的なサブシーケンスとして、コンテンツテーブルを、(i)前記コンテンツテーブルのテキスト断片によって規定されるエントリが、前記エントリとの逐語的類似性を有するターゲットテキスト断片へのリンクを各々有し、(ii)前記コンテンツテーブルにはターゲットテキスト断片は存在せず、(iii)前記ターゲットテキスト断片は、前記ターゲットテキスト断片を規定する前記エントリの昇順に対応する昇順を有する、という基準を満たして選択するステップと、を包含する。
【選択図】図1

Description

以下は、情報の記憶及び処理技術に関している。これは、拡張可能マークアップ言語(XML)、標準一般化マークアップ言語(SGML)、ハイパーテキストマークアップ言語(HTML)などのようなマークアップフォーマットにおけるレガシー文書のカタログ化に関連して、特定のアプリケーションを見出し、特にそれを参照して記述される。しかし、以下が他の同様のアプリケーションに対して変更可能であることを理解されたい。
レガシー文書変換は、アドビ・ポータブル文書フォーマット(PDF)、様々なテキストフォーマット、様々なワードプロセッシングフォーマットなどのようなフォーマットにて存在している構造化されていない文書を、XML、SGML、HTMLなどのようなマークアップ言語を使用した構造化文書に変換することに関している。構造化文書では、コンテンツは、適切なヘッダなどを有する輪郭化されたセクションに組織化される。そのような組織化は、典型的にはマークアップタグを使用して具現化される。XMLのようないくつかの構造化文書フォーマットでは、文書タイプ定義(DTD)又は同様の文書部分が、セクションの識別のような文書についての全体的な情報を提供し、ネスト化されたセクションのような複雑な文書構造を容易化する。
一方、構造化されていない文書は、限定的な構造情報を提供するか、又は何の情報も提供しない。企業データベース、政府データベース、及びその他の文書保存場所における多くの文書は、構造化されていないフォーマットになっている。これは、それらの文書が、所有機関による構造化文書フォーマットの最初の使用に先立つ文書であるか、又は、ソフトウエア、文書スキャナ、又はその他の文書ソースが、通常は構造化されていないフォーマットに出力するからである。
構造化されていない文書の構造化フォーマットへの変換に対する関心が持たれている。文書を変換する動機は様々であり、典型的には、文書の一部の再利用又は再目的化、情報保存データベースにおける文書の統一化に対する欲望、文書検索の容易化などを含む。構造化されていない文書に追加すると有益な構造の一つのタイプは、コンテンツテーブルである。構造化されていない文書はしばしばコンテンツテーブルのテキストを含み、これは、構造化されていない文書のコンテンツに対する論理的組織又はフレームワークを提供し、このコンテンツフレームワークの論理テーブルを検出して、このコンテンツフレームワークの論理テーブルを、変換された構造化文書の構造に一体化することは有益である。
構造化されていない文書からテーブルを抽出するための現存する方法及び装置は、一般的にはロバストではない。例えば、いくつかの現存するアプローチは、コンテンツテーブルにてインデックスが付けられた文書ヘッディングと周囲のテキストとの間のフォントの相違に頼る。しかし、プレーンテキストフォーマットのようなある構造化されていない文書フォーマットでは、このフォント情報は利用できない。いくつかの現存するアプローチは、新しいページで始まるコンテンツテーブルでインデックスが付けられた各セクションに頼る。再び、多くのタイプの構造化されていない文書に対しては、この構造は有効ではない。いくつかの構造化されていないフォーマットは、ページ番号付けをすっかり省く。構造化されていないフォーマットがページ番号付けを提供するとしても、コンテンツテーブルによってインデックスが付けられたいくつかの部分は、ページの中間で始まる。
ある局面によれば、文書内のコンテンツテーブルを識別する方法が提供される。テキスト断片の順序付きシーケンスが、前記文書から生成される。逐語的類似性基準を満たすテキスト断片の対の間のリンクが規定される。各リンクは、ソーステキスト断片とターゲットテキスト断片とを含む。コンテンツテーブルが、テキスト断片の順序付きシーケンスの中から選択される。コンテンツテーブルは、テキスト断片の順序付きシーケンスの連続的なサブシーケンスを含む。コンテンツテーブルのテキスト断片はエントリを規定し、各エントリは、そのエントリをソーステキストコンテンツとして含むリンクから選択された最適化されたターゲットテキスト断片を有する。選択されたコンテンツテーブルは、少なくとも、(i)最適化されたターゲットテキスト断片に対する昇順を提供する、及び(ii)選択されたコンテンツテーブルに含まれる最適化されたターゲットテキスト断片を有するエントリは存在しないことを提供する、という基準に関して、最適化される。
他の局面によれば、文書内のコンテンツテーブルを識別する方法が提供される。前記文書からテキスト断片の順序付きシーケンスが生成される。コンテンツテーブルは、前記テキスト断片の順序付きシーケンスの連続的なサブシーケンスとして、(i)前記コンテンツテーブルのテキスト断片によって規定されるエントリが、前記エントリとの逐語的類似性を有するターゲットテキスト断片とのリンクを各々有し、(ii)前記コンテンツテーブルにはターゲットテキスト断片は存在せず、(iii)前記ターゲットテキスト断片は、前記ターゲットテキスト断片を規定する前記エントリの昇順に対応する昇順を有する、という基準を満たして選択される。
他の局面によれば、文書内のコンテンツテーブルを識別する装置が開示される。テキスト断片化器は、テキスト断片の順序付きシーケンスを文書から生成する。リンク識別器は、逐語的類似性基準を満たすテキスト断片の対の間のリンクを規定する。各リンクは、ソーステキスト断片とターゲットテキスト断片とを含む。候補コンテンツテーブル選択器は、複数の候補コンテンツテーブルを選択する。各候補は、少なくとも順序付け基準と非自己参照基準とを含む基準を潜在的に満足することができるテキスト断片の順序付きシーケンスの連続的なサブシーケンスを含む。コンテンツテーブル選択器は、候補コンテンツテーブルの一つを選択する。リンク最適化器は、選択されたコンテンツテーブルに対するエントリを規定するテキスト断片に対する最適化されたリンクを選択する。最適化されたリンクは、順序付け基準と非自己参照基準とを満足する。
図1を参照すると、構造化されていない文書10におけるコンテンツテーブルを識別する装置が記述される。テキスト断片化器12が、構造化されていない文書10をテキスト断片14の順序付きシーケンスに分解する。典型的には、構造化されていない文書10は、オフ・ザ・シェルフ変換器を使用して、文書から作成されたテキスト又はXMLファイルからのテキストストリングのリストとして、(アドビPDF、Wordフレームメーカなどのような)入力フォーマットにロードされる。紙の文書は、光スキャナを使用して適切にスキャンされて、光文字認識器(OCR)によって処理される。テキスト文書に対しては、各行は適切に、行毎に順序付けられた断片になる。XML又はHTML文書については、各PCDATAが適切にテキスト断片になる。
テキスト断片を順序付けるために、深さ第1(depth-first)の最後から先頭へ、左から右への(文書順の)横断、又はページ内の断片位置の使用など、いくつかの戦略を使用することができる。また、XMLノードとテキスト断片との間の関係を保存して、検出されたコンテンツテーブル及び参照を処理の終了時にXMLノード上にマッピングし戻すことができる。テキスト断片化器12が、行、ブロック、1行の単語の連続における逐語的コンテンツを断片化することができ、又は(例えば、タイトルの最初の単語の最初の文字についての異なるフォーマットのために)1つの単語を2つのテキスト断片に分割しても良い。ここで記述されるコンテンツテーブル識別アプローチは、これらの様々なタイプのテキスト断片化に関してロバストであることが見出されている。
結果として得られたテキスト断片14の順序付きシーケンスは、リンク22を識別する逐語的類似性リンク識別器20によって処理される。各リンクは、逐語的に類似したテキスト断片の対によって規定される。リンクを規定する対のテキスト断片は、ここではソース及びターゲットテキスト断片として識別される。
そのようなテキスト断片対を規定する様々な方法がある。一般に、N個の断片について、リンクの計算は0(N)のオーダである。加えて、テキストにおけるノイズの存在の可能性も、考慮に入れられるべきである。ノイズは、PDFからテキストへの誤変換、又はコンテンツテーブルには現れるが文書本体には現れないページ番号のようなコンテンツテーブルに特有の問題、あるいはページ番号をコンテンツテーブルにおけるセクションタイトルに関係付ける直列の楕円(………)のような、様々な原因から来ることができる。
いくつかの実施形態では、各テキスト断片は、タブ、スペース、又は句読点符号のような非英数字セパレータとともに、一連の英数字トークンにトークン化される。いくつかの実施形態では、逐語的類似性を測定するためにジャカード(Jaccard)が使用される。ジャカードは、候補ソース及びターゲットテキスト断片によって規定される2つのトークンセットの共通部分の基数を、これら2つのトークンセットの和集合の基数で除算したものとして計算される。ジャカードの測定値が選択されたマッチング閾値より大きい対に対して、リンクが規定される。他の実施形態では、編集距離又はその他の適切な測定値が、逐語的類似性の比較として使用される。編集距離の測定に対しては閾値は最大であり、編集距離閾値よりも小さい編集距離を有する対が、逐語的に類似した対と指定される。
図2を簡単に参照すると、逐語的類似性リンクは、類似性マトリクス100を使用して適切に視覚化される。ソーステキスト断片#iとターゲット断片#jとの間のリンクを(#i、#j)と指定すると、リンク(#i、#j)は閾値又はその他のリンク選択基準を満足するので、リンク(#j、#i)もまた閾値又はその他のリンク選択基準を満足することを理解されたい。類似性マトリクスの要素は、類似性マトリクス100の右上の半分(又は等価に左下の半分)のみについて計算される必要がある。図2において、計算されたJaccardが選択された閾値を超えるリンクは、リンクセルにて「X」マークで示されている。さらに、図2には示されていないが、閾値を越える各リンクは、逐語的類似性に関してリンクの強さを示す関連したJaccard又はその他の計測値を有する。
図3を参照すると、コンテンツテーブル110は、テキスト断片14の順序付きシーケンスの連続したサブシーケンスを表す。4つの一般的な基準を使用して、テキスト断片14の順序付きシーケンスの内部のコンテンツテーブル110を区別し識別する。
第1の基準は連続性である。コンテンツテーブルは、テキスト断片14の順序付きシーケンスの連続したサブシーケンスを含む。この連続したサブシーケンスのテキスト断片の大半は、コンテンツテーブルのエントリ112であることが期待される。各エントリは、リンク22の一つによって、コンテンツテーブルに引き続くテキストの部分にリンクされている。コンテンツテーブル110に関連しているこれらのリンクは、図3に、曲がった矢印114として示されている。コンテンツテーブル110のリンク114が、逐語的類似性リンク識別器20によって計算されたリンク22のサブセットであることを理解されたい。しかし、リンク22は、典型的には、リンク114のサブセットに加えて多くのリンクを含む。
コンテンツテーブル110のテキスト断片の大半はエントリ112であるが、コンテンツテーブル110を規定するテキスト断片の連続したサブシーケンスにおけるテキスト断片の小さな部分は、エントリ112ではなくホールであり得る。ホールは、関連したリンク114を有さず、文書の他の部分にリンクしているコンテンツテーブルエントリを示さない。ホールの例116が、図3に示されている。典型的には、ホール数のエントリ数に対する比率は、約0.2より小さい。いくつかの実施形態では、最大許容可能なホール数は、ユーザが選択可能なパラメータである。
第2の基準は、逐語的類似性である。各リンク114は、エントリ112を、エントリのテキストに類似したテキストを有するヘッディング又はその他のテキスト断片に接続すべきである。逐語的類似性は、逐語的類似性リンク識別器20によって使用されるJaccard又はその他のテキスト類似性測定値によって、適切に測定される。ターゲットテキスト断片は、通常のコンテンツテーブルの場合には、典型的にはセクションヘッディングである。文書の図をリストしているコンテンツテーブル(すなわち図テーブル)の場合には、ターゲットテキスト断片は図のキャプションであり得る。文書の表をリストしているコンテンツテーブル(すなわち表テーブル)の場合には、ターゲットテキスト断片は表のキャプションであり得る。いくつかの文書では、図及び/又は表のキャプションは、対応する図及び/又は表の下にあり得る。
第3の基準は順序付けである。リンク114のターゲットテキスト断片は、エントリ112の昇順に対応した昇順を有するべきである。すなわち、エントリのセット{#i、#i、#i、…}が昇順を有しているリンクのセット{(#i、#j)、(#i、#j)、(#i、#j)、…}を有するエントリのセット{#i、#i、#i、…}に対して、ターゲット断片の対応するセット{#j、#j、#j、…}の順序もまた、昇順であるべきである。
第4の基準は、自己参照の欠如である。リンク114の全てはコンテンツテーブル110の内部から始まるべきであり、リンク114のいずれもコンテンツテーブル110の内部で終結すべきではない。エントリのセット{#i、#i、#i、…}及び対応するターゲットテキスト断片のセット{#j、#j、#j、…}は空の交点を有するべきであり、さらに、ターゲットテキスト断片{#j、#j、#j、…}のいずれも、コンテンツテーブル110のホールテキスト断片に対応すべきではない。
図4を参照すると、自己参照の欠如と、コンテンツテーブルが典型的には文書の開始点の近傍で生じるという観察とは、類似性マトリクス100のサーチエリアをさらに減らすために使用されることができる。コンテンツテーブルがk個の最初及び最後のテキスト断片内のみにあると仮定すると、これにより、k=5に対して、図4のダークグレイの四角形120に示されているように、マトリクスの中央を対象から外す。
図1に戻って参照すると、テキスト断片14の順序付きシーケンスの中から、テキスト断片の順序付きシーケンスの連続したサブシーケンスを含むコンテンツテーブル110を選択する一つのアプローチが記述される。コンテンツテーブルは、連続性、テキストの類似性、順序付け、及び非自己参照の基準に基づいて選択される。候補コンテンツテーブル選択器30は、一つ又はそれ以上の候補コンテンツテーブルを選択する。一つの適切なアプローチでは、コンテンツテーブルに対して、N個の候補の開始テキスト断片に対応して、N個の仮説がテストされる。可能性のあるN個の開始テキスト断片の各々について、「コンテンツテーブルはこのテキスト断片で開始することができるか?」という仮説がテストされる。
いくつかの適切な実施形態では、テストが候補開始テキスト断片で始まり、それから各々の引き続くテキスト断片を調べて、候補コンテンツテーブルにそれを含めるべきかどうかが考慮される。候補コンテンツテーブルは、新しいテキスト断片の追加が順序制約を破るまで、引き続く連続したテキスト断片を加えることによって拡張される。例えば、最後に加えられたテキスト断片がターゲット断片#j=15及び#j=33へのリンクを有するソーステキスト断片であり、且つ考慮されている次のテキスト断片がターゲット断片#j=20のみへのリンクを有するソーステキスト断片であると、そのときには、#j=20が#j=15より大きいので、この次のテキスト断片は候補コンテンツテーブルに加えられることができる。しかし、次のテキスト断片がターゲット断片#j=12へのリンクのみを有しているソーステキスト断片であると、そのときにはこれは順序付けを破る。
しかし、候補コンテンツテーブルにいくつかのホールを許容するために、順序付けの制約をいくらか緩和することが有益である。これは、関連するリンクのないある数のテキスト断片の存在を許容し、且つリンクが交差したある数の断片、すなわちその関連するリンクの全てが候補コンテンツテーブルにて順序付け制約を破っているテキスト断片を許容することによって、適切に達成される。いくらかのリンク交差を許容することは、例えば、現在の候補コンテンツテーブルにおける以前のテキスト断片が、文書内の離れすぎた前方を指している一つのリンクしか含んでいないときに、有用である。
非自己参照制約を強化するために、候補コンテンツテーブルの大きさが順序付け制約に関して仮決定されると、第2のパスが適切に実行される。第2のパスを使用することは、コンテンツテーブルの終了点が分からないが、その開始点を越えて延びているときに、コンテンツテーブルの終了点に関する不確定さを説明する。第2のパスは、候補コンテンツテーブルの最上部で、オリジナルの開始テキスト断片にて始まる。各々の引き続くテキスト断片がテストされる。引き続くテキスト断片がそのコンテンツテーブル内のテキスト断片のみへのリンクを含んでいると、そのときに、それは非自己参照基準を守らない。したがって、第2のパスは、非自己参照を守らないそのテキスト断片の直前で、候補コンテンツテーブルを終端する。
しかし、再び、ある数のホールを許容することが有用であり得る。これは、候補コンテンツテーブルの一つ又はいくつかのテキスト断片を自己参照的にすることを可能にすることにより、第2のパスで適切に達成される。自己参照基準を守らないこれらのテキスト断片は、候補コンテンツテーブルにおいて、エントリというよりホールであると推定される。
この処理は、N個の可能性のある開始テキスト断片の各々について、繰り返される。この結果は、一つ又はそれ以上の候補コンテンツテーブルのセットであり、各々はテキスト断片の連続リストから形成されている。候補コンテンツテーブルは、順序付け及び非自己参照制約が従われることができる(その一方でオプションとして限定された数のホールを許容する)ことを確実にするような方法で構成されたので、候補コンテンツテーブルの各エントリについて、その許容可能なリンクのリストから、順序付け及び非自己参照制約が尊重されるように一つのリンクを選択することが可能である。オプションとして、フィルタリング基準が候補コンテンツテーブル選択器30によって適用されて、明らかに正しくない候補コンテンツテーブルを除去してもよい。例えば、3つより少ないテキスト断片を有する候補コンテンツテーブルは、適切に破棄され得る。
コンテンツテーブル選択器34は、候補コンテンツテーブルをランク付けし、最高にランクされたコンテンツテーブルを選択する。リンク最適化器38がそれから、その選択されたコンテンツテーブルに対するリンクを最適化して、最終の選択されたコンテンツテーブル110を作成する。このアプローチでは、コンテンツテーブル選択器34は、計算能力的に効率的なランク付け方法を使用して候補コンテンツテーブルをランク付けし、選択されたコンテンツテーブルのみがそれから、リンク最適化器38によって実行される計算能力的により強力な処理を受ける。このアプローチは、コンテンツテーブルを正確に選択するために満足したものであることが見出される。計算能力的により強力なアプローチもまた、リンク最適化が候補コンテンツテーブルの各々について実行され且つランク付けがリンク最適化の結果を考慮して企図される。
図1を引き続いて参照すると、コンテンツテーブル選択器34は、スコア付け機能を利用して候補コンテンツテーブルをランク付けする。最高にランクされた候補コンテンツテーブルが、それから更なる処理のために選択される。いくつかの実施形態では、スコア付け機能はエントリ重みの合計である。ここで、エントリ重みは、コンテンツテーブルのエントリに関連したリンクの数に反比例する。このエントリ重みは、所与のソーステキストターゲットで始まるリンクが多いほどそれらのリンクがコンテンツテーブルの「真の」リンクである可能性が低くなるという仮定の下で、その関連するリンクの任意のものの確実さを特徴付ける。
他のスコア付け機能が使用されることができる。例えば、他の企図されるスコア付け機能は、候補コンテンツテーブルにおけるエントリの数を合計する。短い候補コンテンツテーブルは、テキスト断片の大きな連続シーケンスが順序付け及び非自己参照基準を満足できることが見出される長いコンテンツテーブルよりも、典型的には「正しい」可能性が低い。さらに他の企図されるスコア付け機能は、ターゲットテキスト断片のスパンを文書10全体に関して特徴付ける。特定の候補コンテンツテーブルの利用可能なターゲットテキスト断片が文書10の小さな部分のみをスパンしていると、そのときには、その候補コンテンツテーブルはその文書に対する「真の」コンテンツテーブルである。これらのスコア付け機能は例であって、他のスコア付け機能、又は様々なスコア付け機能の組み合わせが、利用されることができる。
最高にランク付けされた候補コンテンツテーブルがひとたび選択されると、リンク最適化器38がそのコンテンツテーブルに適用されて、最終のコンテンツテーブル110を生成する。コンテンツテーブルのエントリの各々に対する最良のリンクの選択には、連続性、テキスト類似性、順序付け、及び非自己参照という4つのコンテンツテーブル制約を尊重しながらコンテンツテーブルに対するグローバル最適を見出すことが関与する。いくつかの実施形態では、重みは各々のリンクに関連しており、これはそのマッチングのレベルに比例する。
図5〜図10を参照すると、いくつかの実施形態では、ビタビ最短パスアルゴリズムが、最適化されたリンクを選択する際に利用される。コンテンツテーブルの各々のテキスト断片(#i)は、一つ又はそれ以上の可能なターゲットテキスト断片(#j)にリンク(#i、#j)として関連される。重みは、リンク(#i、#j)の各ターゲットテキスト断片#jに関連する。図5は一つの例を示しており、コンテンツテーブルはテキスト断片#1、#2、#3、#4を含む。テキスト断片#1は、2つの可能性のあるリンク(#1、#5)及び(#1、#7)に対するソーステキストターゲットである。(#1、#5)リンクに対する重みは0.3であり、(#1、#7)リンクに対する重みは0.4である。テキスト断片#2に対する可能性のあるリンクは、重み0.2の(#2、#7)及び重み0.3の(#2、#13)である。テキスト断片#3に対する可能性のあるリンクは、重み0.2の(#3、#8)及び重み0.4の(#3、#11)である。テキスト断片#4は、一つの可能性のあるリンク、すなわち重み0.6の(#4、#14)のみを有している。非自己参照基準を守らないどのリンクも、適切に省かれる。例えば、テキスト断片#2が潜在的なリンク(#2、#4)に対するソーステキスト断片でもあるならば、そのときには、これは非自己参照基準を守らないので図5では省かれる。
図6は、順序付け制約を満足するコンテンツテーブルの各テキスト断片に対するリンク選択の組み合わせのダイアグラムを示す。図6の矢印は、#jが#iに対して選択されたとしたら、#i+1に対する可能性のある選択を示している。例えば、テキスト断片#7がソーステキスト断片#1に対するターゲットテキスト断片として選ばれると、そのときには、ターゲットテキスト断片#13のみが、ソーステキスト断片#2に対するリンクとして選ばれることができる。なぜなら、他の可能性のあるターゲットテキスト断片#5は、順序付け特性を守らないからである。一方、テキスト断片#5がソーステキスト断片#1に対するターゲットテキスト断片として選ばれると、そのときには、ターゲットテキスト断片#13又はターゲットテキスト断片#7のいずれかが、ソーステキスト断片#2に対するリンクとして選ばれることができる。なぜなら、この場合、両方とも順序付け基準に従うからである。
図7を参照して、最良パスビタビアルゴリズムは、以前の最良のコンテンツテーブル選択肢が与えられたソーステキスト断片#iに対して、最良の選択肢を見出す。ビタビアルゴリズムにおけるパスのスコアは、そのノード重みの合計である。これは、図7に示される対応している#jと共に各ステージで最も良い可能性のあるスコアを維持することによって、達成される。図7における太字の矢印は最良の選択肢を示しており、対応している最良の選択肢スコアは太字で印刷されている。
図8を参照して、最良の組み合わせは、コンテンツテーブルの最後のアイテムに対する最良のスコアを選択し、且つそれからダイアグラムにて後方に(右から左へ)動き、各々のときに最良の矢印を選択することによって、達成される。この最良の組み合わせは、図8の湾曲した点線の矢印によって示される。
図7及び図8の例に示されたアプローチは、ホール、すなわち外部のヘッディング、キャプションなどに対するリンクを有さないコンテンツテーブルのテキスト断片の可能性を無視している。
図9は、ある数の連続したホール(すなわち、順序付け及び非自己参照基準に従うリンクのないテキスト断片)を有することをコンテンツテーブルに許容するように改変された図7のダイアグラムを示している。これは、あるステージをジャンプすることを可能にする。例えば、矢印は、潜在的な(#1、#5)リンクを潜在的な(#3、#8)リンクに接続する。これは、コンテンツテーブルのソーステキスト断片#2が、エントリというよりもむしろホールであり得る可能性を説明する。
潜在的なホールが含まれるときに図8を置き換える図10を参照して、最良の組み合わせは再び、コンテンツテーブルの最後のアイテムに対する最良のスコアを選択し、且つそれからダイアグラムを後方に動き、各々のときに最良の矢印を選択することによって、達成される。この特定の場合、最良の当てはめはホールを含まないので、図8及び図10に対する結果は同じである。他の場合、最良の当てはめは、コンテンツテーブルのテキスト断片の一つを「ジャンプして越える」矢印を含めることによって、ホールを含み得る。
コンテンツテーブルを識別する開示されたアプローチは、フレームメーカによって作成され且つそれに対する専用XMLタグがTOC及びその構成要素を示すXML文書の集積(corpus)に対して適用されてきた。この方法は、合計で約1500ページの11の文書について評価され、検出されたコンテンツテーブルの正確さ及びリコールが測定された。正確さは、実際にコンテンツ文書テーブルの一部である識別されたエントリのパーセンテージとして定義される。リコールは、検出されたTOCの一部である実際のコンテンツテーブルエントリのパーセンテージとして定義される。マッチング閾値が25%から67%の間(境界を含む)であり且つ許容されるホールの数が1から4の間(境界を含む)であるJaccardテキスト類似性測定値を使用して、90%を超える正確さ及びリコール値が典型的に得られて、いくつかの正確さ及びリコール値は97%を超える。
約50%のマッチング閾値が、いくつかの文書のコンテンツテーブル処理に対して最適であると見出された。リンクの処理は、全計算時間の大半を占めることが見出された。マッチング閾値が増すと、より少ない潜在的リンクが識別され、処理速度が増す。67%の閾値が、低減された計算時間を必要とする一方で、比較的一定の高い正確さを与えることが見出された。
以前に言及したように、テキスト断片化器12はオプションとして、コンテンツテーブルの一つのエントリが複数のテキスト断片に対応するようにテキストを断片化し得て、これは文書本体にも同様に適用され得る。これは、TOCにおいて、より低い参照決定の質ならびに可能性のあるホールに導くことができる。しかし、ここで記述されたアプローチは、そのような状況に対して比較的ロバストであることが見出されてきている。いくつかの実施形態では、OCRシステムにて普通に実行されるように、前処理ステージにて関連したテキスト断片へ文書コンテンツを断片化することが企図される。
自動化された処理では、一つ又はより多くのクオリティ制御チェックを含んで、問題のある有効性である生成されたコンテンツテーブルに自動的にフラグを立ててもよい。例えば、3つより少ないエントリを含むコンテンツテーブルは、無効である可能性が高い。同様に、文書全体の小さい部分のみをスパンするコンテンツテーブルは、オプションとして、疑いのあるものとしてフラグされる。
いくつかのアプリケーションでは、識別されたコンテンツテーブルが、さらなる処理のために使用される。例えば、コンテンツテーブル110を使用して、構造化されていない文書10をコンテンツテーブルのエントリにリンクされたテキストセクションに分割することによって構造化し、構造化された文書を作成することができる。コンテンツテーブルが文書の自動化された構造化のために使用されるとき、クロスリンクが構造化された文書のフォーマットにおける誤りを導くことができるので、順序付け基準を厳密に行使することが典型的には効果的である。
以上は、テキストセクションにインデックスするコンテンツテーブルを識別する例示的なアプリケーションを特に論じているが、開示されたアプローチが、図面(通常は「図テーブル」と呼ばれる)、表(通常は「表テーブル」と呼ばれる)、式などのような文書の他の特徴をインデックスするコンテンツテーブルを識別するためにも適用可能である。
コンテンツテーブルを識別する装置をダイアグラム的に示す図である。 15個のテキスト断片からなる文書に対する類似性マトリクスを示す図である。 識別されたコンテンツテーブルをダイアグラム的に示す図である。 コンテンツテーブルに置かれたレンジ制約のためにブロックされた部分のある図2の類似性マトリクスを示す図である。 選択されたコンテンツテーブルにおけるリンクを最適化するための処理をダイアグラム的に示す図である。 選択されたコンテンツテーブルにおけるリンクを最適化するための処理をダイアグラム的に示す図である。 選択されたコンテンツテーブルにおけるリンクを最適化するための処理をダイアグラム的に示す図である。 選択されたコンテンツテーブルにおけるリンクを最適化するための処理をダイアグラム的に示す図である。 ホールを許容するように改変された、選択されたコンテンツテーブルにおけるリンクを最適化するための処理をダイアグラム的に示す図である。 ホールを許容するように改変された、選択されたコンテンツテーブルにおけるリンクを最適化するための処理をダイアグラム的に示す図である。
符号の説明
10 構造化されていない文書、12 テキスト断片化器、14 テキスト断片、20 逐語的類似性リンク識別器、22 リンク、30 候補TOC選択器、34 TOC選択器、38 リンク最適化器、110 選択されたTOC。

Claims (4)

  1. 文書内のコンテンツテーブルを識別する方法であって、
    前記文書からテキスト断片の順序付きシーケンスを生成するステップと、
    前記テキスト断片の順序付きシーケンスの連続的なサブシーケンスとして、コンテンツテーブルを、
    (i)前記コンテンツテーブルのテキスト断片によって規定されるエントリが、前記エントリとの逐語的類似性を有するターゲットテキスト断片へのリンクを各々有し、
    (ii)前記コンテンツテーブルにはターゲットテキスト断片は存在せず、
    (iii)前記ターゲットテキスト断片は、前記ターゲットテキスト断片を規定する前記エントリの昇順に対応する昇順を有する、
    という基準を満たして選択するステップと、
    を包含する、方法。
  2. 前記選択されたコンテンツテーブルが、エントリを規定しない前記選択されたコンテンツテーブルのテキストエントリによって規定されたホールを含み、ホールの数がエントリの数より実質的に小さく、前記ホールは基準(i)、(ii)、及び(iii)を評価する際に考慮されない、請求項1に記載の方法。
  3. 前記テキスト断片の順序付きシーケンスを含む構造化文書を構築するステップをさらに含み、前記構造化文書が、前記選択されたコンテンツテーブルに従って構築され且つ前記対応したターゲットテキスト断片に関連した部分を有している、請求項1に記載の方法。
  4. 前記コンテンツテーブルを選択するステップが、
    テキスト断片の対に関連する複数の逐語的類似性リンクを決定するステップであって、少なくともいくつかのテキスト断片が一つより多くのリンクに含まれているステップと、
    各々が前記テキスト断片の順序付きシーケンスの連続したサブシーケンスによって規定され、且つ各々が基準(i)、(ii)、及び(iii)を満たすリンクの少なくとも一つの組み合わせを有する複数の候補コンテンツテーブルを決定するステップと、
    各々の候補コンテンツテーブルを、前記候補コンテンツテーブルに含まれるソーステキスト断片を有する前記逐語的類似性リンクに基づいてランク付けするステップと、
    最高にランクされた候補コンテンツテーブルを、前記コンテンツテーブルとして選ぶステップと、
    前記コンテンツテーブルに含まれるソーステキスト断片を有する前記複数の逐語的類似性リンクを最適化して、各々のエントリに対して一つより多くないリンクを選択するステップであって、前記最適化が基準(i)、(ii)、及び(iii)を満たすステップと、
    をさらに包含する、請求項1に記載の方法。
JP2006001047A 2005-01-10 2006-01-06 コンテンツテーブルの検出ならびに参照判定の方法 Pending JP2006195982A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US11/032,814 US8706475B2 (en) 2005-01-10 2005-01-10 Method and apparatus for detecting a table of contents and reference determination

Publications (1)

Publication Number Publication Date
JP2006195982A true JP2006195982A (ja) 2006-07-27

Family

ID=36406010

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006001047A Pending JP2006195982A (ja) 2005-01-10 2006-01-06 コンテンツテーブルの検出ならびに参照判定の方法

Country Status (3)

Country Link
US (1) US8706475B2 (ja)
EP (1) EP1679623A3 (ja)
JP (1) JP2006195982A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016053871A (ja) * 2014-09-04 2016-04-14 日本電信電話株式会社 データ生成装置、データ生成方法、及びプログラム

Families Citing this family (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9110868B2 (en) 2005-01-10 2015-08-18 Xerox Corporation System and method for logical structuring of documents based on trailing and leading pages
US7937653B2 (en) 2005-01-10 2011-05-03 Xerox Corporation Method and apparatus for detecting pagination constructs including a header and a footer in legacy documents
US20070130202A1 (en) * 2005-12-03 2007-06-07 International Business Machines Corporation System and method for automatically generating a searchable plug-in from text files
US8429177B2 (en) * 2006-02-08 2013-04-23 Yahoo! Inc. Using exceptional changes in webgraph snapshots over time for internet entity marking
US20080065671A1 (en) * 2006-09-07 2008-03-13 Xerox Corporation Methods and apparatuses for detecting and labeling organizational tables in a document
US8782551B1 (en) 2006-10-04 2014-07-15 Google Inc. Adjusting margins in book page images
US7979785B1 (en) * 2006-10-04 2011-07-12 Google Inc. Recognizing table of contents in an image sequence
US7912829B1 (en) 2006-10-04 2011-03-22 Google Inc. Content reference page
US7797622B2 (en) * 2006-11-15 2010-09-14 Xerox Corporation Versatile page number detector
US20090013033A1 (en) * 2007-07-06 2009-01-08 Yahoo! Inc. Identifying excessively reciprocal links among web entities
US8023740B2 (en) * 2007-08-13 2011-09-20 Xerox Corporation Systems and methods for notes detection
US9224041B2 (en) * 2007-10-25 2015-12-29 Xerox Corporation Table of contents extraction based on textual similarity and formal aspects
US20090144277A1 (en) * 2007-12-03 2009-06-04 Microsoft Corporation Electronic table of contents entry classification and labeling scheme
US8392816B2 (en) * 2007-12-03 2013-03-05 Microsoft Corporation Page classifier engine
US8250469B2 (en) * 2007-12-03 2012-08-21 Microsoft Corporation Document layout extraction
JP2010044637A (ja) * 2008-08-14 2010-02-25 Just Syst Corp データ処理装置、方法、及びプログラム
US8352857B2 (en) * 2008-10-27 2013-01-08 Xerox Corporation Methods and apparatuses for intra-document reference identification and resolution
US20110113316A1 (en) * 2008-12-31 2011-05-12 Microsoft Corporation Authoring tools for rich interactive narratives
US20110113315A1 (en) * 2008-12-31 2011-05-12 Microsoft Corporation Computer-assisted rich interactive narrative (rin) generation
US9092437B2 (en) * 2008-12-31 2015-07-28 Microsoft Technology Licensing, Llc Experience streams for rich interactive narratives
US20110119587A1 (en) * 2008-12-31 2011-05-19 Microsoft Corporation Data model and player platform for rich interactive narratives
JP5412903B2 (ja) * 2009-03-17 2014-02-12 コニカミノルタ株式会社 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
US9135249B2 (en) * 2009-05-29 2015-09-15 Xerox Corporation Number sequences detection systems and methods
US8340425B2 (en) 2010-08-10 2012-12-25 Xerox Corporation Optical character recognition with two-pass zoning
US8645819B2 (en) 2011-06-17 2014-02-04 Xerox Corporation Detection and extraction of elements constituting images in unstructured document files
US8478046B2 (en) 2011-11-03 2013-07-02 Xerox Corporation Signature mark detection
US20130174030A1 (en) * 2012-01-04 2013-07-04 Freedom Solutions Group, LLC, d/b/a Microsystems Method and apparatus for analyzing abbreviations in a document
US9008443B2 (en) 2012-06-22 2015-04-14 Xerox Corporation System and method for identifying regular geometric structures in document pages
US8812870B2 (en) * 2012-10-10 2014-08-19 Xerox Corporation Confidentiality preserving document analysis system and method
US9008425B2 (en) 2013-01-29 2015-04-14 Xerox Corporation Detection of numbered captions
US9495347B2 (en) * 2013-07-16 2016-11-15 Recommind, Inc. Systems and methods for extracting table information from documents
US20150169676A1 (en) * 2013-12-18 2015-06-18 International Business Machines Corporation Generating a Table of Contents for Unformatted Text
US9672195B2 (en) 2013-12-24 2017-06-06 Xerox Corporation Method and system for page construct detection based on sequential regularities
RU2604668C2 (ru) * 2014-06-17 2016-12-10 Общество с ограниченной ответственностью "Аби Девелопмент" Визуализация машинно-генерируемого изображения документа
US9530070B2 (en) 2015-04-29 2016-12-27 Procore Technologies, Inc. Text parsing in complex graphical images
CN106683677B (zh) * 2015-11-06 2021-11-12 阿里巴巴集团控股有限公司 语音识别方法及装置
US10896030B2 (en) 2017-09-19 2021-01-19 International Business Machines Corporation Code generation relating to providing table of contents pointer values
US10705973B2 (en) 2017-09-19 2020-07-07 International Business Machines Corporation Initializing a data structure for use in predicting table of contents pointer values
US11061575B2 (en) 2017-09-19 2021-07-13 International Business Machines Corporation Read-only table of contents register
US10725918B2 (en) 2017-09-19 2020-07-28 International Business Machines Corporation Table of contents cache entry having a pointer for a range of addresses
US10620955B2 (en) 2017-09-19 2020-04-14 International Business Machines Corporation Predicting a table of contents pointer value responsive to branching to a subroutine
US10884929B2 (en) 2017-09-19 2021-01-05 International Business Machines Corporation Set table of contents (TOC) register instruction
US10713050B2 (en) 2017-09-19 2020-07-14 International Business Machines Corporation Replacing Table of Contents (TOC)-setting instructions in code with TOC predicting instructions
US10726198B2 (en) 2017-10-17 2020-07-28 Handycontract, LLC Method, device, and system, for identifying data elements in data structures
US11475209B2 (en) 2017-10-17 2022-10-18 Handycontract Llc Device, system, and method for extracting named entities from sectioned documents
US10977240B1 (en) * 2017-10-21 2021-04-13 Palantir Technologies Inc. Approaches for validating data
US10762142B2 (en) 2018-03-16 2020-09-01 Open Text Holdings, Inc. User-defined automated document feature extraction and optimization
US11048762B2 (en) 2018-03-16 2021-06-29 Open Text Holdings, Inc. User-defined automated document feature modeling, extraction and optimization
US10650186B2 (en) 2018-06-08 2020-05-12 Handycontract, LLC Device, system and method for displaying sectioned documents
US11610277B2 (en) 2019-01-25 2023-03-21 Open Text Holdings, Inc. Seamless electronic discovery system with an enterprise data portal
US11468346B2 (en) 2019-03-29 2022-10-11 Konica Minolta Business Solutions U.S.A., Inc. Identifying sequence headings in a document
US11494555B2 (en) 2019-03-29 2022-11-08 Konica Minolta Business Solutions U.S.A., Inc. Identifying section headings in a document
CN113486071B (zh) * 2021-07-27 2022-04-26 掌阅科技股份有限公司 基于电子书的搜索方法、服务端、客户端及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000330979A (ja) * 1999-05-18 2000-11-30 Ntt Data Corp 検索対象となる電子文書の解析方法及び電子文書登録システム

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5434962A (en) 1990-09-07 1995-07-18 Fuji Xerox Co., Ltd. Method and system for automatically generating logical structures of electronic documents
US5491628A (en) 1993-12-10 1996-02-13 Xerox Corporation Method and apparatus for document transformation based on attribute grammars and attribute couplings
US6298357B1 (en) 1997-06-03 2001-10-02 Adobe Systems Incorporated Structure extraction on electronic documents
US6687404B1 (en) * 1997-06-20 2004-02-03 Xerox Corporation Automatic training of layout parameters in a 2D image model
IE980959A1 (en) 1998-03-31 1999-10-20 Datapage Ireland Ltd Document Production
US6199061B1 (en) * 1998-06-17 2001-03-06 Microsoft Corporation Method and apparatus for providing dynamic help topic titles to a user
US6769096B1 (en) * 1998-06-24 2004-07-27 Microsoft Corporation System and method for updating a table of contents in a frameset
US6167368A (en) * 1998-08-14 2000-12-26 The Trustees Of Columbia University In The City Of New York Method and system for indentifying significant topics of a document
US6487566B1 (en) 1998-10-05 2002-11-26 International Business Machines Corporation Transforming documents using pattern matching and a replacement language
US6421683B1 (en) * 1999-03-31 2002-07-16 Verizon Laboratories Inc. Method and product for performing data transfer in a computer system
US6772156B1 (en) * 1999-11-29 2004-08-03 Actuate Corporation Method and apparatus for creating and displaying a table of content for a computer-generated report having page-level security
US7028250B2 (en) * 2000-05-25 2006-04-11 Kanisa, Inc. System and method for automatically classifying text
US6772120B1 (en) * 2000-11-21 2004-08-03 Hewlett-Packard Development Company, L.P. Computer method and apparatus for segmenting text streams
US20040003028A1 (en) * 2002-05-08 2004-01-01 David Emmett Automatic display of web content to smaller display devices: improved summarization and navigation
US20020143818A1 (en) 2001-03-30 2002-10-03 Roberts Elizabeth A. System for generating a structured document
JP2003150586A (ja) 2001-11-12 2003-05-23 Ntt Docomo Inc 文書変換システム、文書変換方法及び文書変換プログラムを記録したコンピュータ読み取り可能な記録媒体
US7137062B2 (en) * 2001-12-28 2006-11-14 International Business Machines Corporation System and method for hierarchical segmentation with latent semantic indexing in scale space
US6907431B2 (en) * 2002-05-03 2005-06-14 Hewlett-Packard Development Company, L.P. Method for determining a logical structure of a document
US20040024780A1 (en) * 2002-08-01 2004-02-05 Koninklijke Philips Electronics N.V. Method, system and program product for generating a content-based table of contents
US20040237037A1 (en) * 2003-03-21 2004-11-25 Xerox Corporation Determination of member pages for a hyperlinked document with recursive page-level link analysis
US20050076000A1 (en) * 2003-03-21 2005-04-07 Xerox Corporation Determination of table of content links for a hyperlinked document
US7296011B2 (en) * 2003-06-20 2007-11-13 Microsoft Corporation Efficient fuzzy match for evaluating data records

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000330979A (ja) * 1999-05-18 2000-11-30 Ntt Data Corp 検索対象となる電子文書の解析方法及び電子文書登録システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016053871A (ja) * 2014-09-04 2016-04-14 日本電信電話株式会社 データ生成装置、データ生成方法、及びプログラム

Also Published As

Publication number Publication date
US8706475B2 (en) 2014-04-22
EP1679623A2 (en) 2006-07-12
EP1679623A3 (en) 2007-09-05
US20060155703A1 (en) 2006-07-13

Similar Documents

Publication Publication Date Title
JP2006195982A (ja) コンテンツテーブルの検出ならびに参照判定の方法
US7890859B2 (en) Rapid similarity links computation for table of contents determination
US7743327B2 (en) Table of contents extraction with improved robustness
EP2180411B1 (en) Methods and apparatuses for intra-document reference identification and resolution
US20080065671A1 (en) Methods and apparatuses for detecting and labeling organizational tables in a document
US6999914B1 (en) Device and method of determining emotive index corresponding to a message
JP4974529B2 (ja) ヘッダ/フッタ等の既存文書内ページ区切り要素の検出方法及び装置
US9135249B2 (en) Number sequences detection systems and methods
US8023740B2 (en) Systems and methods for notes detection
US6546401B1 (en) Method of retrieving no word separation text data and a data retrieving apparatus therefor
US20090292698A1 (en) Method for extracting a compact representation of the topical content of an electronic text
EP1843276A1 (en) Method for automated processing of hard copy text documents
US20120197908A1 (en) Method and apparatus for associating a table of contents and headings
US20080077847A1 (en) Captions detector
US20100042397A1 (en) Data processing apparatus and method
JP4865526B2 (ja) データマイニングシステム、データマイニング方法及びデータ検索システム
WO2011006300A1 (en) Acronym extraction
EP1745396A1 (en) Document information mining tool
KR101143650B1 (ko) 분석용 디스플레이 문서 준비 장치
JP5097802B2 (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
Avetisyan et al. Word embeddings for the armenian language: intrinsic and extrinsic evaluation
JP5226198B2 (ja) 規則帰納システムのためのxmlベースのアーキテクチャ
JP4143085B2 (ja) 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2009009307A (ja) 文書画像処理装置及びその方法
JP2005222480A (ja) 重要語抽出装置、重要語抽出方法、および重要語抽出プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081229

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110426

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110726

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120605