JP2006195982A

JP2006195982A - コンテンツテーブルの検出ならびに参照判定の方法

Info

Publication number: JP2006195982A
Application number: JP2006001047A
Authority: JP
Inventors: Herve Dejean; ドゥジャンエルベ; Jean-Luc Meunier; ムニエジーン−ルク; Olivier Fambon; ファンボンオリビエ
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 2005-01-10
Filing date: 2006-01-06
Publication date: 2006-07-27
Also published as: US8706475B2; EP1679623A2; EP1679623A3; US20060155703A1

Abstract

【課題】構造化されていない文章からテーブルを抽出するための方法及び装置を提供する。
【解決手段】文書内のコンテンツテーブルを識別する方法であって、前記文書からテキスト断片の順序付きシーケンスを生成するステップと、前記テキスト断片の順序付きシーケンスの連続的なサブシーケンスとして、コンテンツテーブルを、（i）前記コンテンツテーブルのテキスト断片によって規定されるエントリが、前記エントリとの逐語的類似性を有するターゲットテキスト断片へのリンクを各々有し、（ii）前記コンテンツテーブルにはターゲットテキスト断片は存在せず、（iii）前記ターゲットテキスト断片は、前記ターゲットテキスト断片を規定する前記エントリの昇順に対応する昇順を有する、という基準を満たして選択するステップと、を包含する。
【選択図】図１

Description

以下は、情報の記憶及び処理技術に関している。これは、拡張可能マークアップ言語（ＸＭＬ）、標準一般化マークアップ言語（ＳＧＭＬ）、ハイパーテキストマークアップ言語（ＨＴＭＬ）などのようなマークアップフォーマットにおけるレガシー文書のカタログ化に関連して、特定のアプリケーションを見出し、特にそれを参照して記述される。しかし、以下が他の同様のアプリケーションに対して変更可能であることを理解されたい。

レガシー文書変換は、アドビ・ポータブル文書フォーマット（ＰＤＦ）、様々なテキストフォーマット、様々なワードプロセッシングフォーマットなどのようなフォーマットにて存在している構造化されていない文書を、ＸＭＬ、ＳＧＭＬ、ＨＴＭＬなどのようなマークアップ言語を使用した構造化文書に変換することに関している。構造化文書では、コンテンツは、適切なヘッダなどを有する輪郭化されたセクションに組織化される。そのような組織化は、典型的にはマークアップタグを使用して具現化される。ＸＭＬのようないくつかの構造化文書フォーマットでは、文書タイプ定義（ＤＴＤ）又は同様の文書部分が、セクションの識別のような文書についての全体的な情報を提供し、ネスト化されたセクションのような複雑な文書構造を容易化する。

一方、構造化されていない文書は、限定的な構造情報を提供するか、又は何の情報も提供しない。企業データベース、政府データベース、及びその他の文書保存場所における多くの文書は、構造化されていないフォーマットになっている。これは、それらの文書が、所有機関による構造化文書フォーマットの最初の使用に先立つ文書であるか、又は、ソフトウエア、文書スキャナ、又はその他の文書ソースが、通常は構造化されていないフォーマットに出力するからである。

構造化されていない文書の構造化フォーマットへの変換に対する関心が持たれている。文書を変換する動機は様々であり、典型的には、文書の一部の再利用又は再目的化、情報保存データベースにおける文書の統一化に対する欲望、文書検索の容易化などを含む。構造化されていない文書に追加すると有益な構造の一つのタイプは、コンテンツテーブルである。構造化されていない文書はしばしばコンテンツテーブルのテキストを含み、これは、構造化されていない文書のコンテンツに対する論理的組織又はフレームワークを提供し、このコンテンツフレームワークの論理テーブルを検出して、このコンテンツフレームワークの論理テーブルを、変換された構造化文書の構造に一体化することは有益である。

構造化されていない文書からテーブルを抽出するための現存する方法及び装置は、一般的にはロバストではない。例えば、いくつかの現存するアプローチは、コンテンツテーブルにてインデックスが付けられた文書ヘッディングと周囲のテキストとの間のフォントの相違に頼る。しかし、プレーンテキストフォーマットのようなある構造化されていない文書フォーマットでは、このフォント情報は利用できない。いくつかの現存するアプローチは、新しいページで始まるコンテンツテーブルでインデックスが付けられた各セクションに頼る。再び、多くのタイプの構造化されていない文書に対しては、この構造は有効ではない。いくつかの構造化されていないフォーマットは、ページ番号付けをすっかり省く。構造化されていないフォーマットがページ番号付けを提供するとしても、コンテンツテーブルによってインデックスが付けられたいくつかの部分は、ページの中間で始まる。

ある局面によれば、文書内のコンテンツテーブルを識別する方法が提供される。テキスト断片の順序付きシーケンスが、前記文書から生成される。逐語的類似性基準を満たすテキスト断片の対の間のリンクが規定される。各リンクは、ソーステキスト断片とターゲットテキスト断片とを含む。コンテンツテーブルが、テキスト断片の順序付きシーケンスの中から選択される。コンテンツテーブルは、テキスト断片の順序付きシーケンスの連続的なサブシーケンスを含む。コンテンツテーブルのテキスト断片はエントリを規定し、各エントリは、そのエントリをソーステキストコンテンツとして含むリンクから選択された最適化されたターゲットテキスト断片を有する。選択されたコンテンツテーブルは、少なくとも、（i）最適化されたターゲットテキスト断片に対する昇順を提供する、及び（ii）選択されたコンテンツテーブルに含まれる最適化されたターゲットテキスト断片を有するエントリは存在しないことを提供する、という基準に関して、最適化される。

他の局面によれば、文書内のコンテンツテーブルを識別する方法が提供される。前記文書からテキスト断片の順序付きシーケンスが生成される。コンテンツテーブルは、前記テキスト断片の順序付きシーケンスの連続的なサブシーケンスとして、（i）前記コンテンツテーブルのテキスト断片によって規定されるエントリが、前記エントリとの逐語的類似性を有するターゲットテキスト断片とのリンクを各々有し、（ii）前記コンテンツテーブルにはターゲットテキスト断片は存在せず、（iii）前記ターゲットテキスト断片は、前記ターゲットテキスト断片を規定する前記エントリの昇順に対応する昇順を有する、という基準を満たして選択される。

他の局面によれば、文書内のコンテンツテーブルを識別する装置が開示される。テキスト断片化器は、テキスト断片の順序付きシーケンスを文書から生成する。リンク識別器は、逐語的類似性基準を満たすテキスト断片の対の間のリンクを規定する。各リンクは、ソーステキスト断片とターゲットテキスト断片とを含む。候補コンテンツテーブル選択器は、複数の候補コンテンツテーブルを選択する。各候補は、少なくとも順序付け基準と非自己参照基準とを含む基準を潜在的に満足することができるテキスト断片の順序付きシーケンスの連続的なサブシーケンスを含む。コンテンツテーブル選択器は、候補コンテンツテーブルの一つを選択する。リンク最適化器は、選択されたコンテンツテーブルに対するエントリを規定するテキスト断片に対する最適化されたリンクを選択する。最適化されたリンクは、順序付け基準と非自己参照基準とを満足する。

図１を参照すると、構造化されていない文書１０におけるコンテンツテーブルを識別する装置が記述される。テキスト断片化器１２が、構造化されていない文書１０をテキスト断片１４の順序付きシーケンスに分解する。典型的には、構造化されていない文書１０は、オフ・ザ・シェルフ変換器を使用して、文書から作成されたテキスト又はＸＭＬファイルからのテキストストリングのリストとして、（アドビＰＤＦ、Wordフレームメーカなどのような）入力フォーマットにロードされる。紙の文書は、光スキャナを使用して適切にスキャンされて、光文字認識器（ＯＣＲ）によって処理される。テキスト文書に対しては、各行は適切に、行毎に順序付けられた断片になる。ＸＭＬ又はＨＴＭＬ文書については、各ＰＣＤＡＴＡが適切にテキスト断片になる。

テキスト断片を順序付けるために、深さ第１（depth-first）の最後から先頭へ、左から右への（文書順の）横断、又はページ内の断片位置の使用など、いくつかの戦略を使用することができる。また、ＸＭＬノードとテキスト断片との間の関係を保存して、検出されたコンテンツテーブル及び参照を処理の終了時にＸＭＬノード上にマッピングし戻すことができる。テキスト断片化器１２が、行、ブロック、１行の単語の連続における逐語的コンテンツを断片化することができ、又は（例えば、タイトルの最初の単語の最初の文字についての異なるフォーマットのために）１つの単語を２つのテキスト断片に分割しても良い。ここで記述されるコンテンツテーブル識別アプローチは、これらの様々なタイプのテキスト断片化に関してロバストであることが見出されている。

結果として得られたテキスト断片１４の順序付きシーケンスは、リンク２２を識別する逐語的類似性リンク識別器２０によって処理される。各リンクは、逐語的に類似したテキスト断片の対によって規定される。リンクを規定する対のテキスト断片は、ここではソース及びターゲットテキスト断片として識別される。

そのようなテキスト断片対を規定する様々な方法がある。一般に、Ｎ個の断片について、リンクの計算は０（Ｎ^２）のオーダである。加えて、テキストにおけるノイズの存在の可能性も、考慮に入れられるべきである。ノイズは、ＰＤＦからテキストへの誤変換、又はコンテンツテーブルには現れるが文書本体には現れないページ番号のようなコンテンツテーブルに特有の問題、あるいはページ番号をコンテンツテーブルにおけるセクションタイトルに関係付ける直列の楕円（………）のような、様々な原因から来ることができる。

いくつかの実施形態では、各テキスト断片は、タブ、スペース、又は句読点符号のような非英数字セパレータとともに、一連の英数字トークンにトークン化される。いくつかの実施形態では、逐語的類似性を測定するためにジャカード（Jaccard）が使用される。ジャカードは、候補ソース及びターゲットテキスト断片によって規定される２つのトークンセットの共通部分の基数を、これら２つのトークンセットの和集合の基数で除算したものとして計算される。ジャカードの測定値が選択されたマッチング閾値より大きい対に対して、リンクが規定される。他の実施形態では、編集距離又はその他の適切な測定値が、逐語的類似性の比較として使用される。編集距離の測定に対しては閾値は最大であり、編集距離閾値よりも小さい編集距離を有する対が、逐語的に類似した対と指定される。

図２を簡単に参照すると、逐語的類似性リンクは、類似性マトリクス１００を使用して適切に視覚化される。ソーステキスト断片＃ｉとターゲット断片＃ｊとの間のリンクを（＃ｉ、＃ｊ）と指定すると、リンク（＃ｉ、＃ｊ）は閾値又はその他のリンク選択基準を満足するので、リンク（＃ｊ、＃ｉ）もまた閾値又はその他のリンク選択基準を満足することを理解されたい。類似性マトリクスの要素は、類似性マトリクス１００の右上の半分（又は等価に左下の半分）のみについて計算される必要がある。図２において、計算されたJaccardが選択された閾値を超えるリンクは、リンクセルにて「Ｘ」マークで示されている。さらに、図２には示されていないが、閾値を越える各リンクは、逐語的類似性に関してリンクの強さを示す関連したJaccard又はその他の計測値を有する。

図３を参照すると、コンテンツテーブル１１０は、テキスト断片１４の順序付きシーケンスの連続したサブシーケンスを表す。４つの一般的な基準を使用して、テキスト断片１４の順序付きシーケンスの内部のコンテンツテーブル１１０を区別し識別する。

第１の基準は連続性である。コンテンツテーブルは、テキスト断片１４の順序付きシーケンスの連続したサブシーケンスを含む。この連続したサブシーケンスのテキスト断片の大半は、コンテンツテーブルのエントリ１１２であることが期待される。各エントリは、リンク２２の一つによって、コンテンツテーブルに引き続くテキストの部分にリンクされている。コンテンツテーブル１１０に関連しているこれらのリンクは、図３に、曲がった矢印１１４として示されている。コンテンツテーブル１１０のリンク１１４が、逐語的類似性リンク識別器２０によって計算されたリンク２２のサブセットであることを理解されたい。しかし、リンク２２は、典型的には、リンク１１４のサブセットに加えて多くのリンクを含む。

コンテンツテーブル１１０のテキスト断片の大半はエントリ１１２であるが、コンテンツテーブル１１０を規定するテキスト断片の連続したサブシーケンスにおけるテキスト断片の小さな部分は、エントリ１１２ではなくホールであり得る。ホールは、関連したリンク１１４を有さず、文書の他の部分にリンクしているコンテンツテーブルエントリを示さない。ホールの例１１６が、図３に示されている。典型的には、ホール数のエントリ数に対する比率は、約０．２より小さい。いくつかの実施形態では、最大許容可能なホール数は、ユーザが選択可能なパラメータである。

第２の基準は、逐語的類似性である。各リンク１１４は、エントリ１１２を、エントリのテキストに類似したテキストを有するヘッディング又はその他のテキスト断片に接続すべきである。逐語的類似性は、逐語的類似性リンク識別器２０によって使用されるJaccard又はその他のテキスト類似性測定値によって、適切に測定される。ターゲットテキスト断片は、通常のコンテンツテーブルの場合には、典型的にはセクションヘッディングである。文書の図をリストしているコンテンツテーブル（すなわち図テーブル）の場合には、ターゲットテキスト断片は図のキャプションであり得る。文書の表をリストしているコンテンツテーブル（すなわち表テーブル）の場合には、ターゲットテキスト断片は表のキャプションであり得る。いくつかの文書では、図及び／又は表のキャプションは、対応する図及び／又は表の下にあり得る。

第３の基準は順序付けである。リンク１１４のターゲットテキスト断片は、エントリ１１２の昇順に対応した昇順を有するべきである。すなわち、エントリのセット｛＃ｉ_１、＃ｉ_２、＃ｉ_３、…｝が昇順を有しているリンクのセット｛（＃ｉ_１、＃ｊ_１）、（＃ｉ_２、＃ｊ_２）、（＃ｉ_３、＃ｊ_３）、…｝を有するエントリのセット｛＃ｉ_１、＃ｉ_２、＃ｉ_３、…｝に対して、ターゲット断片の対応するセット｛＃ｊ_１、＃ｊ_２、＃ｊ_３、…｝の順序もまた、昇順であるべきである。

第４の基準は、自己参照の欠如である。リンク１１４の全てはコンテンツテーブル１１０の内部から始まるべきであり、リンク１１４のいずれもコンテンツテーブル１１０の内部で終結すべきではない。エントリのセット｛＃ｉ_１、＃ｉ_２、＃ｉ_３、…｝及び対応するターゲットテキスト断片のセット｛＃ｊ_１、＃ｊ_２、＃ｊ_３、…｝は空の交点を有するべきであり、さらに、ターゲットテキスト断片｛＃ｊ_１、＃ｊ_２、＃ｊ_３、…｝のいずれも、コンテンツテーブル１１０のホールテキスト断片に対応すべきではない。

図４を参照すると、自己参照の欠如と、コンテンツテーブルが典型的には文書の開始点の近傍で生じるという観察とは、類似性マトリクス１００のサーチエリアをさらに減らすために使用されることができる。コンテンツテーブルがｋ個の最初及び最後のテキスト断片内のみにあると仮定すると、これにより、ｋ＝５に対して、図４のダークグレイの四角形１２０に示されているように、マトリクスの中央を対象から外す。

図１に戻って参照すると、テキスト断片１４の順序付きシーケンスの中から、テキスト断片の順序付きシーケンスの連続したサブシーケンスを含むコンテンツテーブル１１０を選択する一つのアプローチが記述される。コンテンツテーブルは、連続性、テキストの類似性、順序付け、及び非自己参照の基準に基づいて選択される。候補コンテンツテーブル選択器３０は、一つ又はそれ以上の候補コンテンツテーブルを選択する。一つの適切なアプローチでは、コンテンツテーブルに対して、Ｎ個の候補の開始テキスト断片に対応して、Ｎ個の仮説がテストされる。可能性のあるＮ個の開始テキスト断片の各々について、「コンテンツテーブルはこのテキスト断片で開始することができるか？」という仮説がテストされる。

いくつかの適切な実施形態では、テストが候補開始テキスト断片で始まり、それから各々の引き続くテキスト断片を調べて、候補コンテンツテーブルにそれを含めるべきかどうかが考慮される。候補コンテンツテーブルは、新しいテキスト断片の追加が順序制約を破るまで、引き続く連続したテキスト断片を加えることによって拡張される。例えば、最後に加えられたテキスト断片がターゲット断片＃ｊ＝１５及び＃ｊ＝３３へのリンクを有するソーステキスト断片であり、且つ考慮されている次のテキスト断片がターゲット断片＃ｊ＝２０のみへのリンクを有するソーステキスト断片であると、そのときには、＃ｊ＝２０が＃ｊ＝１５より大きいので、この次のテキスト断片は候補コンテンツテーブルに加えられることができる。しかし、次のテキスト断片がターゲット断片＃ｊ＝１２へのリンクのみを有しているソーステキスト断片であると、そのときにはこれは順序付けを破る。

しかし、候補コンテンツテーブルにいくつかのホールを許容するために、順序付けの制約をいくらか緩和することが有益である。これは、関連するリンクのないある数のテキスト断片の存在を許容し、且つリンクが交差したある数の断片、すなわちその関連するリンクの全てが候補コンテンツテーブルにて順序付け制約を破っているテキスト断片を許容することによって、適切に達成される。いくらかのリンク交差を許容することは、例えば、現在の候補コンテンツテーブルにおける以前のテキスト断片が、文書内の離れすぎた前方を指している一つのリンクしか含んでいないときに、有用である。

非自己参照制約を強化するために、候補コンテンツテーブルの大きさが順序付け制約に関して仮決定されると、第2のパスが適切に実行される。第2のパスを使用することは、コンテンツテーブルの終了点が分からないが、その開始点を越えて延びているときに、コンテンツテーブルの終了点に関する不確定さを説明する。第2のパスは、候補コンテンツテーブルの最上部で、オリジナルの開始テキスト断片にて始まる。各々の引き続くテキスト断片がテストされる。引き続くテキスト断片がそのコンテンツテーブル内のテキスト断片のみへのリンクを含んでいると、そのときに、それは非自己参照基準を守らない。したがって、第2のパスは、非自己参照を守らないそのテキスト断片の直前で、候補コンテンツテーブルを終端する。

しかし、再び、ある数のホールを許容することが有用であり得る。これは、候補コンテンツテーブルの一つ又はいくつかのテキスト断片を自己参照的にすることを可能にすることにより、第２のパスで適切に達成される。自己参照基準を守らないこれらのテキスト断片は、候補コンテンツテーブルにおいて、エントリというよりホールであると推定される。

この処理は、Ｎ個の可能性のある開始テキスト断片の各々について、繰り返される。この結果は、一つ又はそれ以上の候補コンテンツテーブルのセットであり、各々はテキスト断片の連続リストから形成されている。候補コンテンツテーブルは、順序付け及び非自己参照制約が従われることができる（その一方でオプションとして限定された数のホールを許容する）ことを確実にするような方法で構成されたので、候補コンテンツテーブルの各エントリについて、その許容可能なリンクのリストから、順序付け及び非自己参照制約が尊重されるように一つのリンクを選択することが可能である。オプションとして、フィルタリング基準が候補コンテンツテーブル選択器３０によって適用されて、明らかに正しくない候補コンテンツテーブルを除去してもよい。例えば、３つより少ないテキスト断片を有する候補コンテンツテーブルは、適切に破棄され得る。

コンテンツテーブル選択器３４は、候補コンテンツテーブルをランク付けし、最高にランクされたコンテンツテーブルを選択する。リンク最適化器３８がそれから、その選択されたコンテンツテーブルに対するリンクを最適化して、最終の選択されたコンテンツテーブル１１０を作成する。このアプローチでは、コンテンツテーブル選択器３４は、計算能力的に効率的なランク付け方法を使用して候補コンテンツテーブルをランク付けし、選択されたコンテンツテーブルのみがそれから、リンク最適化器３８によって実行される計算能力的により強力な処理を受ける。このアプローチは、コンテンツテーブルを正確に選択するために満足したものであることが見出される。計算能力的により強力なアプローチもまた、リンク最適化が候補コンテンツテーブルの各々について実行され且つランク付けがリンク最適化の結果を考慮して企図される。

図１を引き続いて参照すると、コンテンツテーブル選択器３４は、スコア付け機能を利用して候補コンテンツテーブルをランク付けする。最高にランクされた候補コンテンツテーブルが、それから更なる処理のために選択される。いくつかの実施形態では、スコア付け機能はエントリ重みの合計である。ここで、エントリ重みは、コンテンツテーブルのエントリに関連したリンクの数に反比例する。このエントリ重みは、所与のソーステキストターゲットで始まるリンクが多いほどそれらのリンクがコンテンツテーブルの「真の」リンクである可能性が低くなるという仮定の下で、その関連するリンクの任意のものの確実さを特徴付ける。

他のスコア付け機能が使用されることができる。例えば、他の企図されるスコア付け機能は、候補コンテンツテーブルにおけるエントリの数を合計する。短い候補コンテンツテーブルは、テキスト断片の大きな連続シーケンスが順序付け及び非自己参照基準を満足できることが見出される長いコンテンツテーブルよりも、典型的には「正しい」可能性が低い。さらに他の企図されるスコア付け機能は、ターゲットテキスト断片のスパンを文書１０全体に関して特徴付ける。特定の候補コンテンツテーブルの利用可能なターゲットテキスト断片が文書１０の小さな部分のみをスパンしていると、そのときには、その候補コンテンツテーブルはその文書に対する「真の」コンテンツテーブルである。これらのスコア付け機能は例であって、他のスコア付け機能、又は様々なスコア付け機能の組み合わせが、利用されることができる。

最高にランク付けされた候補コンテンツテーブルがひとたび選択されると、リンク最適化器３８がそのコンテンツテーブルに適用されて、最終のコンテンツテーブル１１０を生成する。コンテンツテーブルのエントリの各々に対する最良のリンクの選択には、連続性、テキスト類似性、順序付け、及び非自己参照という４つのコンテンツテーブル制約を尊重しながらコンテンツテーブルに対するグローバル最適を見出すことが関与する。いくつかの実施形態では、重みは各々のリンクに関連しており、これはそのマッチングのレベルに比例する。

図５〜図１０を参照すると、いくつかの実施形態では、ビタビ最短パスアルゴリズムが、最適化されたリンクを選択する際に利用される。コンテンツテーブルの各々のテキスト断片（＃ｉ）は、一つ又はそれ以上の可能なターゲットテキスト断片（＃ｊ）にリンク（＃ｉ、＃ｊ）として関連される。重みは、リンク（＃ｉ、＃ｊ）の各ターゲットテキスト断片＃ｊに関連する。図５は一つの例を示しており、コンテンツテーブルはテキスト断片＃１、＃２、＃３、＃４を含む。テキスト断片＃１は、２つの可能性のあるリンク（＃１、＃５）及び（＃１、＃７）に対するソーステキストターゲットである。（＃１、＃５）リンクに対する重みは０．３であり、（＃１、＃７）リンクに対する重みは０．４である。テキスト断片＃２に対する可能性のあるリンクは、重み０．２の（＃２、＃７）及び重み０．３の（＃２、＃１３）である。テキスト断片＃３に対する可能性のあるリンクは、重み０．２の（＃３、＃８）及び重み０．４の（＃３、＃１１）である。テキスト断片＃４は、一つの可能性のあるリンク、すなわち重み０．６の（＃４、＃１４）のみを有している。非自己参照基準を守らないどのリンクも、適切に省かれる。例えば、テキスト断片＃２が潜在的なリンク（＃２、＃４）に対するソーステキスト断片でもあるならば、そのときには、これは非自己参照基準を守らないので図５では省かれる。

図６は、順序付け制約を満足するコンテンツテーブルの各テキスト断片に対するリンク選択の組み合わせのダイアグラムを示す。図６の矢印は、＃ｊが＃ｉに対して選択されたとしたら、＃ｉ＋１に対する可能性のある選択を示している。例えば、テキスト断片＃７がソーステキスト断片＃１に対するターゲットテキスト断片として選ばれると、そのときには、ターゲットテキスト断片＃１３のみが、ソーステキスト断片＃２に対するリンクとして選ばれることができる。なぜなら、他の可能性のあるターゲットテキスト断片＃５は、順序付け特性を守らないからである。一方、テキスト断片＃５がソーステキスト断片＃１に対するターゲットテキスト断片として選ばれると、そのときには、ターゲットテキスト断片＃１３又はターゲットテキスト断片＃７のいずれかが、ソーステキスト断片＃２に対するリンクとして選ばれることができる。なぜなら、この場合、両方とも順序付け基準に従うからである。

図７を参照して、最良パスビタビアルゴリズムは、以前の最良のコンテンツテーブル選択肢が与えられたソーステキスト断片＃ｉに対して、最良の選択肢を見出す。ビタビアルゴリズムにおけるパスのスコアは、そのノード重みの合計である。これは、図７に示される対応している＃ｊと共に各ステージで最も良い可能性のあるスコアを維持することによって、達成される。図７における太字の矢印は最良の選択肢を示しており、対応している最良の選択肢スコアは太字で印刷されている。

図８を参照して、最良の組み合わせは、コンテンツテーブルの最後のアイテムに対する最良のスコアを選択し、且つそれからダイアグラムにて後方に（右から左へ）動き、各々のときに最良の矢印を選択することによって、達成される。この最良の組み合わせは、図８の湾曲した点線の矢印によって示される。

図７及び図８の例に示されたアプローチは、ホール、すなわち外部のヘッディング、キャプションなどに対するリンクを有さないコンテンツテーブルのテキスト断片の可能性を無視している。

図９は、ある数の連続したホール（すなわち、順序付け及び非自己参照基準に従うリンクのないテキスト断片）を有することをコンテンツテーブルに許容するように改変された図７のダイアグラムを示している。これは、あるステージをジャンプすることを可能にする。例えば、矢印は、潜在的な（＃１、＃５）リンクを潜在的な（＃３、＃８）リンクに接続する。これは、コンテンツテーブルのソーステキスト断片＃２が、エントリというよりもむしろホールであり得る可能性を説明する。

潜在的なホールが含まれるときに図８を置き換える図１０を参照して、最良の組み合わせは再び、コンテンツテーブルの最後のアイテムに対する最良のスコアを選択し、且つそれからダイアグラムを後方に動き、各々のときに最良の矢印を選択することによって、達成される。この特定の場合、最良の当てはめはホールを含まないので、図８及び図１０に対する結果は同じである。他の場合、最良の当てはめは、コンテンツテーブルのテキスト断片の一つを「ジャンプして越える」矢印を含めることによって、ホールを含み得る。

コンテンツテーブルを識別する開示されたアプローチは、フレームメーカによって作成され且つそれに対する専用ＸＭＬタグがＴＯＣ及びその構成要素を示すＸＭＬ文書の集積（corpus）に対して適用されてきた。この方法は、合計で約１５００ページの１１の文書について評価され、検出されたコンテンツテーブルの正確さ及びリコールが測定された。正確さは、実際にコンテンツ文書テーブルの一部である識別されたエントリのパーセンテージとして定義される。リコールは、検出されたＴＯＣの一部である実際のコンテンツテーブルエントリのパーセンテージとして定義される。マッチング閾値が２５％から６７％の間（境界を含む）であり且つ許容されるホールの数が１から４の間（境界を含む）であるJaccardテキスト類似性測定値を使用して、９０％を超える正確さ及びリコール値が典型的に得られて、いくつかの正確さ及びリコール値は９７％を超える。

約５０％のマッチング閾値が、いくつかの文書のコンテンツテーブル処理に対して最適であると見出された。リンクの処理は、全計算時間の大半を占めることが見出された。マッチング閾値が増すと、より少ない潜在的リンクが識別され、処理速度が増す。６７％の閾値が、低減された計算時間を必要とする一方で、比較的一定の高い正確さを与えることが見出された。

以前に言及したように、テキスト断片化器１２はオプションとして、コンテンツテーブルの一つのエントリが複数のテキスト断片に対応するようにテキストを断片化し得て、これは文書本体にも同様に適用され得る。これは、ＴＯＣにおいて、より低い参照決定の質ならびに可能性のあるホールに導くことができる。しかし、ここで記述されたアプローチは、そのような状況に対して比較的ロバストであることが見出されてきている。いくつかの実施形態では、ＯＣＲシステムにて普通に実行されるように、前処理ステージにて関連したテキスト断片へ文書コンテンツを断片化することが企図される。

自動化された処理では、一つ又はより多くのクオリティ制御チェックを含んで、問題のある有効性である生成されたコンテンツテーブルに自動的にフラグを立ててもよい。例えば、３つより少ないエントリを含むコンテンツテーブルは、無効である可能性が高い。同様に、文書全体の小さい部分のみをスパンするコンテンツテーブルは、オプションとして、疑いのあるものとしてフラグされる。

いくつかのアプリケーションでは、識別されたコンテンツテーブルが、さらなる処理のために使用される。例えば、コンテンツテーブル１１０を使用して、構造化されていない文書１０をコンテンツテーブルのエントリにリンクされたテキストセクションに分割することによって構造化し、構造化された文書を作成することができる。コンテンツテーブルが文書の自動化された構造化のために使用されるとき、クロスリンクが構造化された文書のフォーマットにおける誤りを導くことができるので、順序付け基準を厳密に行使することが典型的には効果的である。

以上は、テキストセクションにインデックスするコンテンツテーブルを識別する例示的なアプリケーションを特に論じているが、開示されたアプローチが、図面（通常は「図テーブル」と呼ばれる）、表（通常は「表テーブル」と呼ばれる）、式などのような文書の他の特徴をインデックスするコンテンツテーブルを識別するためにも適用可能である。

コンテンツテーブルを識別する装置をダイアグラム的に示す図である。１５個のテキスト断片からなる文書に対する類似性マトリクスを示す図である。識別されたコンテンツテーブルをダイアグラム的に示す図である。コンテンツテーブルに置かれたレンジ制約のためにブロックされた部分のある図２の類似性マトリクスを示す図である。選択されたコンテンツテーブルにおけるリンクを最適化するための処理をダイアグラム的に示す図である。選択されたコンテンツテーブルにおけるリンクを最適化するための処理をダイアグラム的に示す図である。選択されたコンテンツテーブルにおけるリンクを最適化するための処理をダイアグラム的に示す図である。選択されたコンテンツテーブルにおけるリンクを最適化するための処理をダイアグラム的に示す図である。ホールを許容するように改変された、選択されたコンテンツテーブルにおけるリンクを最適化するための処理をダイアグラム的に示す図である。ホールを許容するように改変された、選択されたコンテンツテーブルにおけるリンクを最適化するための処理をダイアグラム的に示す図である。

符号の説明

１０構造化されていない文書、１２テキスト断片化器、１４テキスト断片、２０逐語的類似性リンク識別器、２２リンク、３０候補ＴＯＣ選択器、３４ＴＯＣ選択器、３８リンク最適化器、１１０選択されたＴＯＣ。

Claims

文書内のコンテンツテーブルを識別する方法であって、
前記文書からテキスト断片の順序付きシーケンスを生成するステップと、
前記テキスト断片の順序付きシーケンスの連続的なサブシーケンスとして、コンテンツテーブルを、
（i）前記コンテンツテーブルのテキスト断片によって規定されるエントリが、前記エントリとの逐語的類似性を有するターゲットテキスト断片へのリンクを各々有し、
（ii）前記コンテンツテーブルにはターゲットテキスト断片は存在せず、
（iii）前記ターゲットテキスト断片は、前記ターゲットテキスト断片を規定する前記エントリの昇順に対応する昇順を有する、
という基準を満たして選択するステップと、
を包含する、方法。
前記選択されたコンテンツテーブルが、エントリを規定しない前記選択されたコンテンツテーブルのテキストエントリによって規定されたホールを含み、ホールの数がエントリの数より実質的に小さく、前記ホールは基準（i）、（ii）、及び（iii）を評価する際に考慮されない、請求項１に記載の方法。
前記テキスト断片の順序付きシーケンスを含む構造化文書を構築するステップをさらに含み、前記構造化文書が、前記選択されたコンテンツテーブルに従って構築され且つ前記対応したターゲットテキスト断片に関連した部分を有している、請求項１に記載の方法。
前記コンテンツテーブルを選択するステップが、
テキスト断片の対に関連する複数の逐語的類似性リンクを決定するステップであって、少なくともいくつかのテキスト断片が一つより多くのリンクに含まれているステップと、
各々が前記テキスト断片の順序付きシーケンスの連続したサブシーケンスによって規定され、且つ各々が基準（i）、（ii）、及び（iii）を満たすリンクの少なくとも一つの組み合わせを有する複数の候補コンテンツテーブルを決定するステップと、
各々の候補コンテンツテーブルを、前記候補コンテンツテーブルに含まれるソーステキスト断片を有する前記逐語的類似性リンクに基づいてランク付けするステップと、
最高にランクされた候補コンテンツテーブルを、前記コンテンツテーブルとして選ぶステップと、
前記コンテンツテーブルに含まれるソーステキスト断片を有する前記複数の逐語的類似性リンクを最適化して、各々のエントリに対して一つより多くないリンクを選択するステップであって、前記最適化が基準（i）、（ii）、及び（iii）を満たすステップと、
をさらに包含する、請求項１に記載の方法。