JP2005526314A

JP2005526314A - 文書構造識別器

Info

Publication number: JP2005526314A
Application number: JP2004505822A
Authority: JP
Inventors: スロコンブ，デイビッド
Original assignee: タタインフォテックリミティド
Priority date: 2002-05-20
Filing date: 2003-05-20
Publication date: 2005-09-02
Also published as: WO2003098370A2; NZ536775A; AU2003233278A1; MXPA04011507A; US20040006742A1; EP1508080A2; CA2486528C; IS7525A; CA2486528A1; WO2003098370A3

Abstract

視覚的キュー（visual cue）に基づく自動文書構造識別の方法を開示する。文書の二次元レイアウトを分析して文書の構造に関連する視覚的キューを認識し、同様の構造の要素が同様に処理されるように文書のテキストをトークン化（tokenize）する。本方法は、拡張可能マークアップ言語ファイルの生成、自然言語解析及び検索エンジンの格付け機構に適用可能である。

Description

本発明は、一般に文書における構造の識別に関する。特に、本発明は、電子文書における自動構造識別の方法に関する。

拡張可能マークアップ言語（ＸＭＬ）は、複数のチャネルにわたるアクセスのために電子文書を維持する利便性の高いフォーマットを提供する。多くの分野でのその広範な適用可能性の結果、ＸＭＬオーサリング・ツールへの関心が高まっている。

ＸＭＬのような構造化され解析可能（parsable）で再使用可能なフォーマットの文書を有することの有用性はよく認識されている。しかし、テキストを適切にマークアップするために必要なタグを入力することによって文書を手動で作成する以外に、一貫した文書を作成する信頼性の高い方法は存在しない。人間とコンピュータの対話へのこのアプローチは後ろ向きであって、人間がＸＭＬのタグ付き文書を直接読むことを期待できないのと同様、それを書くことも期待するべきではない。

フォーマット済み文書をＸＭＬファイルにエクスポートしたりＸＭＬフォーマットの文書をネイティブに格納したりできる多様なアプリケーションによって、ＸＭＬ文書の手動作成に対する代替案が提供されている。こうしたＸＭＬ文書作成アプリケーションは通常、ワードプロセッサ用のＨＴＭＬ作成プラグインと同様のアルゴリズムを使用して導出する。そのためこれは、特定のスタイルに属するものとして明示的に記述されたテキストにＸＭＬタグを提供する能力を含む、多くの同じ欠点を有している。一例として、レイアウトされたテキストのページの最上部近くの行がいくつかのコラムにわたって中央揃えされ、大きな太字の書体にフォーマットされているとする。直覚的に、読者はこれがタイトルであると推論するが、現在まで知られているＸＭＬ生成プログラムは、ユーザが「タイトル・スタイル」の指定を適用して初めてそれをタイトルまたは表題として識別するに過ぎない。従って、適切なＸＭＬのマークアップを確実に行えるかどうかは、直接的または間接的にＸＭＬマークアップ・コードを提供するユーザに依存する。これには大部分のユーザが現在ワードプロセッシングやレイアウト・ツールを使用しているやり方を変える必要があるため、保証が困難であることを当業者は認識するであろう。

さらに、従来のＸＭＬ生成ツールは構造上線形的で、文書中の全体的なパターンを認識しない。例えば、順次的なリストは、そのように識別しない場合、通常テキストの純粋に線形的な流れとして表される。別の例では、丸印によるリストを作成する多様な方法が生成プログラムにとって問題となることもある。丸印を作成するため、ユーザはタブストップを設定したり多数の空白文字を入力して丸印を字下げしたりすればよい。そして、指定された書体から丸印の文字を入力して丸印を作成すればよい。また、ピリオドのフォントサイズを増大し上付きにすることによってピリオドを丸印として使用してもよい。別の代替案として、ユーザは丸印ツールを選択して同じタスクを達成してもよい。タブまたは一連の空白を使用する代わりに、ユーザは移動可能なテキストフレームに丸印を挿入してそれを受け入れ可能なロケーションに配置してもよい。テキスト要素の代わりにグラフィカル要素を使用して丸印を作成してもよい。これら全ての場合、データ・ファイルの線形解析の結果として、印字コード（typographical code）の異なる集合の使用を表す、異なるＸＭＬコードが作成されることになる。しかし、読者にとって上記で説明した全ての構成体は同一であり、読者は直覚的に同様のＸＭＬコードが生成されることを期待するであろう。

データ・ストリームの線形処理に関連してここで説明した問題は、一次元解析プログラム（one-dimensional parser）が処理対象のテキストの文脈を正しく導出できないことから生じる。人間の読者はコンテンツの文脈を容易に区別できるが、一次元解析プログラムは文書のフォーマットが提供する視覚的キュー（visual cues）を利用することができない。フォーマットとそこに含意された指定を区別するために人間の読者が使用する視覚的キューは、ページ上の素材の二次元レイアウトと、ページ間の一貫性とに基づいている。

従って、文書から利用可能な視覚的キューに基づいてコンテンツの文脈を導出するＸＭＬ生成エンジンを提供することが望ましい。

本発明の目的は、以前の文書識別システムの少なくとも１つの欠点を除去または軽減することである。

本発明の第１の態様では、少なくとも１つのページのコンテンツを有するコンピュータ解析可能文書の文書構造モデルを作成する方法を提供する。本方法は、文書のコンテンツをセグメントとして識別するステップと、文書のコンテンツと構造を特徴付けるトークンを作成するステップと、文書構造モデルを作成するステップとを含む。識別された各セグメントは所定の特性を有し文書中の構造を表す。各トークンは少なくとも１つのページのうち１つに関連し、各トークンは、同じページの他のセグメントに対する各セグメントの位置に基づいて、トークンに関連するページの構造によって決定される文書中の構造を定義する特性を有する。文書の少なくとも１つのページの全てにわたるトークンの特性によって文書構造モデルを作成する。

本発明の現在好適な実施形態では、コンピュータ解析可能文書はページ記述言語で書かれ、文書のコンテンツを識別するステップは、ページ記述言語を線形化された二次元フォーマットに変換するステップを含む。各セグメントのセグメント・タイプをテキスト・セグメント、画像セグメント及び規則セグメントとを含むリストから選択するが、これらはそれぞれ文字ベースのテキスト、ベクトル及びビットマップ画像、及び規則を表し、テキスト・セグメントは共通の並び線を有するテキストのストリングを表す。トークンの特性は、段落の候補、表のグループ、リスト・マークの候補、仕切り（Ｄｉｖｉｄｅｒ）、及びゾーン（Ｚｏｎｅ）を含むリストから選択した構造を定義する。１つのトークンが少なくとも１つの他のトークンを含む場合、収容する側のトークンの特性は収容される側のトークンの特性によって決定される。好適には、各トークンには、文書中のトークンのロケーションを追跡するための幾何学的指標を含む識別番号を割り当てる。トークンの特性の規則ベースの処理を使用して文書構造モデルを作成し、少なくとも２つの結合されていないゾーン（Ｚｏｎｅ）は文書構造モデル中でゲラ（Ｇａｌｌｅｙ）として表す。段落の候補は文書構造モデル中で、タイトル（Ｔｉｔｌｅ）、丸印によるリスト、数字によるリスト、挿入ブロック、段落、ブロック引用、及び表を含むリストから選択した構造として表す。

本発明の第２の態様では、本発明の第１の態様の方法を使用して文書構造モデルを作成するシステムを提供する。本システムは、視覚的データ取得器と、視覚的トークン化器と（visual tokenizer）、文書構造識別器とを備える。視覚的データ取得器は文書中のセグメントを識別するものである。視覚的トークン化器は文書を特徴付けるトークンを作成し、識別されたセグメントを受信するため視覚的データ取得器に接続されている。文書構造識別器は、視覚的トークン化器から受信したトークンに基づいて文書構造モデルを作成するものである。

本発明の別の態様では、コンピュータ解析可能文書を拡張可能マークアップ言語に変換するシステムであって、第２の態様のシステムと、文書構造識別器によって作成された文書構造モデルを読み取り、文書構造モデルのコンテンツと構造によって拡張可能マークアップ言語ファイル、及びハイパーテキスト・マークアップ言語ファイルまたは標準汎用マークアップ言語ファイルを作成する変換エンジンとを含むシステムを提供する。

本発明の他の態様と特徴は、添付の図面と共に個々の実施形態の以下の説明を検討する際当業者に明らかになるであろう。

ここで本発明の実施形態を、以下の添付の図面を参照して、例示としてのみ説明する。

本発明は、コンテンツの印字特性と、ページ上の要素間の二次元関係との両方から文書の構造に関する情報を収集する二次元ＸＭＬ生成処理を提供する。本発明は、ページ上での要素の役割と文書全体でのその役割との両方に関する情報を使用してテキストの目的を判定する。以下説明するように、テキストの一節に関する情報は、印字のデザインが複雑で解釈を行う人間及び機械の両方に混乱を起こさせるもの以外の大多数の文書の視覚的キューから判定すればよい。

先行技術のＸＭＬ生成プログラムはテキストに関連するタグを判定するためソース・アプリケーション中で定義されるスタイルに依存しているが、本発明は、潜在的に複数のページからなる文書中の個々のページの二次元レイアウトを分析することから出発する。二次元分析を促進するため、本発明の現在好適な実施形態は、文書のページ記述言語（ＰＤＬ）バージョンに対する視覚的データ取得フェーズを開始する。アドビ（Adobe）社のポストスクリプト（PostScript）（登録商標）及びポータブル・ドキュメント・フォーマット（Portable Document Format：ＰＤＦ（登録商標））、さらにヒューレット・パッカード（Hewlett Packard）社のプリンタ制御言語（Printer Control Language：ＰＣＬ（登録商標））及び異なるプリンタ製造業者に固有の多様な他のプリンタ制御言語を含む多数のＰＤＬが存在することを当業者は認識するであろう。また、個々の実装の詳細は異なっても、以下説明するような視覚的データ取得は、ページの二次元記述を提供する任意の機械可読フォーマットに対して実装しうることを当業者は認識するであろう。

このアプローチを取った動機は、事実上全ての文書はすでに文書を解析可能にするのに十分な構造の視覚的マーカを有しているという主張である。このことを最も明瞭に示しているのは、読者が一目で精神的に解析できない論理構造を持った印刷文書に遭遇することはまれであるという平凡な考え方である。こうした基準に達しない文書も存在するが、一般に人間と機械との両方にとって曖昧であると考えられている。こうした文書は、制作者または印字者が一般に理解された規則に十分に従っていないことの結果である。負の例として、デザイン偏重の出版物の中にはできる限り多くの規則を故意に従わないようにしているものもあり、これは愉快なものではあるが、読者が文書の構造を認識する上ではあまり役立たない。

二次元識別は、フォーマット、位置及び文脈に基づいてページをオブジェクトに解析する。そして、ページは１つかそれ以上のヘッダ、フッタ、本文、及び脚注を含む構造またはジオメトリを有する傾向があるという考え方に基づいてページのレイアウトを検討する。ソフトウェア・システムはパターン及び形状認識アルゴリズムを利用して、印字原理の一般的な知識によって定義されるオブジェクトと高水準構造を識別すればよい。

また、二次元解析は、印刷文書を理解する人間の目と脳のシステムをより忠実にエミュレートする。構造識別のこのアプローチは、どの印字プロパティの集合が個々のオブジェクトに特有なものであるかを判定することに基づいている。いくつかの例は、人間が印字キューをどのように使用して構造を区別しているかを実証している。

ここで、表１は、レイアウトに基づく暗黙的な構造を例示する４つのサンプル・リストを示している。

表１は、単語の意味を理解しなくとも読者が視覚的キューによってリストの構造を理解できることを示す４つのリストを含む。第１のものは単純なリストで、ネストされた別のリストを含んでいる。第２〜第５の項目がサブリストのメンバであることを示す２つの重要な視覚的手がかりが存在するため、このことを理解するのは容易である。第１の視覚的手がかりは、それらの項目が右にインデントされていることで、これはおそらく最も明白な指標である。第２の視覚的手がかりは、それらが別の番号付けシステム（数字でなくアルファベット）を使用していることである。

第２のリストでは、サブリストは同じ番号付けシステムを使用しているが、やはりインデントされているので、読者はネストされた構造を容易に推測できる。

第３のリストはやや特殊で、全ての項目のインデントが同じであるため、多くの人は組み方が悪いと言うであろう。それにもかかわらず、第２〜第５の項目は別の番号付けスキームを使用しているため論理的にネストされていると、読者は高い確信を持って結論付けることができる。インデントしていなくともサブリストを識別できることから、この文脈では番号付けスキームがインデントより重要であると推論できる。

第４のリストは明瞭に理解できない。全ての項目のインデントが同一であるだけでなく、リストの番号付けが繰り返されており、それがなぜかを示す視覚的キューはない。このリストの構造を何らかの確信を持って解読することはできないと読者が結論付けても全く無理はない。ある推定を行うことによって構造を推量することは可能かもしれないが、それは制作者が意図したものではないかもしれない。

同じ考え方を番号付けのないリストに適用してもよい。通常番号付けのないリストは丸印を使用しており、丸印はスタイルが異なることもある。

ここで、表２は、レイアウトに基づく暗黙的な構造を例示する丸印を使った４つのサンプル・リストを示している。

第１の例は、ネストされたリストを明瞭に含んでおり、すなわち、第２〜第５の項目はインデントされ、第１及び第６の項目と異なる丸印を有している。第２の例も同様である。全ての項目は同じ丸印を使用しているが、インデントによってネストされた項目があることを暗示している。第３の例では、インデントがなくても、白丸印が明瞭に識別できるため、中央の項目がサブリストのものであると、読者は容易に判定できる。

第４の例は若干のジレンマを提示している。インデントされた項目はなく、読者は、第２〜第５の項目が異なっていることが分かるかもしれないが、それらがサブリスト中の項目を示すと結論付けるには必ずしも十分ではない。これは人間とソフトウェア・プログラムとの両方が曖昧な状況と結論付けうる例である。上記の議論が示すように、ネストされた丸印付きのリストを認識する場合、インデントは項目のマークの選択より重要である。

もう１つの一般的な印字構造はブロック引用である。この構造は引用した節を字下げするために使用する。図１は、ブロック引用の第１の例を示す。ブロック引用を認識する場合、フォントとフォントスタイル、インデント、行間隔、引用符、及び仕切り（Ｄｉｖｉｄｅｒ）といったいくつかの異なるキューが使用される。注釈及び警告といった他の構成体がブロック引用と同様のフォーマット属性を有することがあるためこれは若干単純化した例である。図１では、引用された素材はインデントされイタリック体になっている。図２でも、引用はインデントとポイントサイズという２つの方法で強調されている。

図３は、図１のイタリック体を保持しているがインデントは除去され、図４は、インデントを除去する一方で図２のフォントサイズ変更を保持している。読者はこれらの例をブロック引用として認識するかもしれないが、それは図１及び図２の場合ほど明白ではない。インデントはブロック引用の極めて重要な特性である。このフォーマット・プロパティを使用しない場合、印字者は通常、図５に示すように引用したブロックを明示的な引用符で囲むようにする。

数千ページの文書の検討に基づく経験的な調査によって、文書の中で一般に使用されるオブジェクトとページまたは画面上にオブジェクトを伝える視覚的（印字的）キューの分類法、及び個々のオブジェクトを識別するのに十分なキューの組み合わせはどれかの分析が得られた。これらの結果は構造識別処理で利用される印字知識のリポジトリを提供する。

印字分類法は、例えば異なる種類のタイトル及びリストを区別する何らかのより細かな分類によって、一般に予想される通常のカテゴリー（ブロック／インライン、テキスト／非テキスト）に分類する。分類法を構築する過程で、新たに発見される別個のオブジェクトの数は時間と共に減少する。発見されるものは一般に少数の文書でしか使用されないものである。その上、大多数の文書はこうしたオブジェクトの比較的小さな部分集合を使用する傾向がある。印字において一般に使用されるオブジェクトタイプの集合は管理できる有限のものと考えてもよい。

個々の制作者が各オブジェクトをフォーマットする多数の方法が存在するため、グラフィカルオブジェクトを具体的に実現する視覚的キューまたは特性の集合を取得することは容易ではない。一例として、個々の制作者がタイトルのような一般的なオブジェクトをフォーマットするのにも非常に多くの方法がある。しかし、この場合でも、大多数の文書は印字法の慣習のかなり明確な集合を使用している。

分類法における要素のリストは大きいが、各要素に関連する視覚的キューはある期間にわたって十分に安定しており、プログラムがＸＭＬを使用して互いに通信するように、制作者が読者と通信するのに使用する共通の信頼できるプロトコルを提供する。

本発明は、視覚的データ取得（ＶＤＡ）、視覚的トークン化、及び文書構造識別という３つのフェーズの処理を通じて文書構造モデル（ＤＳＭ）を作成する。これらの３つのフェーズは各々、文書のコンテンツをより正確に表すさらなる構造を追加することによってＤＳＭを修正する。ＤＳＭはまず視覚的データ取得フェーズで作成され、視覚的トークン化及び文書構造識別フェーズの入力及び出力の役目を果たす。３つのフェーズを各々以下より詳細に説明する。ＤＳＭ自体は、文書の決定された構造を格納するデータ構成体である。３つの各フェーズで、新しい構造を識別し、ＤＳＭに導入し、それらが関連するテキストまたは他のコンテンツに関連付ける。ＤＳＭに格納される構造はプログラミング言語におけるオブジェクトと同様であることを当業者は認識するであろう。各構造は、他の構造の特性を決定するために使用可能な特性とコンテンツの両方を有する。各段階でＤＳＭを修正する方法と、それが記述しうる構造の種類とは、以下の議論を考慮すれば当業者には明らかであろう。

ＤＳＭは、処理される文書と、構造識別処理が文書の中に発見する構造との、メモリに格納されたモデルとして最もよく説明される。このモデルは、構造識別処理が開始される時「白紙」として開始され、構造識別処理が文書を処理する時間を通じて蓄積される。最後に、ＤＳＭのコンテンツは、構造識別処理が文書について学習した全てのことの記述を形成する。最終的には、ＤＳＭを使用して、文書及びその特性を、ＸＭＬファイルのような別のフォーマット、または文書管理用に使用されるデータベースにエクスポートすればよい。

構造識別処理の各段階は、文書の構造の識別を可能にする（またはすでに認識された構造の精緻化を可能にする）情報をＤＳＭから読み取る。各段階の出力は、ＤＳＭに追加された新しい構造（または既存の構造にアタッチされた新しい情報）の集合である。すなわち、各段階はすでにＤＳＭ中に存在する情報を使用し、ＤＳＭ中に含まれる情報に固有の増分を追加することができる。ＤＳＭは多数のフォーマットを経る段階で作成してもよいことは当業者には明らかであろう。本発明の現在好適な実施形態が単一フォーマットの自己修正データ構造を使用するのは単に的確さと簡潔さのためだけに過ぎない。

構造識別処理の開始時には、ＤＳＭは空の状態である。構造識別処理の第１の段階は、好適にはＶＤＡフェーズによってＰＤＬファイルから抽出された、文書の「紙面上のマーク」（印刷された文字、描かれた線、何らかの色で塗りつぶされた範囲、描画された画像）の非常に詳細な記録を読み取ることからなる。ＶＤＡフェーズの詳細な記述を以下提示する。

ＶＤＡの後、文書をＤＳＭ中の一連のセグメントとして表す。セグメント（Ｓｅｇｍｅｎｔ）はプログラミング・オブジェクトとして処理されるが、その場合あるセグメントはクラス・セグメントのオブジェクトのインスタンスであり、おそらくはセグメント・サブクラスの１つのオブジェクトのインスタンスであると考えられる。各セグメント（Ｓｅｇｍｅｎｔ）は、構造識別処理のその後の段階で使用される特性の集合を有する。視覚的トークン化フェーズでは、セグメントの特性は好適には、
−個々のセグメント（Ｓｅｇｍｅｎｔ）を結合または分割する、
−セグメント（Ｓｅｇｍｅｎｔ）のコンテナの役目を果たす、要素（Ｅｌｅｍｅｎｔ）と呼ばれる高水準オブジェクトを形成する。構造識別処理が続くと、ＤＳＭが収容する要素（Ｅｌｅｍｅｎｔ）は増大する、
−丸印、または“２．４（ａ）”といった順序マークのような、リスト項目の開始を意味しうる特殊なオブジェクトであるいくつかのセグメント（Ｓｅｇｍｅｎｔ）（またはセグメント（Ｓｅｇｍｅｎｔ）の一部）を「マーク（Ｍａｒｋ）」、または潜在的な「マーク（Ｍａｒｋ）」として識別する、
−線または空白のいずれかによって形成された垂直または水平の「仕切り（Ｄｉｖｉｄｅｒ）」を識別する（これはコラム、段落等を区切る）、
といったことのために使用される。

その後の処理で、要素（Ｅｌｅｍｅｎｔ）自体を好適にはグループ化して、リスト（Ｌｉｓｔ）項目を含むリスト（Ｌｉｓｔ）のような新しいコンテナ要素（Ｅｌｅｍｅｎｔ）のコンテンツを形成する。項目をグループ化してこうした新しい要素を形成する処理によって、新しい構造がその後の処理のためにＤＳＭに格納される。

文書はいくつかのテキストの「流れ」を有することが多いので、ＤＳＭは好適にはまた別の種類のオブジェクトであるゲラ（Ｇａｌｌｅｙ）を規定しているが、これについて以下詳細に説明する。ゲラ（Ｇａｌｌｅｙ）は、印字における周知の構成体で、独立した領域間のテキストの流れを誘導するために使用する。また、サイドバー（記事の本文とは別に読むべきボックス中のテキスト）のようなページ上の特殊な範囲について、ＤＳＭは、テキストベースの割り込みの取り扱いを容易にするドメイン（Ｄｏｍａｉｎ）と呼ばれるオブジェクトタイプを有してもよい。

構造識別処理の終了が近づくと、ＤＳＭは、処理の初期段階で作成された元々のセグメント（Ｓｅｇｍｅｎｔ）と、セグメント（Ｓｅｇｍｅｎｔ）のグループ化を示すよう作成された要素（Ｅｌｅｍｅｎｔ）と、ゾーン（Ｚｏｎｅ）のような要素（Ｅｌｅｍｅｎｔ）自体のグループ化とを含む非常に多くのオブジェクトを含む。ゾーン（Ｚｏｎｅ）自体も、別々に処理すべき分離可能または逐次的な範囲のコンテナを形成するゲラ（Ｇａｌｌｅｙ）とドメイン（Ｄｏｍａｉｎ）とにグループ化される。

ここで本発明の方法を詳細に説明する。本方法は視覚的データ取得フェーズから開始される。本出願で説明する例では特にポストスクリプトまたはＰＤＦベースの入力ファイルを参照しているが、本方法は、必要に応じてＰＤＬ固有の修正を行うことで他のＰＤＬにも適用可能であることを、当業者は容易に認識するであろう。ポストスクリプトまたはＰＤＦファイルは、インタープリタを通すことで動作できる実行可能ファイルである。これによってポストスクリプト・プリンタは印刷するページを生成し、ＰＤＦビューアはページの印刷及びオンスクリーン表示を生成する。本発明の現在好適な実施形態では、ＰＤＬは、ゴーストスクリプト（Ghostscript）（登録商標）インタープリタのようなインタープリタに提供され、線形化出力ファイルを作成する。ポストスクリプト及びＰＤＦのＰＤＬファイルは線形的に順序付けられない傾向があるので、解析が困難なことがある。ＰＤＬは、ページ上の他の要素によって隠されたテキスト、画像またはベクトル図といった情報を含むことがあり、さらに必ずしも所定の順序でページのレイアウトを表示しないということからこの困難が生じる。解析プログラムは多数の層を有する非線形的なページ・レイアウトを解釈するように設計可能なことは認識されているが、ＰＤＬインタープリタが出力としてページの二次元的な順序付けられた表示を提供することが好適である。本発明の現在好適な実施形態では、インタープリタの出力は解析可能な線形化ファイルである。このファイルは好適には、線形的な（例えばページの左上から右下まで）ページ上の文字の位置とページ上で使用されるフォントとに関する情報を含み、印刷されるページ上で見える情報だけを提示する。視覚的データ取得の第２の段階では、この単純化したファイルを使用してページを表す一連のセグメントを作成する。

現在好適な実施形態では、視覚的データ取得の第２の段階は文書構造モデルを作成する。本方法は文書中の多数のセグメントを識別する。セグメントは多数の特性を有し、それを使用して第１のＶＤＡ段階を経たページのコンテンツを表す。好適には、各ページを多数のセグメントによって記述する。現在好適な実施形態では、テキスト・セグメント（ＴＳｅｇ）、画像セグメント（ＩＳｅｇ）及び規則セグメント（ＲＳｅｇ）という３種類のセグメントが存在する。ＴＳｅｇは、共通の並び線によってリンクされ、大きな水平の行間隔によって分離されていないテキストの区間である。許容可能な水平行間隔の大きさは、通常ＰＤＬによって提供されＤＳＭに格納されるフォントと文字セットのメトリックスによって決定する。ＴＳｅｇの作成は、文字の水平行間隔を検査して共通の並び線を共有する文字間にいつ切れ目が存在するかを判定することによって行えばよい。現在好適な実施形態では、単語の間の間隔のような切れ目はＴＳｅｇを終わらせるのに十分なものとはみなされない。ＲＳｅｇはページ上で定義された水平及び垂直の規則からなるので、ＶＤＡの第２の段階で識別するのが比較的容易である。これは通常、ＰＤＬの直線及び曲線両方の線についての作図コマンド、またはソリッドブロック（solid block）のような閉じた空間についての作図コマンドの集合を構成する。ＲＳｅｇはページ中の様々な領域またはゾーン（Ｚｏｎｅ）を識別する際有用であり、後の段階でこの目的のために使用する。ＩＳｅｇは通常ベクトルまたはビットマップ画像の何れかである。セグメントが作成されＤＳＭに格納されると、ページ上のロケーション、ＴＳｅｇ中に含まれるテキスト、ＩＳｅｇに関連する画像の特性、及び長さ、絶対位置、塗りつぶされた範囲の場合バウンディングボックス等のＲＳｅｇの記述といった多様な他の情報を通常セグメントに関連付ける。特性の集合を定義された各セグメントについて維持する。こうした特性は、識別番号、セグメントの座標、セグメントの色、該当する場合セグメントのコンテンツ、セグメントの並び線、及びセグメントに関連する任意のフォント情報を含む。

図６は、視覚的データ取得の第２の段階の後の文書を例示する。下のページ１００中のテキストの行には、各行がテキスト・セグメントとして識別されたことを示す下線が引かれている。上のページ１０２では、テキスト・セグメントは、読者が表１０４中のセルとして認識するものを表している。上記で説明したように、テキスト・セグメントは、共通の並び線を共有し、変則的に大きな行間隔で他の文字から水平に分離されていないテキストを発見することによって作成する。第１のコラムのテキストの一番上の行は強調され、画面キャプチャの左下のウィンドウ１０８は選択されたＴＳｅｇ１０６の特性を示している。選択されたオブジェクトはＴＳｅｇ１０６として記述され、要素識別番号を割り当てられ、所定の座標に存在し、所定の高さと幅とを有する。また、ＴＳｅｇ１０６のテキストと同様、テキスト並び線のロケーションも定義される。また、ＰＤＬから抽出されたフォント情報も提供される。前に説明したように、ＰＤＬ中にフォントと文字の情報が存在することは、ＴＳｅｇ１０６でどの程度の水平間隔を許容可能とみなすかを決定する助けになる。

図７は同じ画面キャプチャを例示するが、図６で選択されたＴＳｅｇ１０６の代わりに上のページ１０２の表１０４ではＲＳｅｇ１０７が選択されている。ＲＳｅｇは割り当てられた識別番号を有し、ウィンドウ１０６中の他の例示プロパティが示すようにバウンディングボックス、高さ、幅及び並び線を有する。

本発明の現在好適な実施形態の処理の第２の段階では、文書は視覚的トークン化処理を経る。トークン化は、パターン認識技術を使用してＤＳＭ中の付加構造を定義するページベースのグラフィカル分析である。ＶＤＡの出力はＤＳＭであるが、これは、文書中のさらなる構造を定義してそれをＤＳＭに追加するトークン化のためのソースの役目を果たす。視覚的トークン化処理はページ上のグラフィカル・キューを使用してさらなる構造を識別する。ＶＤＡ段階は、ページ上のテキスト領域を区切るために使用される仕切り（Ｄｉｖｉｄｅｒ）と考えられるＲＳｅｇの識別を提供するが、視覚的トークン化は別の種類の仕切り（Ｄｉｖｉｄｅｒ）である空白の仕切り（Ｄｉｖｉｄｅｒ）を提供する。以下例示するように、空白ブロックは、コラムの境界を定め、通常段落を区切るために使用する。こうした空白の仕切り（Ｄｉｖｉｄｅｒ）は従来のパターン認識技術を使用して識別すればよく、好適にはテキストのブロックの中間で誤った仕切り（Ｄｉｖｉｄｅｒ）を識別しないように文字のサイズと位置を検討することによって識別する。空白とＲＳｅｇ両方の仕切り（Ｄｉｖｉｄｅｒ）には、識別番号、ロケーション、色、及び後の処理で使用されうる他のプロパティ情報といったプロパティを割り当ててもよい。空白及びＲＳｅｇタイプの仕切り（Ｄｉｖｉｄｅｒ）という異なる種類の仕切り（Ｄｉｖｉｄｅｒ）の交差を使用して、ページを一連のゾーン（Ｚｏｎｅ）に区切ってもよい。仕切り（Ｄｉｖｉｄｅｒ）は、実際のコンテンツが検出されない矩形の部分である。例えば、水平に延びる場合、仕切りはページヘッダとページ本文の間、または段落の間、または表の行の間の空間でありうる。仕切り（Ｄｉｖｉｄｅｒ）オブジェクトはページ上の空の空間であることが多く、この場合コンテンツを有しない。しかし、実際のコンテンツではなく分離文字であると判定された任意のセグメントまたは要素を含むこともある。ほとんどの場合１つかそれ以上のＲＳｅｇ（規則）であるが、任意の種類のセグメントまたは要素も可能である。

コラムのあるページは好適には、各々１つのコラムを表す一連のゾーン（Ｚｏｎｅ）に分離される。ゾーン（Ｚｏｎｅ）は、関心の対象となりうるコンテンツを有するページの任意の矩形の部分を表す。永続的なゾーン（Ｚｏｎｅ）オブジェクトを、各ページ上のテキスト範囲、各ページ上の本文テキスト範囲、及び多数のコラムを有するページの各コラムについて作成する。また、ゾーン（Ｚｏｎｅ）は、矩形の部分の参照が必要な時はいつでも、必要に応じて作成する。こうしたゾーン（Ｚｏｎｅ）は必要がなくなった時に廃棄すればよい。こうした一時的なゾーン（Ｚｏｎｅ）も識別番号を有する。ゾーン（Ｚｏｎｅ）オブジェクトは子を有してもよく、子は他のゾーン（Ｚｏｎｅ）でなければならない。すなわちコラムのゾーン（Ｚｏｎｅ）はページのゾーン（Ｚｏｎｅ）の子となる。要素のバウンディングボックスは子のバウンディングボックスによって決定されるが、各ゾーン（Ｚｏｎｅ）のバウンディングボックスは独立である。各ゾーン（Ｚｏｎｅ）では、空白の仕切り（Ｄｉｖｉｄｅｒ）を段落の候補が存在する場所を示すものとして使用してもよい。ゾーン（Ｚｏｎｅ）と仕切り（Ｄｉｖｉｄｅｒ）をこのように使用することは、この段階で導入されるブロック要素（ＢＥｌｅｍ）という新しい文書構造を識別する助けになる。ＢＥｌｅｍは一連のＴＳｅｇをグループ化して段落の候補を形成する役目を果たす。同じかほぼ同様の並び線を有する（普通仕切り（Ｄｉｖｉｄｅｒ）によって線引きされた）隣接する範囲内の全てのＴＳｅｇを検査して、作成されるＢＥｌｅｍ内でそれらが出現する順序を決定する。そしてＴＳｅｇをこの順序でグループ化してＢＥｌｅｍを形成する。ＢＥｌｅｍはＴＳｅｇのためのコンテナであり、ＩＤ番号、座標及び、上下の空間の大きさ、フラグの集合、及び子のリストといった他の特性を割り当てられる。ＢＥｌｅｍの子はグループ化されたＴＳｅｇであり、以前に割り当てられたプロパティを保持していることがある。ＢＥｌｅｍプロパティ中のフラグの集合を使用して、ＢＥｌｅｍの性質に関する最良推定を示してもよい。前に示したように、ＢＥｌｅｍは段落の候補であるが、ページ付けとコラムの切れ目によって、どこかに続く段落の開始、どこかで始まる段落の終了、または開始及び終了が両方とも他の範囲にある段落の中間といった段落の断片であることもあり、また完全な段落であることもある。ＢＥｌｅｍの開始及び終了の仕方は通常、ＢＥｌｅｍが段落または段落の断片のどちらを表すかを示すと考えられる。

視覚的トークン化フェーズは、コンテンツによって導出された構造ではなく二次元レイアウトによってより容易に識別可能な任意の他の構造を識別する機会という役目を果たす。このことの２つの例は番号と丸印によるリストの表とマークである。

表の識別の議論では、表のグリッドと完全な表とを区別する必要がある。表のグリッドは、空白またはＲＳｅｇ何れかの仕切り（Ｄｉｖｉｄｅｒ）によって線引きされた一連のセルから構成される。完全な表は表のグリッドを備え、表のタイトル、見出し、注及び属性の何れかが存在または該当する場合それらを必要に応じて含む。

視覚的トークン化フェーズにおける表のグリッドの認識は、仕切り（Ｄｉｖｉｄｅｒ）の分析に基づいて行う。さらなる精緻化は好適にはその後の処理で行う。表のグリッドの認識は、２つの仕切り（Ｄｉｖｉｄｅｒ）の交点であるシードから開始する。シードは成長して表のグリッドのための当初のバウンディングボックスになる。その後当初の表のグリッドの範囲を内部の水平及び垂直の仕切り（Ｄｉｖｉｄｅｒ）についてより積極的に再分析し、セルの行とコラムを形成する。その後当初のバウンディングボックスは上下両方に成長し、初期の推定では見落としたかもしれない追加の行を取り入れる。その後結果として得られる表のグリッドを綿密に調べ、場合によっては拒否する。表のグリッド構造をＴＧｒｏｕｐオブジェクトとして格納するが、これはグリッドを形成するＲＳｅｇを含み、最終的にはセル・コンテンツに対応するＴＳｅｇも含む。

認識のためのシードは垂直及び水平の仕切り（Ｄｉｖｉｄｅｒ）の交点である。垂直の仕切り（Ｄｉｖｉｄｅｒ）は好適にはコラムの一番右にある。シードは、グリッドの当初のバウンディングボックスに含まれないこの垂直の仕切り（Ｄｉｖｉｄｅｒ）の右側のテキストを有してもよい。しかし、当初のバウンディングボックスが成長した後、グリッドは、垂直及び水平の仕切り（Ｄｉｖｉｄｅｒ）とテキストとの境界に基づいてテキストを含むかまたは除外する。

シードから、表のグリッドのバウンディングボックスを形成する４つの仕切り（Ｄｉｖｉｄｅｒ）を発見する。こうしたボックスを形成できない場合潜在的なＴＧｒｏｕｐを拒否する。この境界の形成を助けるため空白の仕切り（Ｄｉｖｉｄｅｒ）は範囲を縮小してもよいが、コンテンツの仕切り（Ｄｉｖｉｄｅｒ）の範囲は限定されていることに注意されたい。従って、上下の仕切り（Ｄｉｖｉｄｅｒ）がＲＳｅｇである場合、許容可能なマージン内で同じ左右の座標を有する必要がある。同じことは左右のＲＳｅｇタイプの仕切り（Ｄｉｖｉｄｅｒ）についても当てはまる。

本発明の１つの実施形態では、完全ボックス、部分ボックス及びボックスなしという３種類の表のグリッドを識別する。完全ボックスの表では、行とコラムは全てコンテンツの仕切り（Ｄｉｖｉｄｅｒ）［本来のインク線（proper ink line）］によって示される。ボックスなしの表では、空白だけを使用してコラムを区切るので、行を区切る追加の空白はなくてもよい。部分ボックスのＴＧｒｏｕｐは、上部と下部ではコンテンツの仕切り（Ｄｉｖｉｄｅｒ）によって区切られることが多く、場合によってはコンテンツの仕切り（Ｄｉｖｉｄｅｒ）はヘッダの行をグリッドの残りの部分から区切るが、それ以外ではコンテンツの仕切り（Ｄｉｖｉｄｅｒ）がないという点で中間的である。

ボックスなしの表の場合、画像またはサイドバーを含む表のグリッドの境界を拒否する。他の表は画像が内部にあることを許容するが、ボックスなしの表の性質上、画像とサイドバーは通常ＴＧｒｏｕｐの外部にあるとみなす。また、有望な表のグリッドの内部のサイドバーのコンテンツが表のグリッドのものと同様である場合、サイドバーを取り消し、サイドバーの内部をグリッドに含める。表のグリッドの境界は、ボックスの表のための内部の垂直の仕切り（Ｄｉｖｉｄｅｒ）がない場合拒否する。必要な場合、表のグリッドの境界の座標を、現在の境界のわずかに上に延びる垂直のコンテンツの仕切り（Ｄｉｖｉｄｅｒ）を含むように許容範囲内で調整してもよい。

この当初の境界から、上下両方に成長するよう試みる。これは段階的に行う。各ステップは、上（または下）の次の水平の「コンテンツの」仕切り（Ｄｉｖｉｄｅｒ）までの全てのオブジェクトを見て、それらが現在の表のグリッドに接合できるかどうかを見ることからなる。テキストとサイドバーとの間の水平の空白の仕切り（Ｄｉｖｉｄｅｒ）をこの目的のためのコンテンツの仕切り（Ｄｉｖｉｄｅｒ）として扱う。

表のグリッドの境界内で水平及び垂直の仕切り（Ｄｉｖｉｄｅｒ）をより積極的な形で再作成する。視覚的トークン化処理は、表のグリッドの内部では、ＴＧｒｏｕｐの外部で許容可能であるよりも少ない証拠に基づいて垂直の仕切り（Ｄｉｖｉｄｅｒ）を形成することが妥当であると想定している。普通、短い仕切り（Ｄｉｖｉｄｅｒ）は、偶然の一致（偶然形成された単語の間の空白の連続）に過ぎないことが多いという前提で回避する。表の候補の範囲では、それが仕切り（Ｄｉｖｉｄｅｒ）である可能性がはるかに高い。同様に、明らかな単語の境界がいくつかの他のＴＳｅｇの縁端によって形成された鋭い線に対応する場合ＴＳｅｇはそこで切れる。

明白なグリッド線のない表のグリッドの場合、テキストの新しい各行に水平の仕切り（Ｄｉｖｉｄｅｒ）を形成する。表のグリッドのコンテキストの外部では、これは明らかに過剰であろう。潜在的は表のグリッドは、一旦形成したら、綿密に調べ、場合によっては拒否する。１つのコラムだけが形成された場合、テーブルのマークアップを必要としない同じテキスト構造である可能性が高いので拒否する。２つのコラムが形成され第１のコラムがマークだけからなる場合も拒否する。この場合、ぶら下げマークを伴うリストである可能性が高い。ボックスの表の場合、グリッドを拒否するこれら２つの問題は適用しない。

１つの実施形態では、ユーザはヒントを提供したり、トークン化エンジンが疑問を抱かないグリッドの境界を示したりできる。ユーザがヒントを出した表は、たとえ所定の条件を満たしていなくとも、表にする方針であると考えられるので、これまで論じたような表を拒否する規則の対象にはならない。

ＴＧｒｏｕｐ認識の最後に、ゾーン（Ｚｏｎｅ）を作成する。グリッド全体についてＴＧｒｏｕｐゾーン（Ｚｏｎｅ）を作成し、ＴＧｒｏｕｐゾーン（Ｚｏｎｅ）中にＴＧｒｏｕｐ要素のセルのためのＬｅａｆゾーン（Ｚｏｎｅ）を作成するが、これは表のセルを表すＴＳｅｇを保持するために作成されたコンテナである。その後、文書構造識別段階（ＤＳＩ）では、好適にはコラムの幅、テキストの位置合わせ、セルの境界の規則等を測定し、適切な構造を作成する。つまり、セル（Ｃｅｌｌ）、行（Ｒｏｗ）、ＴＧｒｏｕｐ及びＢＥｌｅｍの作成及びコラムの開始、コラムの終了、行の開始、行の終了、行の数、及びコラムの数といったプロパティの計算は後の段階で行えばよい。

番号によるリストは多数の番号付け方法の１つに従う傾向があり、こうした方法は昇順または降順の数字、アルファベットの値、及びローマ数字を含む。丸印によるリストは丸印の一般に使用される組み合わせの１つを使用し、異なるネストレベルでマークを変更することを含むネスト方法を使用する傾向がある。こうした数字及び丸印には潜在的なリスト・マークとしてフラグを立てる。その後の処理によって、それらがリスト・マークであって単にゾーン（Ｚｏｎｅ）間で段落が分割された結果ではないことが確認される。

トークン化処理では、ＢＥｌｅｍ、ＴＧｒｏｕｐ、及びゾーン（Ｚｏｎｅ）といった高次要素を導入する。ＴＳｅｇ、ＲＳｅｇ、及びＩＳｅｇといったより単純な要素の場合と同様、こうした新しい要素は各々、縁端のロケーションを提供することによってオブジェクトのロケーションを記述するバウンディングボックスに関連付けられる。

図８は、視覚的トークン化フェーズの結果を例示する。ゾーン（Ｚｏｎｅ）１１０／１１２が識別され（このページでは、ページのゾーン（Ｚｏｎｅ）１１０とコラムのゾーン（Ｚｏｎｅ）１１２の両方）、仕切り（Ｄｉｖｉｄｅｒ）１１４が識別され影付きで示され、ＢＥｌｅｍ１１６が段落の候補の周囲に形成され、リスト・マーク１１８が番号によるリストの前で識別されている。リスト番号１１８が選択されそのプロパティが左側のウィンドウ１０８に示されている。リスト・マーク１１８はＩＤ、座標の集合、高さ、幅を有し、上下の高さがなく、子とフラグの集合を有することが示され、さらに潜在的な順序マークとして識別される。

図９は、視覚的トークン化フェーズの後の文書の異なる部分を例示する。ここでもＢＥｌｅｍ１１６とコラムのゾーン（Ｚｏｎｅ）１１２が識別され、ＲＳｅｇ１０７が選択されている。ＲＳｅｇ１０７は脚注のテキストからコラムを分割しており、ＲＳｅｇのこれまで説明したプロパティに加えて、それが仕切りであることを示すフラグがウィンドウ１０８に設定されている。

図１０は、文書のまた別の部分を例示しているが、ここではコラムのゾーン（Ｚｏｎｅ）１１２が識別され選択されている。選択されたコラムのゾーン（Ｚｏｎｅ）のプロパティが左側のウィンドウ１０８に例示されている。コラムのゾーン（Ｚｏｎｅ）１１２にはｉｄ番号、ロケーション座標の集合、幅と高さ、及びそれがページ上の第１のコラムであることを示すプロパティが割り当てられている。

図１１は、図９に例示したものと同じページを例示するが、コラムのゾーン（Ｚｏｎｅ）１１２の内部の脚注のゾーン（Ｚｏｎｅ）１３０が選択されていることを示す。脚注のゾーン（Ｚｏｎｅ）１３０は、図９で選択されたＲＳｅｇ１０７の存在によって識別される。脚注のゾーン（Ｚｏｎｅ）１３０は、図１０で例示したコラムのゾーン（Ｚｏｎｅ）１１２とほぼ同様の固有のプロパティを有する。

構造識別の最終フェーズを文書構造識別（ＤＳＩ）と呼ぶ。ＤＳＩでは、文書の広範な特徴を使用して、トークン化処理が導入した構造を精緻化する。こうした精緻化は、トークン化されたオブジェクトとその周囲のオブジェクトの特性を検査する規則の集合を使用して決定する。こうした規則は、印字分類法における要素の特性に基づいて導出すればよい。タイトルまたはリストといった構造を読者が識別できるようにするキューの多くは、ＤＳＩ処理で規則に基づく処理を通じて実装すればよい。

ＤＳＩは、テキストのサイズ、ページ上のロケーション、ゾーン（Ｚｏｎｅ）中のロケーション、ページ上またはゾーン（Ｚｏｎｅ）中の他の要素に対するマージンといったＢＥｌｅｍの特性を利用して構造の正負両方の識別を行う。分類法の各要素は一連の一意の特性によって識別すればよく、規則の集合を利用して標準のＢＥｌｅｍをより特定的な構造に変換すればよい。以下の議論は分類法の要素を識別するために使用される規則の限られた例を提示するに過ぎないが、別の要素を識別する他の規則を対象としてもよいことを当業者は認識するであろう。

図６に例示された下のページ・セグメントでは、ブロック引用が提示され、ゾーン（Ｚｏｎｅ）中の追加マージン空間の使用によって読者が視覚的に識別している。ＤＳＩフェーズでは、このブロック引用はトークン化フェーズで作成されたＢＥｌｅｍとして読み取る。その上下には、段落または段落のセグメントを表す他のＢＥｌｅｍがある。ブロック引用を表すＢＥｌｅｍは、その上下の段落と同じコラムのゾーン（Ｚｏｎｅ）の一部であるので、ブロック引用のＢＥｌｅｍの両側のマージンをその上下のＢＥｌｅｍのマージンと比較するとマージンが増えていることが示される。マージンの増大は、ＢＥｌｅｍの座標ロケーションを検査してバウンディングボックスの左右の縁端が隣接するＢＥｌｅｍのものと異なるロケーションにあることに注目することによって判定してもよい。１つのＢＥｌｅｍだけの幅が減少しているのであって一連のＢＥｌｅｍのコラムの幅が減少しているのではないので、そのＢＥｌｅｍはリストではなくブロック引用である確度が高く、そのＢＥｌｅｍの何れかの特性をブロック引用の存在を示すように設定すればよい。他の例では、マージンの差以外の特性を使用してＢＥｌｅｍ全体を上下のＢＥｌｅｍと区別する。この場合、フォントサイズの変化、書体の変化、イタリック体の追加、またはＤＳＭで利用可能な他の特性を検出する試験を行って、ブロック引用が存在することを判定すればよい。

また、ＤＳＩフェーズを使用して、トークン化フェーズでは識別できない多数の要素を識別する。こうした要素の１つを合成規則と呼ぶ。規則は所定の始点と終点を有する線である一方、合成規則は、制作者は線であることを意図しているが、線ではなく一連のハイフンまたは他の標識（合成垂直規則の場合一般に“｜”を使用する）によって表される。トークン化フェーズでは、合成規則は一連の文字であるためＢＥｌｅｍの中にあるが、ＤＳＩでは規則ベースの処理を使用して合成規則を識別し、それをＲＳｅｇによって置換することが可能である。これを行った後、ＤＳＩが合成規則の領域内のＢＥｌｅｍを検査して、トークン化処理がスキップした表を定義したり、脚注のゾーン（Ｚｏｎｅ）の領域を定めたりするために合成規則が使用されたかを判定するのが有益であることが多い。

トークン化フェーズはＴＧｒｏｕｐとリスト・マークの候補の両方を識別するが、表全体、または完全なリストを構築し、合成規則が定義するＴＧｒｏｕｐを識別するのはＤＳＩにおいてである。ＴＧｒｏｕｐが識別された場合、表のタイトル、見出し、脚注及び可能な属性の特性を使用して識別されたＴＧｒｏｕｐの近傍のＢＥｌｅｍを試験し、完全な表の識別を完了する。表（Ｔａｂｌｅ）のタイトルの識別は、文書全体のタイトルまたは表題の識別と同様であり、後でタイトルの全体的な識別を論じる際に詳細に説明する。トークン化フェーズがＴＧｒｏｕｐを識別した後、処理のＤＳＩフェーズは、該当する場合隣接するＴＧｒｏｕｐを結合するか、不確実なセルの切れ目（soft cell break）が検出された場合定義されたＴＳｅｇを異なるＴＧｒｏｕｐセルに区切ることによって表を精緻化すればよい。不確実なセルの切れ目は、「％」のような、コンテンツとも分離文字とも考えられる文字である。こうした文字は文書のコンテンツの一部であるので、トークン化段階はこうした文字を除去すべきではなく、ＤＳＩフェーズを使用して単一のＴＧｒｏｕｐを分割しなければならないことを識別し、文字を保持する。こうした不確実なセルの切れ目の識別子は合成規則と同様に処理するが、不確実なセルの切れ目は区切りのないフォーマットの表（open format table）に見られる傾向があるため通常ＲＳｅｇは導入しない。

ＤＳＩ処理は好適にはコラムの幅、テキストの位置合わせ、セルの境界の規則等を測定し、適切な表構造を作成する。これは、セル（Ｃｅｌｌ）、行（Ｒｏｗ）及びＴＧｒｏｕｐ要素の作成と、コラムの開始、コラムの終了、行の開始、行の終了、行の数、及びコラムの数等の計算を意味する。当業者に明らかなように、さらなる表のグリッドの認識は、横並びのブロックの配置に基づいてＤＳＩの後の段階で行えばよい。

リストの識別は、トークン化フェーズでの潜在的なリスト・マークの識別に依存する。マークは新しいＢＥｌｅｍの表示のみであることが普通なので、マークの認識は好適にはトークン化フェーズでなされる。しかし、ＤＳＩ処理がより複雑になるという代償はあるが、これはＤＳＩで行ってもよいことを当業者は理解するであろう。リスト識別の主要な態様の１つは誤った正のリスト・マーク、すなわち、トークン化が識別した、文書の文脈からは明らかにリストの一部でない潜在的なリスト・マークの再検討である。こうしたマークは通常、新しい行を開始する多数の丸印に関連して識別する。これは、ＢＥｌｅｍの線の始めに現れる数字または丸印に帰結する。これは、リスト・マークを識別すべきであるという、トークン化処理へのフラグの役目を果たす。こうした誤ったマークは単独では訂正できないが、文書をより広範に考察した文脈からは明白な誤りである。すなわち、試験が不合格の場合、リストの入力に続く先行する数字によるマーク、または後続する数字によるマークを使用して誤った正の識別を検出すればよい。検査の不合格を検出すると、潜在的なリスト・マークを好適には同じ行のＴＳｅｇと、それが属すべきＢＥｌｅｍとに結合する。

誤ったマークを訂正する処理の例の概観として、以下の方法を提供する。文書をトラバースしてトークン化が識別したリスト・マークの候補を発見する。それが連続するリストである場合、（アルファベット、数字、ローマ数字、またはそれらの組み合わせの使用に基づいて）先行及び後続のリスト・マークを判定し、スキャンして近くの先行または後続のマークを検出する。こうしたマークが見つからない場合は訂正し、他の場合には続行する。

「１」、「２」、「３」というマーカを有するリストが識別され、「ａ」、「ｂ」、「ｃ」というマーカを有する第２のリストが検出された場合、「３」というマークを記憶してその後の「４」というマーカを不用意に無視しないようにする。「ａ」、「ｂ」、「ｃ」という配列が終わった後「４」というマーカを検出したならば、「ａ」、「ｂ」、「ｃ」という配列をネストされたリストとして分類する。

構造を判定するために使用するＤＳＩにおける規則エンジンの最後の例を、表題とも呼ばれる、タイトルの識別に関連してここで提示する。このルーチンは簡単な規則エンジンを使用する。あるＢＥｌｅｍについて、タイトルの特性に関連する規則のリストを選択する。真のステートメントを発見するまでリスト中の規則を実行する。真のステートメントを発見したら、関連する結果（タイトルの正または負の識別）を返す。真のステートメントが発見されない場合、ＢＥｌｅｍの特性は変更しない。正または負何れかの識別がなされる場合、ＤＳＭ中のＢＥｌｅｍをしかるべく修正してその特性の変更を反映する。

現在好適な実施形態では、各ゲラ（Ｇａｌｌｅｙ）の一連のパスを行う。第１のパスで検査される属性は、ＢＥｌｅｍはインデントまたはセンタリングされているか、ＢＥｌｅｍのフォントの種類とサイズ、ＢＥｌｅｍの上下の空間、ＢＥｌｅｍのコンテンツは全て大文字になっているかまたは主要な各単語の少なくとも最初の文字が大文字になっているかである。こうした全ての特性をＤＳＭ中のＢＥｌｅｍについて定義する。通常、第１のパスを使用してタイトルの候補を識別する。そしてこうしたタイトルの候補を別の規則の集合によって処理し、タイトル（Ｔｉｔｌｅ）としてマークすべきかを判定する。タイトルを識別するために使用する規則は好適には順序付けられているが、一部の規則の順序は精度に悪影響を及ぼすことなく変更してもよいことを当業者は認識するであろう。以下の規則のリストは網羅的または必須のものと考えるべきではなく、もっぱら例示目的で提供するものである。

第１の試験を行いＢＥｌｅｍ中のテキストが有効なテキストであるかを判定するが、ここで有効なテキストとは文字、好適には数字とアルファベット等の文字の集合のことである。これは、タイトルと多くの特性を共有する数式をタイトルとして識別してしまうのを防止する。実装に際して、これを負の試験として適用し、試験を通過したＢＥｌｅｍを即座に「有効なテキスト（ＶａｌｉｄＴｅｘｔ）ではない」として失格にするほうが容易かもしれない。第１の試験で排除されなかったＢＥｌｅｍについて、その後の試験を行う。ＢＥｌｅｍが右または左に隣接するＢＥｌｅｍを有する場合、タイトルでない可能性が高い。この試験は、ＴＧｒｏｕｐ中のセルをタイトルとして識別するのを防止するために導入する。タイトルが４行以上の長さになることは稀であるため、ＢＥｌｅｍが３行を越えると判定された場合、好適には潜在的なタイトルから排除する。タイトルはゲラ（Ｇａｌｌｅｙ）中の最後の要素には出現しないので、ＢＥｌｅｍがゲラ（Ｇａｌｌｅｙ）中の最後の要素である場合、タイトルとして失格する。ＢＥｌｅｍがその上に仕切り（Ｄｉｖｉｄｅｒ）を有するかまたはページの一番上にあり、センタリングされていれば、タイトルとして指定する。ＢＥｌｅｍがその上に仕切り（Ｄｉｖｉｄｅｒ）を有するかまたはページの一番上にあり、例えば書体及びフォントサイズによって目立つＢＥｌｅｍであり、ページの右マージンに張り出していなければ、タイトルとして指定する。有効なタイトルを包含し無効なタイトルを除外するため、一般的なタイトルのプロパティに基づいて他のこうした規則を適用してもよい。

図１２は、構造識別のＤＳＩフェーズの後の文書のページの一部を例示する。ＢＥｌｅｍ１１６がこれまでと同様ボックスの中で識別され、挿入ブロック（Ｉｂｌｏｃｋ）が識別されている。Ｉｂｌｏｃｋ１４０の内部には番号を付けられたリストがあるがこれはネストされた内部リストを有し、その１つが選択されている。内部リストのプロパティは、識別番号、座標ロケーション、高さと幅、ドメイン及び内部リストの上下の空間を示す。さらに、内部リストは、リストの番号を付けられたＴＳｅｇである子の存在と、Ｉｂｌｏｃｋ１４０中の親のリストに対応する親のｉｄとを指定する。

図１３は、図１２で例示したものと同じページの一部を例示する。Ｉｂｌｏｃｋ１４０の内部のＢＥｌｅｍ１１６が選択されている。選択されたＢＥｌｅｍ１１６は、ｉｄ、座標ロケーション、高さと幅、ドメイン（Ｉｂｌｏｃｋ１４０に対応するドメインを指定する）、Ｉｂｌｏｃｋのｉｄを指定する親、ＢＥｌｅｍ１１６の下の空間の大きさ、及び子のＴＳｅｇのリストを有する。

図１４は、図１２及び図１３で例示したものと同じページを例示する。Ｉｂｌｏｃｋ１４０中のリスト・マーク１１８が選択されている。リスト・マーク１１８は、ｉｄの割り当てられたプロパティ、ロケーション座標の集合、高さと幅、ドメイン、Ｉｂｌｏｃｋ１４０中の帰属するリストを指定する親、リスト・マークであることを示すタイプ、及び子のＴＳｅｇのリストを有する。

トークン化フェーズの文脈で前に説明したが、視覚的トークン化及びＤＳＩ両方のフェーズでＢＥｌｅｍをどのように識別するかに関する情報を提供するため、ここでＢＥｌｅｍについて説明する。ＢＥｌｅｍの認識は、処理全体の中の２つの主要な時点で行われる。すなわち、視覚的トークン化フェーズで当初のＢＥｌｅｍ認識を行った後、文書構造識別フェーズ（ＤＳＩ）でＢＥｌｅｍを訂正する。さらに、潜在的なリスト・マークとして識別された後ＤＳＩでリスト・マークとして拒否されたＢＥｌｅｍは、リストを識別する際ＤＳＩ処理の中で関連するＢＥｌｅｍに再結合する。

トークン化の際、当初のＢＥｌｅｍの認識を行う。当初のパスでは、識別処理はＬｅａｆゾーン（Ｚｏｎｅ）に制限する。Ｌｅａｆゾーン（Ｚｏｎｅ）は、ページ上の１つのコラム、１つの表のセル、またはサイドバーのような挿入ブロックのコンテンツのことがある。ＴＳｅｇの並び線を訂正した後ブロック認識を行う。並び線の訂正は、テキストの垂直配置の小さな変化を調整し、完全なテキストの線を形成する。補償される並び線の変化は、通常ＰＤＬの作成が不出来だった結果である目に見えない「ノイズ」、または目に見える上付き文字または下付き文字の結果であることがある。どちらの場合でも、各ＴＳｅｇに最も有力な並び線を割り当て、それをＬｅａｆゾーン（Ｚｏｎｅ）内のその線の上の他のテキストと共にグループ化する。この並び線の整合化によって、ＢＥｌｅｍの認識を行毎に行い、局所的なパターンのみを使用して各行を現在開いたブロックに含めるか、それとも現在開いたブロックを閉じて新しいブロックを開始するかを決定できるようになる。

Ｌｅａｆゾーン（Ｚｏｎｅ）に適用する場合、ブロック認識は以下のステップを通じて進められる。

１．全てのテキスト、規則及び画像セグメントを収集する。
２．並び線のリストを形成する（セグメントを行にグループ化する）。
３．セグメントが左右のセグメントに隣接する場所を確認する。
４．行の始めの潜在的なマークを識別する。
５．各行をパスし、ブロックを形成する。

各行について、ステップ５は好適には以下の規則に基づく。ＲＳｅｇ（規則セグメント）はインラインまたはブロックを表してもよい。ＲＳｅｇが同じ行のテキストの並び線に一致する場合、フォーム・フィールドとしてマークする。ＲＳｅｇがテキストの下にある場合、そのテキストのアンダーライン・プロパティに変換する。テキストに重なっている場合、削除特性（blackout characteristics：取り消し線）に変換する。こうした全ての場合、ＲＳｅｇはインラインである。固有の並び線の上にＲＳｅｇがある場合、新しいブロックの開始とみなす。ＩＳｅｇ（画像セグメント）は新しいブロックを示すことも示さないこともある。画像が何らかのテキストから十分に左または右にある場合、ブロック構造を中断しない「浮動性の」装飾であるとみなす。画像が水平にテキストに重なっている場合、その画像はテキストを複数のブロックに区切る。

植字した文書を観察することから、他の規則を追加してもよく、いくつかの条件を監視してもよいことが当業者に示されるであろう。一例として、前の行がハイフンで終わり現在の行が小文字で始まっている場合、現在の行を前の行と同じブロックの続きとして扱う理由と見るべきであろう。さらに、上にＲＳｅｇ（規則セグメント）がある場合、これは現在の行のための新しいブロックを開始する理由である。３行目及びそれ以降の行の左インデントが大きく変化している場合、これは通常新しいＢＥｌｅｍが開始されたことを示している。背景色の変化はＢＥｌｅｍ分割の徴候である。行間隔の大きな変化は好適には新しいＢＥｌｅｍの開始に帰結する。（下から２番目の行が示すように）前の行の末尾に現在の行の最初の単語が十分入るだけの余裕がある場合、現在の行は新しいＢＥｌｅｍの開始であるとみなすべきである。（最後の数行によって判定されるように）コラムの幅よりはるかに小さい行はテキストが一杯になっていないことを示しており、次の行は新しいＢＥｌｅｍの開始とみなすべきである。現在の行が次の行と同じ右マージンを有しているが前の行より長い場合、その行は新しく一杯に行揃えされたＢＥｌｅｍの開始であると判定すべきである。行が有望なマークから開始される場合、最後の試験によって新しいＢＥｌｅｍが開始される。ＢＥｌｅｍをこの試験に基づいて分割する場合、その後参照するためにタグをつける。後でこれが（何らかのリストの一部を形成しない）誤ったマークであると判定された場合、そのＢＥｌｅｍは再結合される。上記で説明した試験は網羅的であると考えるべきではなく、また全体を適用しなければならない規則の集合であると考えるべきでもないことを、当業者は認識するであろう。

トークン化フェーズで導入されたＢＥｌｅｍ構造のさらなる精緻化を支援するため、ＤＳＩフェーズでＢＥｌｅｍの訂正を行う。ＤＳＩのパスは、文書全体にわたって収集したグローバルな統計情報といった追加情報を使用してもよい。この追加情報を使用して、元のブロックの一部を結合したりさらに分割したりしてもよい。

ＢＥｌｅｍは以下の条件に基づいて多くの場合結合される。単語間の間隔が広いことに基づいて水平に分割されたＢＥｌｅｍは、そのＢＥｌｅｍが存在するコラムのゾーン（Ｚｏｎｅ）のプロパティに基づいて現在決定されているコラムの幅の文脈でその間隔が両端揃えによって説明できると判定されたならば、再結合してもよい。全ての行が同じ中間点を共有している一連のブロックは、この中点が中央揃えされた行の流れを結合しているので結合する。同じことを右揃えの行についても行う。ＢＥｌｅｍの最初の行をブロックの残りの部分から誤って分割することがありうるが、この状況は最初の行に共通のインデントに関する統計情報に基づいて識別し訂正すればよい。テキストで一杯になっていない行の規則を過度に積極的に適用することでＢＥｌｅｍが分割されることがあるが、この場合ＢＥｌｅｍの句読法といった別の徴候によって誤りを訂正すればよい。ＢＥｌｅｍが同一の特性を有する場合、ＢＥｌｅｍをさらに結合してもよい。

また、ＤＳＩフェーズでは、以下の条件に基づいてＢＥｌｅｍを分割してもよい。中央揃えされたテキストの長い流れがあり、それを単一のＢＥｌｅｍとすべきであるという句読法の徴候がない場合、行毎に分割してもよい。ＢＥｌｅｍ中の２つの行の間に共通のフォントフェース（フォントとサイズの組み合わせ）がない場合、ＢＥｌｅｍはその２つの行の間で分割する。一連のごく短い行以外何も含まないＢＥｌｅｍはリストであることを示しているので分割する。また、ゾーン（Ｚｏｎｅ）だけからではなくゲラ（Ｇａｌｌｅｙ）全体から収集した統計情報に基づいて、段落間の分割を示す十分な大きさの空白があればＢＥｌｅｍを分割してもよい。

ＤＳＩ処理によって識別されたもう１つの重要な構造はゲラ（Ｇａｌｌｅｙ）である。ゲラ（Ｇｅｌｌｅｙ）はコラムとページを通じた文書中のコンテンツの流れを定義する。各ゲラ（Ｇａｌｌｅｙ）では、ページのゾーン（Ｚｏｎｅ）とコラムのゾーン（Ｚｏｎｅ）の両方に順序を割り当てる。ゾーン（Ｚｏｎｅ）の順序付けによってゲラ（Ｇａｌｌｅｙ）は文書のコンテンツの流れをたどることができる。脚注のゾーンについて、好適には、文書中の全ての脚注を一緒に格納できるような別のゲラ（Ｇａｌｌｅｙ）を定義する。ゲラ（Ｇａｌｌｅｙ）を作成するため、ページ、コラム及び脚注についてのゾーン（Ｚｏｎｅ）を上記で説明したように識別する。作成後各ゾーン（Ｚｏｎｅ）にタイプを割り当てる。文書中の全てのゾーン（Ｚｏｎｅ）を識別しそれらにタイプを割り当てたら、ゾーン（Ｚｏｎｅ）の各タイプのコンテンツをゲラ（Ｇａｌｌｅｙ）に入力する。好適にはゲラ（Ｇａｌｌｅｙ）への入力は順次的に行われるので、コラムは正しい順序で表示される。場合によっては、新聞の記事が複数のページにわたる場合数字及びアルファベット両方のマーカで読者に別のページを指示するのと同様に、ゾーン（Ｚｏｎｅ）の下部のマーカが、次がどのゾーン（Ｚｏｎｅ）であるかを示す役目を果たしてもよい。ＤＳＩ処理では、ＢＥｌｅｍがタイトルであるかを判定する便利な試験はゲラ（Ｇａｌｌｅｙ）中のＢＥｌｅｍの位置に基づくものであるため、ゲラ（Ｇａｌｌｅｙ）の識別をタイトルの識別の前に行う。

上記で説明した方法が図１５のフローチャートに要約されていることを、当業者は容易に認識するであろう。この方法はステップ１５０の視覚的データ取得処理で開始されるが、そこではＰＤＬを読み取り、好適にはステップ１５２で線形化するので、ステップ１５４でセグメントを識別できる。現在好適な実施形態では、この情報を使用してＤＳＭを作成し、これをステップ１５６の視覚的トークン化処理によって読み取る。視覚的トークン化では、ステップ１５８でセグメントをグループ化してトークンを形成し、ＴｓｅｇからＢＥｌｅｍを作成することを可能にする。ステップ１６０で空白をトークン化して仕切り（Ｄｉｖｉｄｅｒ）を形成する。さらにステップ１６２及び１６４では、表のグリッドとリスト・マークを識別しトークン化（tokenize）する。視覚的トークン化のさらなるステップとして、ステップ１６６でゾーン（Ｚｏｎｅ）を識別しトークン化する。トークン化情報を使用してＤＳＭを更新するが、これはステップ１６８の文書構造識別処理で使用する。ステップ１７０では、ＤＳＩは、ステップ１６２でトークン化されたＴＧｒｏｕｐからの完全な表の作成をサポートする。ステップ１７２でゲラ（Ｇａｌｌｅｙ）を識別して追加するが、タイトル（Ｔｉｔｌｅ）はステップ１７４で識別しＤＳＭに追加する。ステップ１６８でのＤＳＩによるＤＳＭの生成後、必要に応じてステップ１７６でＸＭＬまたは他のフォーマットへの変換処理を実行してもよい。図１５に示すステップは例示的なものに過ぎず、ステップ１５６〜１６８でトークン化し識別しうるものの全ての範囲に及ぶものではないことを、当業者は容易に認識するであろう。

単に順序的な識別番号を識別された各要素に割り当てても、ロケーションに基づいてアクセスすべきオブジェクトを選択する助けにならないことを当業者は認識するであろう。ページのある範囲内にある、ＢＥｌｅｍのようなあるクラスのオブジェクトが何個かを判定するにはロケーション・ベースの検索が有用である。こうした照会を促進するため、本発明の現在好適な実施形態は、好適には二分木（binary tree）として実装される幾何学的指標の使用を提供する。幾何学的指標は、所定の領域内のＢＥｌｅｍまたは仕切り（Ｄｉｖｉｄｅｒ）といった全てのオブジェクトを判定する照会の処理を可能にする。幾何学的指標の１つの実装は、要素に関連する座標に基づいて識別番号を要素に割り当てることによって提供すればよいことを当業者は認識するであろう。例えば、所定の領域内のロケーションへの参照を含む識別番号を有する全ての仕切り（Ｄｉｖｉｄｅｒ）を選択することによってその所定の領域内の全ての仕切り（Ｄｉｖｉｄｅｒ）を判定する幾何学的指標の検索を行えるように、バウンディングボックスの最初の角を識別番号の一部として使用してもよい。多数の他の実装が可能であることを当業者は認識するであろう。

上記の議論は主として「ＸＭＬの生成」を中心に行ったが、構造認識はＸＭＬファイルの生成だけに関するものではない。この技術の他の適用業務には、文書の階層的構造を認識する能力の恩恵を受ける自然言語解析と、構造識別を使用して文書の特に関連性の高い部分を識別し、それによってよりよい索引付け能力を提供することができる検索エンジン設計とが含まれる。上記のオブジェクトのクラスを表すために使用する命名規則は例示的な性質のものであって、本発明の範囲を制限する意図がないことは当業者に明らかであろう。

上記の議論は文書構造モデルを作成する方法を中心に行ったが、本発明はこのモデルを作成するシステムをも含むことを当業者は認識するであろう。図１６に例示するように、ＰＤＬファイル２００は視覚的データ取得器２０２によって読み取るが、この視覚的データ取得器２０２は好適には、ＰＤＬを線形化して二次元ページ記述を作成するＰＤＬ線形化器２０４と、線形化したＰＤＬを読み取り文書のコンテンツをセグメントの集合として識別するセグメント識別器２０６との両方を含む。視覚的データ取得器２０２の出力は好適にはＤＳＭ２０７であるが、前に指摘したように、異なるモジュール各々について異なるフォーマットをサポートしてもよい。ＤＳＭ２０７は視覚的トークン化器２０８に提供されるが、この視覚的トークン化器２０８はＤＳＭを解析して文書中の高次構造を表すトークンを識別する。トークンは通常セグメントのグループであるが、空白の仕切り（Ｄｉｖｉｄｅｒ）、及び識別されたセグメントに直接依存しない他の構成体でもある。視覚的トークン化器２０８はその修正をＤＳＭ２０７に書き戻し、書き戻されたＤＳＮ２０７はその後文書構造識別器（ＤＳＩ）２１０によって処理される。ＤＳＩ２１０は規則ベースの処理を使用して構造をさらに識別し、トークン化器２０８によってＤＳＭ２０７に導入されたトークンに特性を割り当てる。ＤＳＭ２０７は、ＤＳＩ２１０が識別した構造を反映するよう更新される。ＸＭＬのようなフォーマットへの変換が必要な場合、変換エンジン２１２は標準変換技術を利用して順序付けられたＤＳＭとＸＭＬファイル２１４との間の変換を行う。

本発明のこの実施形態の要素は、全て構成要素間のＤＳＭ２０７の転送を促進するランダムアクセスメモリまたはハードドライブのような読み取り書き込み記憶機構の何れかの共用記憶域へのアクセスを有する標準コンピュータ・プラットフォーム上で実行されるソフトウェア・アプリケーションの一部として実装すればよい。こうした構成要素は順次実行してもよく、またある程度並列に実行してもよい。現在好適な実施形態では、ＤＳＩ２１０がトークン化データ構造全体に一度にアクセスできるように構成要素の並列実行を制限している。これによって、ＶＤＡ２０２が次のページを処理する間に視覚的データ取得を経たページの視覚的トークン化を行うアプリケーションの作成が可能になる。このシステムは、テキストを解析する能力を有する標準プログラミング言語を使用する多くの方法で実装可能であることを当業者は容易に認識するであろう。

本発明の上記で説明した実施形態は例示のみを目的としている。当業者は本発明の範囲から離れることなく個々の実施形態に変更、修正及び変形を行うことが可能であり、本発明の範囲は添付の請求項のみによって定義される。

字下げと斜体によるブロック引用の例を示す図である。字下げと小さなフォントによるブロック引用の例を示す図である。字下げがないが斜体によるブロック引用の例を示す図である。字下げがないが小さいフォントによるブロック引用の例を示す図である。引用符を使用したブロック引用の例を示す図である。視覚的データ取得におけるＴＳｅｇの識別のスクリーンショットを示す図である。視覚的データ取得におけるＲＳｅｇの識別のスクリーンショットを示す図である。視覚的トークン化におけるリスト・マークの候補の識別のスクリーンショットを示す図である。視覚的トークン化におけるＲＳｅｇの仕切り（Ｄｉｖｉｄｅｒ）の識別のスクリーンショットを示す図である。視覚的トークン化におけるコラムのゾーン（Ｚｏｎｅ）のトークン化のスクリーンショットを示す図である。視覚的トークン化における脚注のゾーン（Ｚｏｎｅ）のトークン化のスクリーンショットを示す図である。文書構造識別における番号によるリストの識別のスクリーンショットを示す図である。文書構造識別におけるリストのタイトルの識別のスクリーンショットを示す図である。文書構造識別における番号によるリストのスクリーンショットを示す図である。本発明の方法を例示するフローチャートである。本発明のシステムの構成図である。

Claims

少なくとも１つのページのコンテンツを有するコンピュータ解析可能文書の文書構造モデルを作成する方法であって、
文書のコンテンツを、所定の特性を有し文書中の構造を表すセグメントとして識別し、
各トークンが少なくとも１つのページのうち１つに関連し、該各トークンが、同じページの他のセグメントに対する各セグメントの位置に基づいて、当該トークンに関連するページの構造によって決定される文書中の構造を定義する特性を有するように、文書のコンテンツと構造を特徴付けるトークンを作成し、
文書の少なくとも１つのページの全てにわたるトークンの特性によって文書構造モデルを作成することを備えることを特徴とする方法。
請求項１に記載の方法において、前記コンピュータ解析可能文書がページ記述言語ファイルであり、前記文書のコンテンツを識別するステップが、ページ記述言語を線形化された二次元フォーマットに変換するステップを含むことを特徴とする方法。
請求項１に記載の方法において、各セグメントのセグメント・タイプが、それぞれ文字ベースのテキスト、ベクトル及びビットマップ画像及び規則を表すテキスト・セグメント、画像セグメント及び規則セグメントを含むリストから選択されることを特徴とする方法。
請求項３に記載の方法において、前記テキスト・セグメントが共通の並び線を有するテキストのストリングを表すことを特徴とする方法。
請求項１に記載の方法において、前記トークンの特性が、段落の候補、表のグループ、リスト・マークの候補、仕切り、及びゾーンを含むリストから選択される構造を定義することを特徴とする方法。
請求項５に記載の方法において、１つのトークンが少なくとも１つのセグメントを収容し、１つのトークンの特性が収容されたセグメントの特性によって決定されることを特徴とする方法。
請求項１に記載の方法において、１つのトークンが少なくとも１つの他のトークンを収容し、収容する側のトークンの特性が収容される側のトークンの特性によって決定されることを特徴とする方法。
請求項１に記載の方法において、各トークンに、文書中のトークンのロケーションを追跡するための幾何学的指標を含む識別番号が割り当てられることを特徴とする方法。
請求項１に記載の方法において、前記文書構造モデルが、トークンの特性の規則ベースの処理を使用して作成されることを特徴とする方法。
請求項５に記載の方法において、少なくとも２つの結合されていないゾーンが前記文書構造モデル中でゲラとして表されることを特徴とする方法。
請求項５に記載の方法において、前記段落の候補が前記文書構造モデル中で、タイトル、丸印によるリスト、数字によるリスト、挿入ブロック、段落、ブロック引用、表、フッタ、ヘッダ、及び脚注を含むリストから選択された構造として表されることを特徴とする方法。
請求項１に記載の方法を使用して文書構造モデルを作成するシステムであって、
文書中のセグメントを識別する視覚的データ取得器と、
識別されたセグメントを受信するため前記視覚的データ取得器に接続され、文書を特徴付けるトークンを作成する視覚的トークン化器と、
前記視覚的トークン化器から受信したトークンに基づいて文書構造モデルを作成する文書構造識別器とを備えることを特徴とするシステム。
請求項１２に記載のシステムにおいて、さらに、前記文書構造識別器によって作成された文書構造モデルを読み取り、文書構造モデルのコンテンツと構造によって、拡張可能マークアップ言語、ハイパーテキスト・マークアップ言語及び標準汎用マークアップ言語を含むリストから選択されたフォーマットのファイルを作成する変換エンジンを含むことを特徴とするシステム。