JP2005526314A - 文書構造識別器 - Google Patents

文書構造識別器 Download PDF

Info

Publication number
JP2005526314A
JP2005526314A JP2004505822A JP2004505822A JP2005526314A JP 2005526314 A JP2005526314 A JP 2005526314A JP 2004505822 A JP2004505822 A JP 2004505822A JP 2004505822 A JP2004505822 A JP 2004505822A JP 2005526314 A JP2005526314 A JP 2005526314A
Authority
JP
Japan
Prior art keywords
document
token
page
list
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004505822A
Other languages
English (en)
Inventor
スロコンブ,デイビッド
Original Assignee
タタ インフォテック リミティド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by タタ インフォテック リミティド filed Critical タタ インフォテック リミティド
Publication of JP2005526314A publication Critical patent/JP2005526314A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/157Transformation using dictionaries or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/123Storage facilities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

視覚的キュー(visual cue)に基づく自動文書構造識別の方法を開示する。文書の二次元レイアウトを分析して文書の構造に関連する視覚的キューを認識し、同様の構造の要素が同様に処理されるように文書のテキストをトークン化(tokenize)する。本方法は、拡張可能マークアップ言語ファイルの生成、自然言語解析及び検索エンジンの格付け機構に適用可能である。

Description

本発明は、一般に文書における構造の識別に関する。特に、本発明は、電子文書における自動構造識別の方法に関する。
拡張可能マークアップ言語(XML)は、複数のチャネルにわたるアクセスのために電子文書を維持する利便性の高いフォーマットを提供する。多くの分野でのその広範な適用可能性の結果、XMLオーサリング・ツールへの関心が高まっている。
XMLのような構造化され解析可能(parsable)で再使用可能なフォーマットの文書を有することの有用性はよく認識されている。しかし、テキストを適切にマークアップするために必要なタグを入力することによって文書を手動で作成する以外に、一貫した文書を作成する信頼性の高い方法は存在しない。人間とコンピュータの対話へのこのアプローチは後ろ向きであって、人間がXMLのタグ付き文書を直接読むことを期待できないのと同様、それを書くことも期待するべきではない。
フォーマット済み文書をXMLファイルにエクスポートしたりXMLフォーマットの文書をネイティブに格納したりできる多様なアプリケーションによって、XML文書の手動作成に対する代替案が提供されている。こうしたXML文書作成アプリケーションは通常、ワードプロセッサ用のHTML作成プラグインと同様のアルゴリズムを使用して導出する。そのためこれは、特定のスタイルに属するものとして明示的に記述されたテキストにXMLタグを提供する能力を含む、多くの同じ欠点を有している。一例として、レイアウトされたテキストのページの最上部近くの行がいくつかのコラムにわたって中央揃えされ、大きな太字の書体にフォーマットされているとする。直覚的に、読者はこれがタイトルであると推論するが、現在まで知られているXML生成プログラムは、ユーザが「タイトル・スタイル」の指定を適用して初めてそれをタイトルまたは表題として識別するに過ぎない。従って、適切なXMLのマークアップを確実に行えるかどうかは、直接的または間接的にXMLマークアップ・コードを提供するユーザに依存する。これには大部分のユーザが現在ワードプロセッシングやレイアウト・ツールを使用しているやり方を変える必要があるため、保証が困難であることを当業者は認識するであろう。
さらに、従来のXML生成ツールは構造上線形的で、文書中の全体的なパターンを認識しない。例えば、順次的なリストは、そのように識別しない場合、通常テキストの純粋に線形的な流れとして表される。別の例では、丸印によるリストを作成する多様な方法が生成プログラムにとって問題となることもある。丸印を作成するため、ユーザはタブストップを設定したり多数の空白文字を入力して丸印を字下げしたりすればよい。そして、指定された書体から丸印の文字を入力して丸印を作成すればよい。また、ピリオドのフォントサイズを増大し上付きにすることによってピリオドを丸印として使用してもよい。別の代替案として、ユーザは丸印ツールを選択して同じタスクを達成してもよい。タブまたは一連の空白を使用する代わりに、ユーザは移動可能なテキストフレームに丸印を挿入してそれを受け入れ可能なロケーションに配置してもよい。テキスト要素の代わりにグラフィカル要素を使用して丸印を作成してもよい。これら全ての場合、データ・ファイルの線形解析の結果として、印字コード(typographical code)の異なる集合の使用を表す、異なるXMLコードが作成されることになる。しかし、読者にとって上記で説明した全ての構成体は同一であり、読者は直覚的に同様のXMLコードが生成されることを期待するであろう。
データ・ストリームの線形処理に関連してここで説明した問題は、一次元解析プログラム(one-dimensional parser)が処理対象のテキストの文脈を正しく導出できないことから生じる。人間の読者はコンテンツの文脈を容易に区別できるが、一次元解析プログラムは文書のフォーマットが提供する視覚的キュー(visual cues)を利用することができない。フォーマットとそこに含意された指定を区別するために人間の読者が使用する視覚的キューは、ページ上の素材の二次元レイアウトと、ページ間の一貫性とに基づいている。
従って、文書から利用可能な視覚的キューに基づいてコンテンツの文脈を導出するXML生成エンジンを提供することが望ましい。
本発明の目的は、以前の文書識別システムの少なくとも1つの欠点を除去または軽減することである。
本発明の第1の態様では、少なくとも1つのページのコンテンツを有するコンピュータ解析可能文書の文書構造モデルを作成する方法を提供する。本方法は、文書のコンテンツをセグメントとして識別するステップと、文書のコンテンツと構造を特徴付けるトークンを作成するステップと、文書構造モデルを作成するステップとを含む。識別された各セグメントは所定の特性を有し文書中の構造を表す。各トークンは少なくとも1つのページのうち1つに関連し、各トークンは、同じページの他のセグメントに対する各セグメントの位置に基づいて、トークンに関連するページの構造によって決定される文書中の構造を定義する特性を有する。文書の少なくとも1つのページの全てにわたるトークンの特性によって文書構造モデルを作成する。
本発明の現在好適な実施形態では、コンピュータ解析可能文書はページ記述言語で書かれ、文書のコンテンツを識別するステップは、ページ記述言語を線形化された二次元フォーマットに変換するステップを含む。各セグメントのセグメント・タイプをテキスト・セグメント、画像セグメント及び規則セグメントとを含むリストから選択するが、これらはそれぞれ文字ベースのテキスト、ベクトル及びビットマップ画像、及び規則を表し、テキスト・セグメントは共通の並び線を有するテキストのストリングを表す。トークンの特性は、段落の候補、表のグループ、リスト・マークの候補、仕切り(Divider)、及びゾーン(Zone)を含むリストから選択した構造を定義する。1つのトークンが少なくとも1つの他のトークンを含む場合、収容する側のトークンの特性は収容される側のトークンの特性によって決定される。好適には、各トークンには、文書中のトークンのロケーションを追跡するための幾何学的指標を含む識別番号を割り当てる。トークンの特性の規則ベースの処理を使用して文書構造モデルを作成し、少なくとも2つの結合されていないゾーン(Zone)は文書構造モデル中でゲラ(Galley)として表す。段落の候補は文書構造モデル中で、タイトル(Title)、丸印によるリスト、数字によるリスト、挿入ブロック、段落、ブロック引用、及び表を含むリストから選択した構造として表す。
本発明の第2の態様では、本発明の第1の態様の方法を使用して文書構造モデルを作成するシステムを提供する。本システムは、視覚的データ取得器と、視覚的トークン化器と(visual tokenizer)、文書構造識別器とを備える。視覚的データ取得器は文書中のセグメントを識別するものである。視覚的トークン化器は文書を特徴付けるトークンを作成し、識別されたセグメントを受信するため視覚的データ取得器に接続されている。文書構造識別器は、視覚的トークン化器から受信したトークンに基づいて文書構造モデルを作成するものである。
本発明の別の態様では、コンピュータ解析可能文書を拡張可能マークアップ言語に変換するシステムであって、第2の態様のシステムと、文書構造識別器によって作成された文書構造モデルを読み取り、文書構造モデルのコンテンツと構造によって拡張可能マークアップ言語ファイル、及びハイパーテキスト・マークアップ言語ファイルまたは標準汎用マークアップ言語ファイルを作成する変換エンジンとを含むシステムを提供する。
本発明の他の態様と特徴は、添付の図面と共に個々の実施形態の以下の説明を検討する際当業者に明らかになるであろう。
ここで本発明の実施形態を、以下の添付の図面を参照して、例示としてのみ説明する。
本発明は、コンテンツの印字特性と、ページ上の要素間の二次元関係との両方から文書の構造に関する情報を収集する二次元XML生成処理を提供する。本発明は、ページ上での要素の役割と文書全体でのその役割との両方に関する情報を使用してテキストの目的を判定する。以下説明するように、テキストの一節に関する情報は、印字のデザインが複雑で解釈を行う人間及び機械の両方に混乱を起こさせるもの以外の大多数の文書の視覚的キューから判定すればよい。
先行技術のXML生成プログラムはテキストに関連するタグを判定するためソース・アプリケーション中で定義されるスタイルに依存しているが、本発明は、潜在的に複数のページからなる文書中の個々のページの二次元レイアウトを分析することから出発する。二次元分析を促進するため、本発明の現在好適な実施形態は、文書のページ記述言語(PDL)バージョンに対する視覚的データ取得フェーズを開始する。アドビ(Adobe)社のポストスクリプト(PostScript)(登録商標)及びポータブル・ドキュメント・フォーマット(Portable Document Format:PDF(登録商標))、さらにヒューレット・パッカード(Hewlett Packard)社のプリンタ制御言語(Printer Control Language:PCL(登録商標))及び異なるプリンタ製造業者に固有の多様な他のプリンタ制御言語を含む多数のPDLが存在することを当業者は認識するであろう。また、個々の実装の詳細は異なっても、以下説明するような視覚的データ取得は、ページの二次元記述を提供する任意の機械可読フォーマットに対して実装しうることを当業者は認識するであろう。
このアプローチを取った動機は、事実上全ての文書はすでに文書を解析可能にするのに十分な構造の視覚的マーカを有しているという主張である。このことを最も明瞭に示しているのは、読者が一目で精神的に解析できない論理構造を持った印刷文書に遭遇することはまれであるという平凡な考え方である。こうした基準に達しない文書も存在するが、一般に人間と機械との両方にとって曖昧であると考えられている。こうした文書は、制作者または印字者が一般に理解された規則に十分に従っていないことの結果である。負の例として、デザイン偏重の出版物の中にはできる限り多くの規則を故意に従わないようにしているものもあり、これは愉快なものではあるが、読者が文書の構造を認識する上ではあまり役立たない。
二次元識別は、フォーマット、位置及び文脈に基づいてページをオブジェクトに解析する。そして、ページは1つかそれ以上のヘッダ、フッタ、本文、及び脚注を含む構造またはジオメトリを有する傾向があるという考え方に基づいてページのレイアウトを検討する。ソフトウェア・システムはパターン及び形状認識アルゴリズムを利用して、印字原理の一般的な知識によって定義されるオブジェクトと高水準構造を識別すればよい。
また、二次元解析は、印刷文書を理解する人間の目と脳のシステムをより忠実にエミュレートする。構造識別のこのアプローチは、どの印字プロパティの集合が個々のオブジェクトに特有なものであるかを判定することに基づいている。いくつかの例は、人間が印字キューをどのように使用して構造を区別しているかを実証している。
Figure 2005526314
ここで、表1は、レイアウトに基づく暗黙的な構造を例示する4つのサンプル・リストを示している。
表1は、単語の意味を理解しなくとも読者が視覚的キューによってリストの構造を理解できることを示す4つのリストを含む。第1のものは単純なリストで、ネストされた別のリストを含んでいる。第2〜第5の項目がサブリストのメンバであることを示す2つの重要な視覚的手がかりが存在するため、このことを理解するのは容易である。第1の視覚的手がかりは、それらの項目が右にインデントされていることで、これはおそらく最も明白な指標である。第2の視覚的手がかりは、それらが別の番号付けシステム(数字でなくアルファベット)を使用していることである。
第2のリストでは、サブリストは同じ番号付けシステムを使用しているが、やはりインデントされているので、読者はネストされた構造を容易に推測できる。
第3のリストはやや特殊で、全ての項目のインデントが同じであるため、多くの人は組み方が悪いと言うであろう。それにもかかわらず、第2〜第5の項目は別の番号付けスキームを使用しているため論理的にネストされていると、読者は高い確信を持って結論付けることができる。インデントしていなくともサブリストを識別できることから、この文脈では番号付けスキームがインデントより重要であると推論できる。
第4のリストは明瞭に理解できない。全ての項目のインデントが同一であるだけでなく、リストの番号付けが繰り返されており、それがなぜかを示す視覚的キューはない。このリストの構造を何らかの確信を持って解読することはできないと読者が結論付けても全く無理はない。ある推定を行うことによって構造を推量することは可能かもしれないが、それは制作者が意図したものではないかもしれない。
同じ考え方を番号付けのないリストに適用してもよい。通常番号付けのないリストは丸印を使用しており、丸印はスタイルが異なることもある。
Figure 2005526314
ここで、表2は、レイアウトに基づく暗黙的な構造を例示する丸印を使った4つのサンプル・リストを示している。
第1の例は、ネストされたリストを明瞭に含んでおり、すなわち、第2〜第5の項目はインデントされ、第1及び第6の項目と異なる丸印を有している。第2の例も同様である。全ての項目は同じ丸印を使用しているが、インデントによってネストされた項目があることを暗示している。第3の例では、インデントがなくても、白丸印が明瞭に識別できるため、中央の項目がサブリストのものであると、読者は容易に判定できる。
第4の例は若干のジレンマを提示している。インデントされた項目はなく、読者は、第2〜第5の項目が異なっていることが分かるかもしれないが、それらがサブリスト中の項目を示すと結論付けるには必ずしも十分ではない。これは人間とソフトウェア・プログラムとの両方が曖昧な状況と結論付けうる例である。上記の議論が示すように、ネストされた丸印付きのリストを認識する場合、インデントは項目のマークの選択より重要である。
もう1つの一般的な印字構造はブロック引用である。この構造は引用した節を字下げするために使用する。図1は、ブロック引用の第1の例を示す。ブロック引用を認識する場合、フォントとフォントスタイル、インデント、行間隔、引用符、及び仕切り(Divider)といったいくつかの異なるキューが使用される。注釈及び警告といった他の構成体がブロック引用と同様のフォーマット属性を有することがあるためこれは若干単純化した例である。図1では、引用された素材はインデントされイタリック体になっている。図2でも、引用はインデントとポイントサイズという2つの方法で強調されている。
図3は、図1のイタリック体を保持しているがインデントは除去され、図4は、インデントを除去する一方で図2のフォントサイズ変更を保持している。読者はこれらの例をブロック引用として認識するかもしれないが、それは図1及び図2の場合ほど明白ではない。インデントはブロック引用の極めて重要な特性である。このフォーマット・プロパティを使用しない場合、印字者は通常、図5に示すように引用したブロックを明示的な引用符で囲むようにする。
数千ページの文書の検討に基づく経験的な調査によって、文書の中で一般に使用されるオブジェクトとページまたは画面上にオブジェクトを伝える視覚的(印字的)キューの分類法、及び個々のオブジェクトを識別するのに十分なキューの組み合わせはどれかの分析が得られた。これらの結果は構造識別処理で利用される印字知識のリポジトリを提供する。
印字分類法は、例えば異なる種類のタイトル及びリストを区別する何らかのより細かな分類によって、一般に予想される通常のカテゴリー(ブロック/インライン、テキスト/非テキスト)に分類する。分類法を構築する過程で、新たに発見される別個のオブジェクトの数は時間と共に減少する。発見されるものは一般に少数の文書でしか使用されないものである。その上、大多数の文書はこうしたオブジェクトの比較的小さな部分集合を使用する傾向がある。印字において一般に使用されるオブジェクトタイプの集合は管理できる有限のものと考えてもよい。
個々の制作者が各オブジェクトをフォーマットする多数の方法が存在するため、グラフィカルオブジェクトを具体的に実現する視覚的キューまたは特性の集合を取得することは容易ではない。一例として、個々の制作者がタイトルのような一般的なオブジェクトをフォーマットするのにも非常に多くの方法がある。しかし、この場合でも、大多数の文書は印字法の慣習のかなり明確な集合を使用している。
分類法における要素のリストは大きいが、各要素に関連する視覚的キューはある期間にわたって十分に安定しており、プログラムがXMLを使用して互いに通信するように、制作者が読者と通信するのに使用する共通の信頼できるプロトコルを提供する。
本発明は、視覚的データ取得(VDA)、視覚的トークン化、及び文書構造識別という3つのフェーズの処理を通じて文書構造モデル(DSM)を作成する。これらの3つのフェーズは各々、文書のコンテンツをより正確に表すさらなる構造を追加することによってDSMを修正する。DSMはまず視覚的データ取得フェーズで作成され、視覚的トークン化及び文書構造識別フェーズの入力及び出力の役目を果たす。3つのフェーズを各々以下より詳細に説明する。DSM自体は、文書の決定された構造を格納するデータ構成体である。3つの各フェーズで、新しい構造を識別し、DSMに導入し、それらが関連するテキストまたは他のコンテンツに関連付ける。DSMに格納される構造はプログラミング言語におけるオブジェクトと同様であることを当業者は認識するであろう。各構造は、他の構造の特性を決定するために使用可能な特性とコンテンツの両方を有する。各段階でDSMを修正する方法と、それが記述しうる構造の種類とは、以下の議論を考慮すれば当業者には明らかであろう。
DSMは、処理される文書と、構造識別処理が文書の中に発見する構造との、メモリに格納されたモデルとして最もよく説明される。このモデルは、構造識別処理が開始される時「白紙」として開始され、構造識別処理が文書を処理する時間を通じて蓄積される。最後に、DSMのコンテンツは、構造識別処理が文書について学習した全てのことの記述を形成する。最終的には、DSMを使用して、文書及びその特性を、XMLファイルのような別のフォーマット、または文書管理用に使用されるデータベースにエクスポートすればよい。
構造識別処理の各段階は、文書の構造の識別を可能にする(またはすでに認識された構造の精緻化を可能にする)情報をDSMから読み取る。各段階の出力は、DSMに追加された新しい構造(または既存の構造にアタッチされた新しい情報)の集合である。すなわち、各段階はすでにDSM中に存在する情報を使用し、DSM中に含まれる情報に固有の増分を追加することができる。DSMは多数のフォーマットを経る段階で作成してもよいことは当業者には明らかであろう。本発明の現在好適な実施形態が単一フォーマットの自己修正データ構造を使用するのは単に的確さと簡潔さのためだけに過ぎない。
構造識別処理の開始時には、DSMは空の状態である。構造識別処理の第1の段階は、好適にはVDAフェーズによってPDLファイルから抽出された、文書の「紙面上のマーク」(印刷された文字、描かれた線、何らかの色で塗りつぶされた範囲、描画された画像)の非常に詳細な記録を読み取ることからなる。VDAフェーズの詳細な記述を以下提示する。
VDAの後、文書をDSM中の一連のセグメントとして表す。セグメント(Segment)はプログラミング・オブジェクトとして処理されるが、その場合あるセグメントはクラス・セグメントのオブジェクトのインスタンスであり、おそらくはセグメント・サブクラスの1つのオブジェクトのインスタンスであると考えられる。各セグメント(Segment)は、構造識別処理のその後の段階で使用される特性の集合を有する。視覚的トークン化フェーズでは、セグメントの特性は好適には、
−個々のセグメント(Segment)を結合または分割する、
−セグメント(Segment)のコンテナの役目を果たす、要素(Element)と呼ばれる高水準オブジェクトを形成する。構造識別処理が続くと、DSMが収容する要素(Element)は増大する、
−丸印、または“2.4(a)”といった順序マークのような、リスト項目の開始を意味しうる特殊なオブジェクトであるいくつかのセグメント(Segment)(またはセグメント(Segment)の一部)を「マーク(Mark)」、または潜在的な「マーク(Mark)」として識別する、
−線または空白のいずれかによって形成された垂直または水平の「仕切り(Divider)」を識別する(これはコラム、段落等を区切る)、
といったことのために使用される。
その後の処理で、要素(Element)自体を好適にはグループ化して、リスト(List)項目を含むリスト(List)のような新しいコンテナ要素(Element)のコンテンツを形成する。項目をグループ化してこうした新しい要素を形成する処理によって、新しい構造がその後の処理のためにDSMに格納される。
文書はいくつかのテキストの「流れ」を有することが多いので、DSMは好適にはまた別の種類のオブジェクトであるゲラ(Galley)を規定しているが、これについて以下詳細に説明する。ゲラ(Galley)は、印字における周知の構成体で、独立した領域間のテキストの流れを誘導するために使用する。また、サイドバー(記事の本文とは別に読むべきボックス中のテキスト)のようなページ上の特殊な範囲について、DSMは、テキストベースの割り込みの取り扱いを容易にするドメイン(Domain)と呼ばれるオブジェクトタイプを有してもよい。
構造識別処理の終了が近づくと、DSMは、処理の初期段階で作成された元々のセグメント(Segment)と、セグメント(Segment)のグループ化を示すよう作成された要素(Element)と、ゾーン(Zone)のような要素(Element)自体のグループ化とを含む非常に多くのオブジェクトを含む。ゾーン(Zone)自体も、別々に処理すべき分離可能または逐次的な範囲のコンテナを形成するゲラ(Galley)とドメイン(Domain)とにグループ化される。
ここで本発明の方法を詳細に説明する。本方法は視覚的データ取得フェーズから開始される。本出願で説明する例では特にポストスクリプトまたはPDFベースの入力ファイルを参照しているが、本方法は、必要に応じてPDL固有の修正を行うことで他のPDLにも適用可能であることを、当業者は容易に認識するであろう。ポストスクリプトまたはPDFファイルは、インタープリタを通すことで動作できる実行可能ファイルである。これによってポストスクリプト・プリンタは印刷するページを生成し、PDFビューアはページの印刷及びオンスクリーン表示を生成する。本発明の現在好適な実施形態では、PDLは、ゴーストスクリプト(Ghostscript)(登録商標)インタープリタのようなインタープリタに提供され、線形化出力ファイルを作成する。ポストスクリプト及びPDFのPDLファイルは線形的に順序付けられない傾向があるので、解析が困難なことがある。PDLは、ページ上の他の要素によって隠されたテキスト、画像またはベクトル図といった情報を含むことがあり、さらに必ずしも所定の順序でページのレイアウトを表示しないということからこの困難が生じる。解析プログラムは多数の層を有する非線形的なページ・レイアウトを解釈するように設計可能なことは認識されているが、PDLインタープリタが出力としてページの二次元的な順序付けられた表示を提供することが好適である。本発明の現在好適な実施形態では、インタープリタの出力は解析可能な線形化ファイルである。このファイルは好適には、線形的な(例えばページの左上から右下まで)ページ上の文字の位置とページ上で使用されるフォントとに関する情報を含み、印刷されるページ上で見える情報だけを提示する。視覚的データ取得の第2の段階では、この単純化したファイルを使用してページを表す一連のセグメントを作成する。
現在好適な実施形態では、視覚的データ取得の第2の段階は文書構造モデルを作成する。本方法は文書中の多数のセグメントを識別する。セグメントは多数の特性を有し、それを使用して第1のVDA段階を経たページのコンテンツを表す。好適には、各ページを多数のセグメントによって記述する。現在好適な実施形態では、テキスト・セグメント(TSeg)、画像セグメント(ISeg)及び規則セグメント(RSeg)という3種類のセグメントが存在する。TSegは、共通の並び線によってリンクされ、大きな水平の行間隔によって分離されていないテキストの区間である。許容可能な水平行間隔の大きさは、通常PDLによって提供されDSMに格納されるフォントと文字セットのメトリックスによって決定する。TSegの作成は、文字の水平行間隔を検査して共通の並び線を共有する文字間にいつ切れ目が存在するかを判定することによって行えばよい。現在好適な実施形態では、単語の間の間隔のような切れ目はTSegを終わらせるのに十分なものとはみなされない。RSegはページ上で定義された水平及び垂直の規則からなるので、VDAの第2の段階で識別するのが比較的容易である。これは通常、PDLの直線及び曲線両方の線についての作図コマンド、またはソリッドブロック(solid block)のような閉じた空間についての作図コマンドの集合を構成する。RSegはページ中の様々な領域またはゾーン(Zone)を識別する際有用であり、後の段階でこの目的のために使用する。ISegは通常ベクトルまたはビットマップ画像の何れかである。セグメントが作成されDSMに格納されると、ページ上のロケーション、TSeg中に含まれるテキスト、ISegに関連する画像の特性、及び長さ、絶対位置、塗りつぶされた範囲の場合バウンディングボックス等のRSegの記述といった多様な他の情報を通常セグメントに関連付ける。特性の集合を定義された各セグメントについて維持する。こうした特性は、識別番号、セグメントの座標、セグメントの色、該当する場合セグメントのコンテンツ、セグメントの並び線、及びセグメントに関連する任意のフォント情報を含む。
図6は、視覚的データ取得の第2の段階の後の文書を例示する。下のページ100中のテキストの行には、各行がテキスト・セグメントとして識別されたことを示す下線が引かれている。上のページ102では、テキスト・セグメントは、読者が表104中のセルとして認識するものを表している。上記で説明したように、テキスト・セグメントは、共通の並び線を共有し、変則的に大きな行間隔で他の文字から水平に分離されていないテキストを発見することによって作成する。第1のコラムのテキストの一番上の行は強調され、画面キャプチャの左下のウィンドウ108は選択されたTSeg106の特性を示している。選択されたオブジェクトはTSeg106として記述され、要素識別番号を割り当てられ、所定の座標に存在し、所定の高さと幅とを有する。また、TSeg106のテキストと同様、テキスト並び線のロケーションも定義される。また、PDLから抽出されたフォント情報も提供される。前に説明したように、PDL中にフォントと文字の情報が存在することは、TSeg106でどの程度の水平間隔を許容可能とみなすかを決定する助けになる。
図7は同じ画面キャプチャを例示するが、図6で選択されたTSeg106の代わりに上のページ102の表104ではRSeg107が選択されている。RSegは割り当てられた識別番号を有し、ウィンドウ106中の他の例示プロパティが示すようにバウンディングボックス、高さ、幅及び並び線を有する。
本発明の現在好適な実施形態の処理の第2の段階では、文書は視覚的トークン化処理を経る。トークン化は、パターン認識技術を使用してDSM中の付加構造を定義するページベースのグラフィカル分析である。VDAの出力はDSMであるが、これは、文書中のさらなる構造を定義してそれをDSMに追加するトークン化のためのソースの役目を果たす。視覚的トークン化処理はページ上のグラフィカル・キューを使用してさらなる構造を識別する。VDA段階は、ページ上のテキスト領域を区切るために使用される仕切り(Divider)と考えられるRSegの識別を提供するが、視覚的トークン化は別の種類の仕切り(Divider)である空白の仕切り(Divider)を提供する。以下例示するように、空白ブロックは、コラムの境界を定め、通常段落を区切るために使用する。こうした空白の仕切り(Divider)は従来のパターン認識技術を使用して識別すればよく、好適にはテキストのブロックの中間で誤った仕切り(Divider)を識別しないように文字のサイズと位置を検討することによって識別する。空白とRSeg両方の仕切り(Divider)には、識別番号、ロケーション、色、及び後の処理で使用されうる他のプロパティ情報といったプロパティを割り当ててもよい。空白及びRSegタイプの仕切り(Divider)という異なる種類の仕切り(Divider)の交差を使用して、ページを一連のゾーン(Zone)に区切ってもよい。仕切り(Divider)は、実際のコンテンツが検出されない矩形の部分である。例えば、水平に延びる場合、仕切りはページヘッダとページ本文の間、または段落の間、または表の行の間の空間でありうる。仕切り(Divider)オブジェクトはページ上の空の空間であることが多く、この場合コンテンツを有しない。しかし、実際のコンテンツではなく分離文字であると判定された任意のセグメントまたは要素を含むこともある。ほとんどの場合1つかそれ以上のRSeg(規則)であるが、任意の種類のセグメントまたは要素も可能である。
コラムのあるページは好適には、各々1つのコラムを表す一連のゾーン(Zone)に分離される。ゾーン(Zone)は、関心の対象となりうるコンテンツを有するページの任意の矩形の部分を表す。永続的なゾーン(Zone)オブジェクトを、各ページ上のテキスト範囲、各ページ上の本文テキスト範囲、及び多数のコラムを有するページの各コラムについて作成する。また、ゾーン(Zone)は、矩形の部分の参照が必要な時はいつでも、必要に応じて作成する。こうしたゾーン(Zone)は必要がなくなった時に廃棄すればよい。こうした一時的なゾーン(Zone)も識別番号を有する。ゾーン(Zone)オブジェクトは子を有してもよく、子は他のゾーン(Zone)でなければならない。すなわちコラムのゾーン(Zone)はページのゾーン(Zone)の子となる。要素のバウンディングボックスは子のバウンディングボックスによって決定されるが、各ゾーン(Zone)のバウンディングボックスは独立である。各ゾーン(Zone)では、空白の仕切り(Divider)を段落の候補が存在する場所を示すものとして使用してもよい。ゾーン(Zone)と仕切り(Divider)をこのように使用することは、この段階で導入されるブロック要素(BElem)という新しい文書構造を識別する助けになる。BElemは一連のTSegをグループ化して段落の候補を形成する役目を果たす。同じかほぼ同様の並び線を有する(普通仕切り(Divider)によって線引きされた)隣接する範囲内の全てのTSegを検査して、作成されるBElem内でそれらが出現する順序を決定する。そしてTSegをこの順序でグループ化してBElemを形成する。BElemはTSegのためのコンテナであり、ID番号、座標及び、上下の空間の大きさ、フラグの集合、及び子のリストといった他の特性を割り当てられる。BElemの子はグループ化されたTSegであり、以前に割り当てられたプロパティを保持していることがある。BElemプロパティ中のフラグの集合を使用して、BElemの性質に関する最良推定を示してもよい。前に示したように、BElemは段落の候補であるが、ページ付けとコラムの切れ目によって、どこかに続く段落の開始、どこかで始まる段落の終了、または開始及び終了が両方とも他の範囲にある段落の中間といった段落の断片であることもあり、また完全な段落であることもある。BElemの開始及び終了の仕方は通常、BElemが段落または段落の断片のどちらを表すかを示すと考えられる。
視覚的トークン化フェーズは、コンテンツによって導出された構造ではなく二次元レイアウトによってより容易に識別可能な任意の他の構造を識別する機会という役目を果たす。このことの2つの例は番号と丸印によるリストの表とマークである。
表の識別の議論では、表のグリッドと完全な表とを区別する必要がある。表のグリッドは、空白またはRSeg何れかの仕切り(Divider)によって線引きされた一連のセルから構成される。完全な表は表のグリッドを備え、表のタイトル、見出し、注及び属性の何れかが存在または該当する場合それらを必要に応じて含む。
視覚的トークン化フェーズにおける表のグリッドの認識は、仕切り(Divider)の分析に基づいて行う。さらなる精緻化は好適にはその後の処理で行う。表のグリッドの認識は、2つの仕切り(Divider)の交点であるシードから開始する。シードは成長して表のグリッドのための当初のバウンディングボックスになる。その後当初の表のグリッドの範囲を内部の水平及び垂直の仕切り(Divider)についてより積極的に再分析し、セルの行とコラムを形成する。その後当初のバウンディングボックスは上下両方に成長し、初期の推定では見落としたかもしれない追加の行を取り入れる。その後結果として得られる表のグリッドを綿密に調べ、場合によっては拒否する。表のグリッド構造をTGroupオブジェクトとして格納するが、これはグリッドを形成するRSegを含み、最終的にはセル・コンテンツに対応するTSegも含む。
認識のためのシードは垂直及び水平の仕切り(Divider)の交点である。垂直の仕切り(Divider)は好適にはコラムの一番右にある。シードは、グリッドの当初のバウンディングボックスに含まれないこの垂直の仕切り(Divider)の右側のテキストを有してもよい。しかし、当初のバウンディングボックスが成長した後、グリッドは、垂直及び水平の仕切り(Divider)とテキストとの境界に基づいてテキストを含むかまたは除外する。
シードから、表のグリッドのバウンディングボックスを形成する4つの仕切り(Divider)を発見する。こうしたボックスを形成できない場合潜在的なTGroupを拒否する。この境界の形成を助けるため空白の仕切り(Divider)は範囲を縮小してもよいが、コンテンツの仕切り(Divider)の範囲は限定されていることに注意されたい。従って、上下の仕切り(Divider)がRSegである場合、許容可能なマージン内で同じ左右の座標を有する必要がある。同じことは左右のRSegタイプの仕切り(Divider)についても当てはまる。
本発明の1つの実施形態では、完全ボックス、部分ボックス及びボックスなしという3種類の表のグリッドを識別する。完全ボックスの表では、行とコラムは全てコンテンツの仕切り(Divider)[本来のインク線(proper ink line)]によって示される。ボックスなしの表では、空白だけを使用してコラムを区切るので、行を区切る追加の空白はなくてもよい。部分ボックスのTGroupは、上部と下部ではコンテンツの仕切り(Divider)によって区切られることが多く、場合によってはコンテンツの仕切り(Divider)はヘッダの行をグリッドの残りの部分から区切るが、それ以外ではコンテンツの仕切り(Divider)がないという点で中間的である。
ボックスなしの表の場合、画像またはサイドバーを含む表のグリッドの境界を拒否する。他の表は画像が内部にあることを許容するが、ボックスなしの表の性質上、画像とサイドバーは通常TGroupの外部にあるとみなす。また、有望な表のグリッドの内部のサイドバーのコンテンツが表のグリッドのものと同様である場合、サイドバーを取り消し、サイドバーの内部をグリッドに含める。表のグリッドの境界は、ボックスの表のための内部の垂直の仕切り(Divider)がない場合拒否する。必要な場合、表のグリッドの境界の座標を、現在の境界のわずかに上に延びる垂直のコンテンツの仕切り(Divider)を含むように許容範囲内で調整してもよい。
この当初の境界から、上下両方に成長するよう試みる。これは段階的に行う。各ステップは、上(または下)の次の水平の「コンテンツの」仕切り(Divider)までの全てのオブジェクトを見て、それらが現在の表のグリッドに接合できるかどうかを見ることからなる。テキストとサイドバーとの間の水平の空白の仕切り(Divider)をこの目的のためのコンテンツの仕切り(Divider)として扱う。
表のグリッドの境界内で水平及び垂直の仕切り(Divider)をより積極的な形で再作成する。視覚的トークン化処理は、表のグリッドの内部では、TGroupの外部で許容可能であるよりも少ない証拠に基づいて垂直の仕切り(Divider)を形成することが妥当であると想定している。普通、短い仕切り(Divider)は、偶然の一致(偶然形成された単語の間の空白の連続)に過ぎないことが多いという前提で回避する。表の候補の範囲では、それが仕切り(Divider)である可能性がはるかに高い。同様に、明らかな単語の境界がいくつかの他のTSegの縁端によって形成された鋭い線に対応する場合TSegはそこで切れる。
明白なグリッド線のない表のグリッドの場合、テキストの新しい各行に水平の仕切り(Divider)を形成する。表のグリッドのコンテキストの外部では、これは明らかに過剰であろう。潜在的は表のグリッドは、一旦形成したら、綿密に調べ、場合によっては拒否する。1つのコラムだけが形成された場合、テーブルのマークアップを必要としない同じテキスト構造である可能性が高いので拒否する。2つのコラムが形成され第1のコラムがマークだけからなる場合も拒否する。この場合、ぶら下げマークを伴うリストである可能性が高い。ボックスの表の場合、グリッドを拒否するこれら2つの問題は適用しない。
1つの実施形態では、ユーザはヒントを提供したり、トークン化エンジンが疑問を抱かないグリッドの境界を示したりできる。ユーザがヒントを出した表は、たとえ所定の条件を満たしていなくとも、表にする方針であると考えられるので、これまで論じたような表を拒否する規則の対象にはならない。
TGroup認識の最後に、ゾーン(Zone)を作成する。グリッド全体についてTGroupゾーン(Zone)を作成し、TGroupゾーン(Zone)中にTGroup要素のセルのためのLeafゾーン(Zone)を作成するが、これは表のセルを表すTSegを保持するために作成されたコンテナである。その後、文書構造識別段階(DSI)では、好適にはコラムの幅、テキストの位置合わせ、セルの境界の規則等を測定し、適切な構造を作成する。つまり、セル(Cell)、行(Row)、TGroup及びBElemの作成及びコラムの開始、コラムの終了、行の開始、行の終了、行の数、及びコラムの数といったプロパティの計算は後の段階で行えばよい。
番号によるリストは多数の番号付け方法の1つに従う傾向があり、こうした方法は昇順または降順の数字、アルファベットの値、及びローマ数字を含む。丸印によるリストは丸印の一般に使用される組み合わせの1つを使用し、異なるネストレベルでマークを変更することを含むネスト方法を使用する傾向がある。こうした数字及び丸印には潜在的なリスト・マークとしてフラグを立てる。その後の処理によって、それらがリスト・マークであって単にゾーン(Zone)間で段落が分割された結果ではないことが確認される。
トークン化処理では、BElem、TGroup、及びゾーン(Zone)といった高次要素を導入する。TSeg、RSeg、及びISegといったより単純な要素の場合と同様、こうした新しい要素は各々、縁端のロケーションを提供することによってオブジェクトのロケーションを記述するバウンディングボックスに関連付けられる。
図8は、視覚的トークン化フェーズの結果を例示する。ゾーン(Zone)110/112が識別され(このページでは、ページのゾーン(Zone)110とコラムのゾーン(Zone)112の両方)、仕切り(Divider)114が識別され影付きで示され、BElem116が段落の候補の周囲に形成され、リスト・マーク118が番号によるリストの前で識別されている。リスト番号118が選択されそのプロパティが左側のウィンドウ108に示されている。リスト・マーク118はID、座標の集合、高さ、幅を有し、上下の高さがなく、子とフラグの集合を有することが示され、さらに潜在的な順序マークとして識別される。
図9は、視覚的トークン化フェーズの後の文書の異なる部分を例示する。ここでもBElem116とコラムのゾーン(Zone)112が識別され、RSeg107が選択されている。RSeg107は脚注のテキストからコラムを分割しており、RSegのこれまで説明したプロパティに加えて、それが仕切りであることを示すフラグがウィンドウ108に設定されている。
図10は、文書のまた別の部分を例示しているが、ここではコラムのゾーン(Zone)112が識別され選択されている。選択されたコラムのゾーン(Zone)のプロパティが左側のウィンドウ108に例示されている。コラムのゾーン(Zone)112にはid番号、ロケーション座標の集合、幅と高さ、及びそれがページ上の第1のコラムであることを示すプロパティが割り当てられている。
図11は、図9に例示したものと同じページを例示するが、コラムのゾーン(Zone)112の内部の脚注のゾーン(Zone)130が選択されていることを示す。脚注のゾーン(Zone)130は、図9で選択されたRSeg107の存在によって識別される。脚注のゾーン(Zone)130は、図10で例示したコラムのゾーン(Zone)112とほぼ同様の固有のプロパティを有する。
構造識別の最終フェーズを文書構造識別(DSI)と呼ぶ。DSIでは、文書の広範な特徴を使用して、トークン化処理が導入した構造を精緻化する。こうした精緻化は、トークン化されたオブジェクトとその周囲のオブジェクトの特性を検査する規則の集合を使用して決定する。こうした規則は、印字分類法における要素の特性に基づいて導出すればよい。タイトルまたはリストといった構造を読者が識別できるようにするキューの多くは、DSI処理で規則に基づく処理を通じて実装すればよい。
DSIは、テキストのサイズ、ページ上のロケーション、ゾーン(Zone)中のロケーション、ページ上またはゾーン(Zone)中の他の要素に対するマージンといったBElemの特性を利用して構造の正負両方の識別を行う。分類法の各要素は一連の一意の特性によって識別すればよく、規則の集合を利用して標準のBElemをより特定的な構造に変換すればよい。以下の議論は分類法の要素を識別するために使用される規則の限られた例を提示するに過ぎないが、別の要素を識別する他の規則を対象としてもよいことを当業者は認識するであろう。
図6に例示された下のページ・セグメントでは、ブロック引用が提示され、ゾーン(Zone)中の追加マージン空間の使用によって読者が視覚的に識別している。DSIフェーズでは、このブロック引用はトークン化フェーズで作成されたBElemとして読み取る。その上下には、段落または段落のセグメントを表す他のBElemがある。ブロック引用を表すBElemは、その上下の段落と同じコラムのゾーン(Zone)の一部であるので、ブロック引用のBElemの両側のマージンをその上下のBElemのマージンと比較するとマージンが増えていることが示される。マージンの増大は、BElemの座標ロケーションを検査してバウンディングボックスの左右の縁端が隣接するBElemのものと異なるロケーションにあることに注目することによって判定してもよい。1つのBElemだけの幅が減少しているのであって一連のBElemのコラムの幅が減少しているのではないので、そのBElemはリストではなくブロック引用である確度が高く、そのBElemの何れかの特性をブロック引用の存在を示すように設定すればよい。他の例では、マージンの差以外の特性を使用してBElem全体を上下のBElemと区別する。この場合、フォントサイズの変化、書体の変化、イタリック体の追加、またはDSMで利用可能な他の特性を検出する試験を行って、ブロック引用が存在することを判定すればよい。
また、DSIフェーズを使用して、トークン化フェーズでは識別できない多数の要素を識別する。こうした要素の1つを合成規則と呼ぶ。規則は所定の始点と終点を有する線である一方、合成規則は、制作者は線であることを意図しているが、線ではなく一連のハイフンまたは他の標識(合成垂直規則の場合一般に“|”を使用する)によって表される。トークン化フェーズでは、合成規則は一連の文字であるためBElemの中にあるが、DSIでは規則ベースの処理を使用して合成規則を識別し、それをRSegによって置換することが可能である。これを行った後、DSIが合成規則の領域内のBElemを検査して、トークン化処理がスキップした表を定義したり、脚注のゾーン(Zone)の領域を定めたりするために合成規則が使用されたかを判定するのが有益であることが多い。
トークン化フェーズはTGroupとリスト・マークの候補の両方を識別するが、表全体、または完全なリストを構築し、合成規則が定義するTGroupを識別するのはDSIにおいてである。TGroupが識別された場合、表のタイトル、見出し、脚注及び可能な属性の特性を使用して識別されたTGroupの近傍のBElemを試験し、完全な表の識別を完了する。表(Table)のタイトルの識別は、文書全体のタイトルまたは表題の識別と同様であり、後でタイトルの全体的な識別を論じる際に詳細に説明する。トークン化フェーズがTGroupを識別した後、処理のDSIフェーズは、該当する場合隣接するTGroupを結合するか、不確実なセルの切れ目(soft cell break)が検出された場合定義されたTSegを異なるTGroupセルに区切ることによって表を精緻化すればよい。不確実なセルの切れ目は、「%」のような、コンテンツとも分離文字とも考えられる文字である。こうした文字は文書のコンテンツの一部であるので、トークン化段階はこうした文字を除去すべきではなく、DSIフェーズを使用して単一のTGroupを分割しなければならないことを識別し、文字を保持する。こうした不確実なセルの切れ目の識別子は合成規則と同様に処理するが、不確実なセルの切れ目は区切りのないフォーマットの表(open format table)に見られる傾向があるため通常RSegは導入しない。
DSI処理は好適にはコラムの幅、テキストの位置合わせ、セルの境界の規則等を測定し、適切な表構造を作成する。これは、セル(Cell)、行(Row)及びTGroup要素の作成と、コラムの開始、コラムの終了、行の開始、行の終了、行の数、及びコラムの数等の計算を意味する。当業者に明らかなように、さらなる表のグリッドの認識は、横並びのブロックの配置に基づいてDSIの後の段階で行えばよい。
リストの識別は、トークン化フェーズでの潜在的なリスト・マークの識別に依存する。マークは新しいBElemの表示のみであることが普通なので、マークの認識は好適にはトークン化フェーズでなされる。しかし、DSI処理がより複雑になるという代償はあるが、これはDSIで行ってもよいことを当業者は理解するであろう。リスト識別の主要な態様の1つは誤った正のリスト・マーク、すなわち、トークン化が識別した、文書の文脈からは明らかにリストの一部でない潜在的なリスト・マークの再検討である。こうしたマークは通常、新しい行を開始する多数の丸印に関連して識別する。これは、BElemの線の始めに現れる数字または丸印に帰結する。これは、リスト・マークを識別すべきであるという、トークン化処理へのフラグの役目を果たす。こうした誤ったマークは単独では訂正できないが、文書をより広範に考察した文脈からは明白な誤りである。すなわち、試験が不合格の場合、リストの入力に続く先行する数字によるマーク、または後続する数字によるマークを使用して誤った正の識別を検出すればよい。検査の不合格を検出すると、潜在的なリスト・マークを好適には同じ行のTSegと、それが属すべきBElemとに結合する。
誤ったマークを訂正する処理の例の概観として、以下の方法を提供する。文書をトラバースしてトークン化が識別したリスト・マークの候補を発見する。それが連続するリストである場合、(アルファベット、数字、ローマ数字、またはそれらの組み合わせの使用に基づいて)先行及び後続のリスト・マークを判定し、スキャンして近くの先行または後続のマークを検出する。こうしたマークが見つからない場合は訂正し、他の場合には続行する。
「1」、「2」、「3」というマーカを有するリストが識別され、「a」、「b」、「c」というマーカを有する第2のリストが検出された場合、「3」というマークを記憶してその後の「4」というマーカを不用意に無視しないようにする。「a」、「b」、「c」という配列が終わった後「4」というマーカを検出したならば、「a」、「b」、「c」という配列をネストされたリストとして分類する。
構造を判定するために使用するDSIにおける規則エンジンの最後の例を、表題とも呼ばれる、タイトルの識別に関連してここで提示する。このルーチンは簡単な規則エンジンを使用する。あるBElemについて、タイトルの特性に関連する規則のリストを選択する。真のステートメントを発見するまでリスト中の規則を実行する。真のステートメントを発見したら、関連する結果(タイトルの正または負の識別)を返す。真のステートメントが発見されない場合、BElemの特性は変更しない。正または負何れかの識別がなされる場合、DSM中のBElemをしかるべく修正してその特性の変更を反映する。
現在好適な実施形態では、各ゲラ(Galley)の一連のパスを行う。第1のパスで検査される属性は、BElemはインデントまたはセンタリングされているか、BElemのフォントの種類とサイズ、BElemの上下の空間、BElemのコンテンツは全て大文字になっているかまたは主要な各単語の少なくとも最初の文字が大文字になっているかである。こうした全ての特性をDSM中のBElemについて定義する。通常、第1のパスを使用してタイトルの候補を識別する。そしてこうしたタイトルの候補を別の規則の集合によって処理し、タイトル(Title)としてマークすべきかを判定する。タイトルを識別するために使用する規則は好適には順序付けられているが、一部の規則の順序は精度に悪影響を及ぼすことなく変更してもよいことを当業者は認識するであろう。以下の規則のリストは網羅的または必須のものと考えるべきではなく、もっぱら例示目的で提供するものである。
第1の試験を行いBElem中のテキストが有効なテキストであるかを判定するが、ここで有効なテキストとは文字、好適には数字とアルファベット等の文字の集合のことである。これは、タイトルと多くの特性を共有する数式をタイトルとして識別してしまうのを防止する。実装に際して、これを負の試験として適用し、試験を通過したBElemを即座に「有効なテキスト(ValidText)ではない」として失格にするほうが容易かもしれない。第1の試験で排除されなかったBElemについて、その後の試験を行う。BElemが右または左に隣接するBElemを有する場合、タイトルでない可能性が高い。この試験は、TGroup中のセルをタイトルとして識別するのを防止するために導入する。タイトルが4行以上の長さになることは稀であるため、BElemが3行を越えると判定された場合、好適には潜在的なタイトルから排除する。タイトルはゲラ(Galley)中の最後の要素には出現しないので、BElemがゲラ(Galley)中の最後の要素である場合、タイトルとして失格する。BElemがその上に仕切り(Divider)を有するかまたはページの一番上にあり、センタリングされていれば、タイトルとして指定する。BElemがその上に仕切り(Divider)を有するかまたはページの一番上にあり、例えば書体及びフォントサイズによって目立つBElemであり、ページの右マージンに張り出していなければ、タイトルとして指定する。有効なタイトルを包含し無効なタイトルを除外するため、一般的なタイトルのプロパティに基づいて他のこうした規則を適用してもよい。
図12は、構造識別のDSIフェーズの後の文書のページの一部を例示する。BElem116がこれまでと同様ボックスの中で識別され、挿入ブロック(Iblock)が識別されている。Iblock140の内部には番号を付けられたリストがあるがこれはネストされた内部リストを有し、その1つが選択されている。内部リストのプロパティは、識別番号、座標ロケーション、高さと幅、ドメイン及び内部リストの上下の空間を示す。さらに、内部リストは、リストの番号を付けられたTSegである子の存在と、Iblock140中の親のリストに対応する親のidとを指定する。
図13は、図12で例示したものと同じページの一部を例示する。Iblock140の内部のBElem116が選択されている。選択されたBElem116は、id、座標ロケーション、高さと幅、ドメイン(Iblock140に対応するドメインを指定する)、Iblockのidを指定する親、BElem116の下の空間の大きさ、及び子のTSegのリストを有する。
図14は、図12及び図13で例示したものと同じページを例示する。Iblock140中のリスト・マーク118が選択されている。リスト・マーク118は、idの割り当てられたプロパティ、ロケーション座標の集合、高さと幅、ドメイン、Iblock140中の帰属するリストを指定する親、リスト・マークであることを示すタイプ、及び子のTSegのリストを有する。
トークン化フェーズの文脈で前に説明したが、視覚的トークン化及びDSI両方のフェーズでBElemをどのように識別するかに関する情報を提供するため、ここでBElemについて説明する。BElemの認識は、処理全体の中の2つの主要な時点で行われる。すなわち、視覚的トークン化フェーズで当初のBElem認識を行った後、文書構造識別フェーズ(DSI)でBElemを訂正する。さらに、潜在的なリスト・マークとして識別された後DSIでリスト・マークとして拒否されたBElemは、リストを識別する際DSI処理の中で関連するBElemに再結合する。
トークン化の際、当初のBElemの認識を行う。当初のパスでは、識別処理はLeafゾーン(Zone)に制限する。Leafゾーン(Zone)は、ページ上の1つのコラム、1つの表のセル、またはサイドバーのような挿入ブロックのコンテンツのことがある。TSegの並び線を訂正した後ブロック認識を行う。並び線の訂正は、テキストの垂直配置の小さな変化を調整し、完全なテキストの線を形成する。補償される並び線の変化は、通常PDLの作成が不出来だった結果である目に見えない「ノイズ」、または目に見える上付き文字または下付き文字の結果であることがある。どちらの場合でも、各TSegに最も有力な並び線を割り当て、それをLeafゾーン(Zone)内のその線の上の他のテキストと共にグループ化する。この並び線の整合化によって、BElemの認識を行毎に行い、局所的なパターンのみを使用して各行を現在開いたブロックに含めるか、それとも現在開いたブロックを閉じて新しいブロックを開始するかを決定できるようになる。
Leafゾーン(Zone)に適用する場合、ブロック認識は以下のステップを通じて進められる。
1.全てのテキスト、規則及び画像セグメントを収集する。
2.並び線のリストを形成する(セグメントを行にグループ化する)。
3.セグメントが左右のセグメントに隣接する場所を確認する。
4.行の始めの潜在的なマークを識別する。
5.各行をパスし、ブロックを形成する。
各行について、ステップ5は好適には以下の規則に基づく。RSeg(規則セグメント)はインラインまたはブロックを表してもよい。RSegが同じ行のテキストの並び線に一致する場合、フォーム・フィールドとしてマークする。RSegがテキストの下にある場合、そのテキストのアンダーライン・プロパティに変換する。テキストに重なっている場合、削除特性(blackout characteristics:取り消し線)に変換する。こうした全ての場合、RSegはインラインである。固有の並び線の上にRSegがある場合、新しいブロックの開始とみなす。ISeg(画像セグメント)は新しいブロックを示すことも示さないこともある。画像が何らかのテキストから十分に左または右にある場合、ブロック構造を中断しない「浮動性の」装飾であるとみなす。画像が水平にテキストに重なっている場合、その画像はテキストを複数のブロックに区切る。
植字した文書を観察することから、他の規則を追加してもよく、いくつかの条件を監視してもよいことが当業者に示されるであろう。一例として、前の行がハイフンで終わり現在の行が小文字で始まっている場合、現在の行を前の行と同じブロックの続きとして扱う理由と見るべきであろう。さらに、上にRSeg(規則セグメント)がある場合、これは現在の行のための新しいブロックを開始する理由である。3行目及びそれ以降の行の左インデントが大きく変化している場合、これは通常新しいBElemが開始されたことを示している。背景色の変化はBElem分割の徴候である。行間隔の大きな変化は好適には新しいBElemの開始に帰結する。(下から2番目の行が示すように)前の行の末尾に現在の行の最初の単語が十分入るだけの余裕がある場合、現在の行は新しいBElemの開始であるとみなすべきである。(最後の数行によって判定されるように)コラムの幅よりはるかに小さい行はテキストが一杯になっていないことを示しており、次の行は新しいBElemの開始とみなすべきである。現在の行が次の行と同じ右マージンを有しているが前の行より長い場合、その行は新しく一杯に行揃えされたBElemの開始であると判定すべきである。行が有望なマークから開始される場合、最後の試験によって新しいBElemが開始される。BElemをこの試験に基づいて分割する場合、その後参照するためにタグをつける。後でこれが(何らかのリストの一部を形成しない)誤ったマークであると判定された場合、そのBElemは再結合される。上記で説明した試験は網羅的であると考えるべきではなく、また全体を適用しなければならない規則の集合であると考えるべきでもないことを、当業者は認識するであろう。
トークン化フェーズで導入されたBElem構造のさらなる精緻化を支援するため、DSIフェーズでBElemの訂正を行う。DSIのパスは、文書全体にわたって収集したグローバルな統計情報といった追加情報を使用してもよい。この追加情報を使用して、元のブロックの一部を結合したりさらに分割したりしてもよい。
BElemは以下の条件に基づいて多くの場合結合される。単語間の間隔が広いことに基づいて水平に分割されたBElemは、そのBElemが存在するコラムのゾーン(Zone)のプロパティに基づいて現在決定されているコラムの幅の文脈でその間隔が両端揃えによって説明できると判定されたならば、再結合してもよい。全ての行が同じ中間点を共有している一連のブロックは、この中点が中央揃えされた行の流れを結合しているので結合する。同じことを右揃えの行についても行う。BElemの最初の行をブロックの残りの部分から誤って分割することがありうるが、この状況は最初の行に共通のインデントに関する統計情報に基づいて識別し訂正すればよい。テキストで一杯になっていない行の規則を過度に積極的に適用することでBElemが分割されることがあるが、この場合BElemの句読法といった別の徴候によって誤りを訂正すればよい。BElemが同一の特性を有する場合、BElemをさらに結合してもよい。
また、DSIフェーズでは、以下の条件に基づいてBElemを分割してもよい。中央揃えされたテキストの長い流れがあり、それを単一のBElemとすべきであるという句読法の徴候がない場合、行毎に分割してもよい。BElem中の2つの行の間に共通のフォントフェース(フォントとサイズの組み合わせ)がない場合、BElemはその2つの行の間で分割する。一連のごく短い行以外何も含まないBElemはリストであることを示しているので分割する。また、ゾーン(Zone)だけからではなくゲラ(Galley)全体から収集した統計情報に基づいて、段落間の分割を示す十分な大きさの空白があればBElemを分割してもよい。
DSI処理によって識別されたもう1つの重要な構造はゲラ(Galley)である。ゲラ(Gelley)はコラムとページを通じた文書中のコンテンツの流れを定義する。各ゲラ(Galley)では、ページのゾーン(Zone)とコラムのゾーン(Zone)の両方に順序を割り当てる。ゾーン(Zone)の順序付けによってゲラ(Galley)は文書のコンテンツの流れをたどることができる。脚注のゾーンについて、好適には、文書中の全ての脚注を一緒に格納できるような別のゲラ(Galley)を定義する。ゲラ(Galley)を作成するため、ページ、コラム及び脚注についてのゾーン(Zone)を上記で説明したように識別する。作成後各ゾーン(Zone)にタイプを割り当てる。文書中の全てのゾーン(Zone)を識別しそれらにタイプを割り当てたら、ゾーン(Zone)の各タイプのコンテンツをゲラ(Galley)に入力する。好適にはゲラ(Galley)への入力は順次的に行われるので、コラムは正しい順序で表示される。場合によっては、新聞の記事が複数のページにわたる場合数字及びアルファベット両方のマーカで読者に別のページを指示するのと同様に、ゾーン(Zone)の下部のマーカが、次がどのゾーン(Zone)であるかを示す役目を果たしてもよい。DSI処理では、BElemがタイトルであるかを判定する便利な試験はゲラ(Galley)中のBElemの位置に基づくものであるため、ゲラ(Galley)の識別をタイトルの識別の前に行う。
上記で説明した方法が図15のフローチャートに要約されていることを、当業者は容易に認識するであろう。この方法はステップ150の視覚的データ取得処理で開始されるが、そこではPDLを読み取り、好適にはステップ152で線形化するので、ステップ154でセグメントを識別できる。現在好適な実施形態では、この情報を使用してDSMを作成し、これをステップ156の視覚的トークン化処理によって読み取る。視覚的トークン化では、ステップ158でセグメントをグループ化してトークンを形成し、TsegからBElemを作成することを可能にする。ステップ160で空白をトークン化して仕切り(Divider)を形成する。さらにステップ162及び164では、表のグリッドとリスト・マークを識別しトークン化(tokenize)する。視覚的トークン化のさらなるステップとして、ステップ166でゾーン(Zone)を識別しトークン化する。トークン化情報を使用してDSMを更新するが、これはステップ168の文書構造識別処理で使用する。ステップ170では、DSIは、ステップ162でトークン化されたTGroupからの完全な表の作成をサポートする。ステップ172でゲラ(Galley)を識別して追加するが、タイトル(Title)はステップ174で識別しDSMに追加する。ステップ168でのDSIによるDSMの生成後、必要に応じてステップ176でXMLまたは他のフォーマットへの変換処理を実行してもよい。図15に示すステップは例示的なものに過ぎず、ステップ156〜168でトークン化し識別しうるものの全ての範囲に及ぶものではないことを、当業者は容易に認識するであろう。
単に順序的な識別番号を識別された各要素に割り当てても、ロケーションに基づいてアクセスすべきオブジェクトを選択する助けにならないことを当業者は認識するであろう。ページのある範囲内にある、BElemのようなあるクラスのオブジェクトが何個かを判定するにはロケーション・ベースの検索が有用である。こうした照会を促進するため、本発明の現在好適な実施形態は、好適には二分木(binary tree)として実装される幾何学的指標の使用を提供する。幾何学的指標は、所定の領域内のBElemまたは仕切り(Divider)といった全てのオブジェクトを判定する照会の処理を可能にする。幾何学的指標の1つの実装は、要素に関連する座標に基づいて識別番号を要素に割り当てることによって提供すればよいことを当業者は認識するであろう。例えば、所定の領域内のロケーションへの参照を含む識別番号を有する全ての仕切り(Divider)を選択することによってその所定の領域内の全ての仕切り(Divider)を判定する幾何学的指標の検索を行えるように、バウンディングボックスの最初の角を識別番号の一部として使用してもよい。多数の他の実装が可能であることを当業者は認識するであろう。
上記の議論は主として「XMLの生成」を中心に行ったが、構造認識はXMLファイルの生成だけに関するものではない。この技術の他の適用業務には、文書の階層的構造を認識する能力の恩恵を受ける自然言語解析と、構造識別を使用して文書の特に関連性の高い部分を識別し、それによってよりよい索引付け能力を提供することができる検索エンジン設計とが含まれる。上記のオブジェクトのクラスを表すために使用する命名規則は例示的な性質のものであって、本発明の範囲を制限する意図がないことは当業者に明らかであろう。
上記の議論は文書構造モデルを作成する方法を中心に行ったが、本発明はこのモデルを作成するシステムをも含むことを当業者は認識するであろう。図16に例示するように、PDLファイル200は視覚的データ取得器202によって読み取るが、この視覚的データ取得器202は好適には、PDLを線形化して二次元ページ記述を作成するPDL線形化器204と、線形化したPDLを読み取り文書のコンテンツをセグメントの集合として識別するセグメント識別器206との両方を含む。視覚的データ取得器202の出力は好適にはDSM207であるが、前に指摘したように、異なるモジュール各々について異なるフォーマットをサポートしてもよい。DSM207は視覚的トークン化器208に提供されるが、この視覚的トークン化器208はDSMを解析して文書中の高次構造を表すトークンを識別する。トークンは通常セグメントのグループであるが、空白の仕切り(Divider)、及び識別されたセグメントに直接依存しない他の構成体でもある。視覚的トークン化器208はその修正をDSM207に書き戻し、書き戻されたDSN207はその後文書構造識別器(DSI)210によって処理される。DSI210は規則ベースの処理を使用して構造をさらに識別し、トークン化器208によってDSM207に導入されたトークンに特性を割り当てる。DSM207は、DSI210が識別した構造を反映するよう更新される。XMLのようなフォーマットへの変換が必要な場合、変換エンジン212は標準変換技術を利用して順序付けられたDSMとXMLファイル214との間の変換を行う。
本発明のこの実施形態の要素は、全て構成要素間のDSM207の転送を促進するランダムアクセスメモリまたはハードドライブのような読み取り書き込み記憶機構の何れかの共用記憶域へのアクセスを有する標準コンピュータ・プラットフォーム上で実行されるソフトウェア・アプリケーションの一部として実装すればよい。こうした構成要素は順次実行してもよく、またある程度並列に実行してもよい。現在好適な実施形態では、DSI210がトークン化データ構造全体に一度にアクセスできるように構成要素の並列実行を制限している。これによって、VDA202が次のページを処理する間に視覚的データ取得を経たページの視覚的トークン化を行うアプリケーションの作成が可能になる。このシステムは、テキストを解析する能力を有する標準プログラミング言語を使用する多くの方法で実装可能であることを当業者は容易に認識するであろう。
本発明の上記で説明した実施形態は例示のみを目的としている。当業者は本発明の範囲から離れることなく個々の実施形態に変更、修正及び変形を行うことが可能であり、本発明の範囲は添付の請求項のみによって定義される。
字下げと斜体によるブロック引用の例を示す図である。 字下げと小さなフォントによるブロック引用の例を示す図である。 字下げがないが斜体によるブロック引用の例を示す図である。 字下げがないが小さいフォントによるブロック引用の例を示す図である。 引用符を使用したブロック引用の例を示す図である。 視覚的データ取得におけるTSegの識別のスクリーンショットを示す図である。 視覚的データ取得におけるRSegの識別のスクリーンショットを示す図である。 視覚的トークン化におけるリスト・マークの候補の識別のスクリーンショットを示す図である。 視覚的トークン化におけるRSegの仕切り(Divider)の識別のスクリーンショットを示す図である。 視覚的トークン化におけるコラムのゾーン(Zone)のトークン化のスクリーンショットを示す図である。 視覚的トークン化における脚注のゾーン(Zone)のトークン化のスクリーンショットを示す図である。 文書構造識別における番号によるリストの識別のスクリーンショットを示す図である。 文書構造識別におけるリストのタイトルの識別のスクリーンショットを示す図である。 文書構造識別における番号によるリストのスクリーンショットを示す図である。 本発明の方法を例示するフローチャートである。 本発明のシステムの構成図である。

Claims (13)

  1. 少なくとも1つのページのコンテンツを有するコンピュータ解析可能文書の文書構造モデルを作成する方法であって、
    文書のコンテンツを、所定の特性を有し文書中の構造を表すセグメントとして識別し、
    各トークンが少なくとも1つのページのうち1つに関連し、該各トークンが、同じページの他のセグメントに対する各セグメントの位置に基づいて、当該トークンに関連するページの構造によって決定される文書中の構造を定義する特性を有するように、文書のコンテンツと構造を特徴付けるトークンを作成し、
    文書の少なくとも1つのページの全てにわたるトークンの特性によって文書構造モデルを作成することを備えることを特徴とする方法。
  2. 請求項1に記載の方法において、前記コンピュータ解析可能文書がページ記述言語ファイルであり、前記文書のコンテンツを識別するステップが、ページ記述言語を線形化された二次元フォーマットに変換するステップを含むことを特徴とする方法。
  3. 請求項1に記載の方法において、各セグメントのセグメント・タイプが、それぞれ文字ベースのテキスト、ベクトル及びビットマップ画像及び規則を表すテキスト・セグメント、画像セグメント及び規則セグメントを含むリストから選択されることを特徴とする方法。
  4. 請求項3に記載の方法において、前記テキスト・セグメントが共通の並び線を有するテキストのストリングを表すことを特徴とする方法。
  5. 請求項1に記載の方法において、前記トークンの特性が、段落の候補、表のグループ、リスト・マークの候補、仕切り、及びゾーンを含むリストから選択される構造を定義することを特徴とする方法。
  6. 請求項5に記載の方法において、1つのトークンが少なくとも1つのセグメントを収容し、1つのトークンの特性が収容されたセグメントの特性によって決定されることを特徴とする方法。
  7. 請求項1に記載の方法において、1つのトークンが少なくとも1つの他のトークンを収容し、収容する側のトークンの特性が収容される側のトークンの特性によって決定されることを特徴とする方法。
  8. 請求項1に記載の方法において、各トークンに、文書中のトークンのロケーションを追跡するための幾何学的指標を含む識別番号が割り当てられることを特徴とする方法。
  9. 請求項1に記載の方法において、前記文書構造モデルが、トークンの特性の規則ベースの処理を使用して作成されることを特徴とする方法。
  10. 請求項5に記載の方法において、少なくとも2つの結合されていないゾーンが前記文書構造モデル中でゲラとして表されることを特徴とする方法。
  11. 請求項5に記載の方法において、前記段落の候補が前記文書構造モデル中で、タイトル、丸印によるリスト、数字によるリスト、挿入ブロック、段落、ブロック引用、表、フッタ、ヘッダ、及び脚注を含むリストから選択された構造として表されることを特徴とする方法。
  12. 請求項1に記載の方法を使用して文書構造モデルを作成するシステムであって、
    文書中のセグメントを識別する視覚的データ取得器と、
    識別されたセグメントを受信するため前記視覚的データ取得器に接続され、文書を特徴付けるトークンを作成する視覚的トークン化器と、
    前記視覚的トークン化器から受信したトークンに基づいて文書構造モデルを作成する文書構造識別器とを備えることを特徴とするシステム。
  13. 請求項12に記載のシステムにおいて、さらに、前記文書構造識別器によって作成された文書構造モデルを読み取り、文書構造モデルのコンテンツと構造によって、拡張可能マークアップ言語、ハイパーテキスト・マークアップ言語及び標準汎用マークアップ言語を含むリストから選択されたフォーマットのファイルを作成する変換エンジンを含むことを特徴とするシステム。
JP2004505822A 2002-05-20 2003-05-20 文書構造識別器 Pending JP2005526314A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US38136502P 2002-05-20 2002-05-20
PCT/CA2003/000729 WO2003098370A2 (en) 2002-05-20 2003-05-20 Document structure identifier

Publications (1)

Publication Number Publication Date
JP2005526314A true JP2005526314A (ja) 2005-09-02

Family

ID=29550111

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004505822A Pending JP2005526314A (ja) 2002-05-20 2003-05-20 文書構造識別器

Country Status (9)

Country Link
US (1) US20040006742A1 (ja)
EP (1) EP1508080A2 (ja)
JP (1) JP2005526314A (ja)
AU (1) AU2003233278A1 (ja)
CA (1) CA2486528C (ja)
IS (1) IS7525A (ja)
MX (1) MXPA04011507A (ja)
NZ (1) NZ536775A (ja)
WO (1) WO2003098370A2 (ja)

Families Citing this family (94)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8277319B2 (en) * 2003-09-12 2012-10-02 Gong Xiaoqiang D Communications interface for a gaming machine
US7281005B2 (en) * 2003-10-20 2007-10-09 Telenor Asa Backward and forward non-normalized link weight analysis method, system, and computer program product
US8144360B2 (en) * 2003-12-04 2012-03-27 Xerox Corporation System and method for processing portions of documents using variable data
WO2006004946A2 (en) * 2004-06-30 2006-01-12 Reactivity, Inc. Accelerated schema-based validation
US7493320B2 (en) 2004-08-16 2009-02-17 Telenor Asa Method, system, and computer program product for ranking of documents using link analysis, with remedies for sinks
US7913163B1 (en) * 2004-09-22 2011-03-22 Google Inc. Determining semantically distinct regions of a document
US20060085740A1 (en) * 2004-10-20 2006-04-20 Microsoft Corporation Parsing hierarchical lists and outlines
US7698637B2 (en) * 2005-01-10 2010-04-13 Microsoft Corporation Method and computer readable medium for laying out footnotes
US7818304B2 (en) * 2005-02-24 2010-10-19 Business Integrity Limited Conditional text manipulation
US7602972B1 (en) * 2005-04-25 2009-10-13 Adobe Systems, Incorporated Method and apparatus for identifying white space tables within a document
US7721198B2 (en) 2006-01-31 2010-05-18 Microsoft Corporation Story tracking for fixed layout markup documents
US7676741B2 (en) * 2006-01-31 2010-03-09 Microsoft Corporation Structural context for fixed layout markup documents
US8509563B2 (en) * 2006-02-02 2013-08-13 Microsoft Corporation Generation of documents from images
US7836399B2 (en) 2006-02-09 2010-11-16 Microsoft Corporation Detection of lists in vector graphics documents
US7739587B2 (en) * 2006-06-12 2010-06-15 Xerox Corporation Methods and apparatuses for finding rectangles and application to segmentation of grid-shaped tables
KR101058039B1 (ko) * 2006-07-04 2011-08-19 삼성전자주식회사 Xml 데이터를 이용한 화상형성방법 및 시스템
US7852499B2 (en) * 2006-09-27 2010-12-14 Xerox Corporation Captions detector
US7810026B1 (en) 2006-09-29 2010-10-05 Amazon Technologies, Inc. Optimizing typographical content for transmission and display
US7912829B1 (en) 2006-10-04 2011-03-22 Google Inc. Content reference page
US8782551B1 (en) * 2006-10-04 2014-07-15 Google Inc. Adjusting margins in book page images
US7979785B1 (en) 2006-10-04 2011-07-12 Google Inc. Recognizing table of contents in an image sequence
US8707167B2 (en) * 2006-11-15 2014-04-22 Ebay Inc. High precision data extraction
US8023740B2 (en) * 2007-08-13 2011-09-20 Xerox Corporation Systems and methods for notes detection
US8782516B1 (en) 2007-12-21 2014-07-15 Amazon Technologies, Inc. Content style detection
US7991709B2 (en) * 2008-01-28 2011-08-02 Xerox Corporation Method and apparatus for structuring documents utilizing recognition of an ordered sequence of identifiers
US7937338B2 (en) * 2008-04-30 2011-05-03 International Business Machines Corporation System and method for identifying document structure and associated metainformation
US8145654B2 (en) * 2008-06-20 2012-03-27 Lexisnexis Group Systems and methods for document searching
US8126899B2 (en) 2008-08-27 2012-02-28 Cambridgesoft Corporation Information management system
US9229911B1 (en) * 2008-09-30 2016-01-05 Amazon Technologies, Inc. Detecting continuation of flow of a page
US8352855B2 (en) * 2009-01-02 2013-01-08 Apple Inc. Selection of text in an unstructured document
JP5412903B2 (ja) * 2009-03-17 2014-02-12 コニカミノルタ株式会社 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
US10303722B2 (en) 2009-05-05 2019-05-28 Oracle America, Inc. System and method for content selection for web page indexing
US20100287152A1 (en) 2009-05-05 2010-11-11 Paul A. Lipari System, method and computer readable medium for web crawling
US9135249B2 (en) * 2009-05-29 2015-09-15 Xerox Corporation Number sequences detection systems and methods
US8627203B2 (en) * 2010-02-25 2014-01-07 Adobe Systems Incorporated Method and apparatus for capturing, analyzing, and converting scripts
US8311331B2 (en) * 2010-03-09 2012-11-13 Microsoft Corporation Resolution adjustment of an image that includes text undergoing an OCR process
US8977955B2 (en) * 2010-03-25 2015-03-10 Microsoft Technology Licensing, Llc Sequential layout builder architecture
US8949711B2 (en) * 2010-03-25 2015-02-03 Microsoft Corporation Sequential layout builder
WO2011140148A1 (en) * 2010-05-03 2011-11-10 Cambridgesoft Corporation Method and apparatus for processing documents to identify chemical structures
US9251123B2 (en) * 2010-11-29 2016-02-02 Hewlett-Packard Development Company, L.P. Systems and methods for converting a PDF file
US8380753B2 (en) * 2011-01-18 2013-02-19 Apple Inc. Reconstruction of lists in a document
US8543911B2 (en) 2011-01-18 2013-09-24 Apple Inc. Ordering document content based on reading flow
US9690770B2 (en) 2011-05-31 2017-06-27 Oracle International Corporation Analysis of documents using rules
US10452764B2 (en) 2011-07-11 2019-10-22 Paper Software LLC System and method for searching a document
US10572578B2 (en) 2011-07-11 2020-02-25 Paper Software LLC System and method for processing document
WO2013009879A1 (en) * 2011-07-11 2013-01-17 Paper Software LLC System and method for processing document
AU2012281166B2 (en) 2011-07-11 2017-08-24 Paper Software LLC System and method for processing document
US9280525B2 (en) * 2011-09-06 2016-03-08 Go Daddy Operating Company, LLC Method and apparatus for forming a structured document from unstructured information
US8881002B2 (en) 2011-09-15 2014-11-04 Microsoft Corporation Trial based multi-column balancing
US8850305B1 (en) * 2011-12-20 2014-09-30 Google Inc. Automatic detection and manipulation of calls to action in web pages
US9047533B2 (en) * 2012-02-17 2015-06-02 Palo Alto Research Center Incorporated Parsing tables by probabilistic modeling of perceptual cues
US9977876B2 (en) 2012-02-24 2018-05-22 Perkinelmer Informatics, Inc. Systems, methods, and apparatus for drawing chemical structures using touch and gestures
JP5984439B2 (ja) * 2012-03-12 2016-09-06 キヤノン株式会社 画像表示装置、画像表示方法
US9384172B2 (en) 2012-07-06 2016-07-05 Microsoft Technology Licensing, Llc Multi-level list detection engine
US9632990B2 (en) * 2012-07-19 2017-04-25 Infosys Limited Automated approach for extracting intelligence, enriching and transforming content
US9280520B2 (en) 2012-08-02 2016-03-08 American Express Travel Related Services Company, Inc. Systems and methods for semantic information retrieval
US9483740B1 (en) 2012-09-06 2016-11-01 Go Daddy Operating Company, LLC Automated data classification
US9516089B1 (en) * 2012-09-06 2016-12-06 Locu, Inc. Identifying and processing a number of features identified in a document to determine a type of the document
US10013488B1 (en) * 2012-09-26 2018-07-03 Amazon Technologies, Inc. Document analysis for region classification
US20140101544A1 (en) * 2012-10-08 2014-04-10 Microsoft Corporation Displaying information according to selected entity type
KR101319966B1 (ko) * 2012-11-12 2013-10-18 한국과학기술정보연구원 전자 서식 변환 장치 및 방법
US9535583B2 (en) 2012-12-13 2017-01-03 Perkinelmer Informatics, Inc. Draw-ahead feature for chemical structure drawing applications
US8854361B1 (en) 2013-03-13 2014-10-07 Cambridgesoft Corporation Visually augmenting a graphical rendering of a chemical structure representation or biological sequence representation with multi-dimensional information
EP2973005A1 (en) 2013-03-13 2016-01-20 Perkinelmer Informatics, Inc. Systems and methods for gesture-based sharing of data between separate electronic devices
US9430127B2 (en) 2013-05-08 2016-08-30 Cambridgesoft Corporation Systems and methods for providing feedback cues for touch screen interface interaction with chemical and biological structure drawing applications
US9751294B2 (en) 2013-05-09 2017-09-05 Perkinelmer Informatics, Inc. Systems and methods for translating three dimensional graphic molecular models to computer aided design format
CN104517106B (zh) * 2013-09-29 2017-11-28 北大方正集团有限公司 一种列表识别方法与系统
US10031836B2 (en) * 2014-06-16 2018-07-24 Ca, Inc. Systems and methods for automatically generating message prototypes for accurate and efficient opaque service emulation
US10275458B2 (en) * 2014-08-14 2019-04-30 International Business Machines Corporation Systematic tuning of text analytic annotators with specialized information
US9648164B1 (en) 2014-11-14 2017-05-09 United Services Automobile Association (“USAA”) System and method for processing high frequency callers
US10652739B1 (en) 2014-11-14 2020-05-12 United Services Automobile Association (Usaa) Methods and systems for transferring call context
US10360294B2 (en) * 2015-04-26 2019-07-23 Sciome, LLC Methods and systems for efficient and accurate text extraction from unstructured documents
US9959257B2 (en) * 2016-01-08 2018-05-01 Adobe Systems Incorporated Populating visual designs with web content
US10572545B2 (en) 2017-03-03 2020-02-25 Perkinelmer Informatics, Inc Systems and methods for searching and indexing documents comprising chemical information
TWI709080B (zh) * 2017-06-14 2020-11-01 雲拓科技有限公司 申請專利範圍之結構組構裝置
US10339212B2 (en) * 2017-08-14 2019-07-02 Adobe Inc. Detecting the bounds of borderless tables in fixed-format structured documents using machine learning
US10891419B2 (en) 2017-10-27 2021-01-12 International Business Machines Corporation Displaying electronic text-based messages according to their typographic features
US10572587B2 (en) * 2018-02-15 2020-02-25 Konica Minolta Laboratory U.S.A., Inc. Title inferencer
US10691936B2 (en) * 2018-06-29 2020-06-23 Konica Minolta Laboratory U.S.A., Inc. Column inferencer based on generated border pieces and column borders
US10699112B1 (en) * 2018-09-28 2020-06-30 Automation Anywhere, Inc. Identification of key segments in document images
US11036916B2 (en) * 2018-11-30 2021-06-15 International Business Machines Corporation Aligning proportional font text in same columns that are visually apparent when using a monospaced font
US10824894B2 (en) * 2018-12-03 2020-11-03 Bank Of America Corporation Document content identification utilizing the font
US11468346B2 (en) * 2019-03-29 2022-10-11 Konica Minolta Business Solutions U.S.A., Inc. Identifying sequence headings in a document
US10956731B1 (en) * 2019-10-09 2021-03-23 Adobe Inc. Heading identification and classification for a digital document
US10949604B1 (en) 2019-10-25 2021-03-16 Adobe Inc. Identifying artifacts in digital documents
US11556852B2 (en) 2020-03-06 2023-01-17 International Business Machines Corporation Efficient ground truth annotation
US11361146B2 (en) * 2020-03-06 2022-06-14 International Business Machines Corporation Memory-efficient document processing
US11494588B2 (en) 2020-03-06 2022-11-08 International Business Machines Corporation Ground truth generation for image segmentation
US11495038B2 (en) 2020-03-06 2022-11-08 International Business Machines Corporation Digital image processing
US11194953B1 (en) * 2020-04-29 2021-12-07 Indico Graphical user interface systems for generating hierarchical data extraction training dataset
US10970458B1 (en) * 2020-06-25 2021-04-06 Adobe Inc. Logical grouping of exported text blocks
US11423206B2 (en) * 2020-11-05 2022-08-23 Adobe Inc. Text style and emphasis suggestions
US12032651B2 (en) * 2022-04-01 2024-07-09 Wipro Limited Method and system for extracting information from input document comprising multi-format information
US11907643B2 (en) * 2022-04-29 2024-02-20 Adobe Inc. Dynamic persona-based document navigation

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3585279D1 (de) * 1984-11-14 1992-03-05 Canon Kk Bildverarbeitungssystem.
US5220657A (en) * 1987-12-02 1993-06-15 Xerox Corporation Updating local copy of shared data in a collaborative system
US5131053A (en) * 1988-08-10 1992-07-14 Caere Corporation Optical character recognition method and apparatus
US5159667A (en) * 1989-05-31 1992-10-27 Borrey Roland G Document identification by characteristics matching
US5701500A (en) * 1992-06-02 1997-12-23 Fuji Xerox Co., Ltd. Document processor
EP0663090A4 (en) * 1992-10-01 1996-01-17 Quark Inc MANAGEMENT AND COORDINATION OF A PUBLICATION SYSTEM.
US5848184A (en) * 1993-03-15 1998-12-08 Unisys Corporation Document page analyzer and method
JP2618832B2 (ja) * 1994-06-16 1997-06-11 日本アイ・ビー・エム株式会社 文書の論理構造の解析方法及びシステム
US5678053A (en) * 1994-09-29 1997-10-14 Mitsubishi Electric Information Technology Center America, Inc. Grammar checker interface
JPH1063744A (ja) * 1996-07-18 1998-03-06 Internatl Business Mach Corp <Ibm> 文書のレイアウト解析方法及びシステム
US5956737A (en) * 1996-09-09 1999-09-21 Design Intelligence, Inc. Design engine for fitting content to a medium
US6081262A (en) * 1996-12-04 2000-06-27 Quark, Inc. Method and apparatus for generating multi-media presentations
JPH10228473A (ja) * 1997-02-13 1998-08-25 Ricoh Co Ltd 文書画像処理方法、文書画像処理装置および記憶媒体
US5999664A (en) * 1997-11-14 1999-12-07 Xerox Corporation System for searching a corpus of document images by user specified document layout components
US6343377B1 (en) * 1997-12-30 2002-01-29 Netscape Communications Corp. System and method for rendering content received via the internet and world wide web via delegation of rendering processes
US6078924A (en) * 1998-01-30 2000-06-20 Aeneid Corporation Method and apparatus for performing data collection, interpretation and analysis, in an information platform
JP3692764B2 (ja) * 1998-02-25 2005-09-07 株式会社日立製作所 構造化文書登録方法、検索方法、およびそれに用いられる可搬型媒体
US6269188B1 (en) * 1998-03-12 2001-07-31 Canon Kabushiki Kaisha Word grouping accuracy value generation
JP3696731B2 (ja) * 1998-04-30 2005-09-21 株式会社日立製作所 構造化文書の検索方法および装置および構造化文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
US6243501B1 (en) * 1998-05-20 2001-06-05 Canon Kabushiki Kaisha Adaptive recognition of documents using layout attributes
US6343265B1 (en) * 1998-07-28 2002-01-29 International Business Machines Corporation System and method for mapping a design model to a common repository with context preservation
US6880122B1 (en) * 1999-05-13 2005-04-12 Hewlett-Packard Development Company, L.P. Segmenting a document into regions associated with a data type, and assigning pipelines to process such regions
US6542635B1 (en) * 1999-09-08 2003-04-01 Lucent Technologies Inc. Method for document comparison and classification using document image layout
US6694053B1 (en) * 1999-12-02 2004-02-17 Hewlett-Packard Development, L.P. Method and apparatus for performing document structure analysis
US6912555B2 (en) * 2002-01-18 2005-06-28 Hewlett-Packard Development Company, L.P. Method for content mining of semi-structured documents
US20030154071A1 (en) * 2002-02-11 2003-08-14 Shreve Gregory M. Process for the document management and computer-assisted translation of documents utilizing document corpora constructed by intelligent agents

Also Published As

Publication number Publication date
WO2003098370A2 (en) 2003-11-27
NZ536775A (en) 2007-11-30
AU2003233278A1 (en) 2003-12-02
MXPA04011507A (es) 2005-09-30
US20040006742A1 (en) 2004-01-08
EP1508080A2 (en) 2005-02-23
CA2486528C (en) 2010-04-27
IS7525A (is) 2004-11-11
CA2486528A1 (en) 2003-11-27
WO2003098370A3 (en) 2004-08-05

Similar Documents

Publication Publication Date Title
JP2005526314A (ja) 文書構造識別器
Tkaczyk et al. CERMINE: automatic extraction of structured metadata from scientific literature
US7313754B2 (en) Method and expert system for deducing document structure in document conversion
US9135249B2 (en) Number sequences detection systems and methods
US7705848B2 (en) Method of identifying semantic units in an electronic document
JP4808705B2 (ja) 文書情報マイニングツール
JP3640972B2 (ja) ドキュメントの解読又は解釈を行う装置
JP4343213B2 (ja) 文書処理装置および文書処理方法
US8577887B2 (en) Content grouping systems and methods
US20140304579A1 (en) Understanding Interconnected Documents
JP2007226792A (ja) 目次抽出におけるロバスト性向上
CN110704570A (zh) 一种连续页版式文档结构化信息提取方法
Nurminen Algorithmic extraction of data in tables in PDF documents
CN110770735A (zh) 具有嵌入式数学表达式的文档的编码转换
KR20120051419A (ko) 종속형 스타일 시트 규칙 추출 장치 및 방법
JP4787955B2 (ja) 対象文書からキーワードを抽出する方法、システムおよびプログラム
Nguyen et al. Web document analysis based on visual segmentation and page rendering
Kamola et al. Image-based logical document structure recognition
Belaïd Retrospective document conversion: application to the library domain
CN113779218A (zh) 问答对构建方法、装置、计算机设备和存储介质
Amano et al. Table form document analysis based on the document structure grammar
Berg High precision text extraction from PDF documents
Burget Visual area classification for article identification in web documents
Shere et al. Identifying and Extracting Hierarchical Information from Business PDF Documents
Wang MECA: Mathematical Expression Based Post Publication Content Analysis