JP2023509996A

JP2023509996A - 順序付けられた比較器を使用する文書情報抽出システム

Info

Publication number: JP2023509996A
Application number: JP2022542891A
Authority: JP
Inventors: シングワリアプラブディープ; クシュワハヴィカス
Original assignee: ゴールドマンサックスアンドカンパニーエルエルシー
Priority date: 2020-01-13
Filing date: 2021-01-12
Publication date: 2023-03-10
Also published as: WO2021144683A1; EP4091088A1; CN115244538A; US20230267154A1; US11657101B2; US20210216595A1; EP4091088A4

Abstract

文書情報抽出システムは、文書の構成要素の特性に基づいて、電子文書の構造を決定する。そのシステムは、文書を分割することにより、各要素が類似の特性を有する複数の要素を生成する。複数の要素は、文書構造の決定を支援するためにクラスター化され得る。システムは、複数の要素間の方向関係（例えば、上方、下方等）を決定する。それから、システムは、近接する複数の要素間の家族性関係を決定するように、マスタ比較器を適用する。マスタ比較器は、ユニット比較器のセットを含み、各ユニット比較器は、二つの要素間における特定の特性を比較する。マスタ比較器は、その比較に基づいて家族性関係を決定するように、ユニット比較器を順次付けて適用する。システムは、決定された家族性関係を反映する文書の階層ツリーを出力する。階層ツリーは、文書の構造を表す。

Description

本発明は、概して文書の構造を決定することに関連し、特に、決定された構造に基づいて文書から情報を抽出することに関連する。

文書における情報の抽出は、文書から選択されたトピックに関連した特定の情報、または、情報の種類に関する検索である。情報の抽出は、文書内において特定の項目、単語、行等（「情報」）の位置を決定する。抽出された情報は、その情報を効率的に分類して目録を作成することを可能とする基本的な構造を有し得る。

自動化された文書の抽出は、技術的に複雑なプロセスであり、不都合なことに、文書から情報を正確に抽出することは、現行の解決策を使用すると、間違いを起こし易い。多数の文書は一般的な構造を共有するが、どのようにその構造が文書の情報に埋め込まれて、反映されるのかということが一致しないという事実に、これらの問題の多くは由来する。例えば、様々な文書は、様々な方法で、節、見出し、小見出し等の書式を設定する。したがって、その埋め込みに関係することなく、システムが文書の構造を正確に決定することを可能にする方法は、有益であることになる。

文書情報抽出システムは、文書の構成要素に関する特性に基づいて、電子文書の構造を決定する。文章の構造は、文書における情報の高レベルな表現である。例として、その構造は、文書内の情報に関する階層ツリー構造であり得る。

文書内の要素は、その構成部分であり、文書に含まれる情報の一部を表す。例として、要素は、文書において単語、または、単語のセットであり得る。その要素の特性は、視覚的特性および／または位置特性を含み得る。例示すると、視覚的特性はフォントサイズであってよいし、一方、位置特性は座標であってよい。

システムは、分割により文書における要素を判定する。文書を分割することは、類似の特性を有する文書における情報を識別して、クラスター化する。例えば、システムは、文書を多数の単語に分割し得る。あるいは、より堅実には、システムは、文書を多数の文字に分割し、文字を異なる単語にグループ化し、さらに、単語をテキストの行にグループ化し得る。文字が類似のｙ座標およびフォントサイズを有することから、システムは文字をグループ化し得る。分割およびクラスター化に関する類似の例も可能である。

システムは、要素間の方向関係を判定することにより、構造の決定を支援し得る。方向関係は、位置特性の重なり合いを有する要素間における近接の種類を規定する。例えば、システムは、第二の要素に近接する第一の要素が、「右方」という方向関係を有することを決定し得る。

さらに、システムは、要素の位置に基づいて要素をクラスター化することにより、構造の決定を支援し得る。クラスターは、類似の位置特性および／または視覚的特性の少なくとも一つをともなう幾つかの要素を含む。例えば、クラスターは、文書の特定領域（例えば、節、リスト等）における全ての要素をグループ化し得る。別の例として、クラスターは、類似のフォントスタイル（例えば、太字）を有する全ての要素をグループ化し得る。

システムは、要素間の家族性関係を判定することにより、文書の構造を決定する。家族性関係は、親、子、兄弟、および、無関係を含む。その関係は、文書構造における階層的な繋がりを表す。さらに、その関係は、文書ツリーとして構造の視覚化を可能とする。

システムは、文書において、要素間またはクラスター間の特性を比較することにより、家族性関係を決定する。そうするため、システムは、ユニット比較器のセットを含むマスタ比較器を使用する。各ユニット比較器は、二つの要素間における特定の特性を比較し、家族性関係を判定する。しかしながら、単体のユニット比較器は、家族性関係を誤って判定することがある。そのようなものとして、マスタ比較器は、複数のユニット比較器を順序付けて使用し、複数のユニット比較器の順序付けられた結果に基づいて、複数の要素間における正確な家族性関係を出力する。複数のユニット比較器に関する順序および選択は、文書構造を正確に決定するように、システムの設計者によって行われる。

マスタ比較器は、索引付け、書式設定、および／または、他の特性に基づいて、構造を識別するための複数のユニット比較器を含むことができる。さらに、マスタ比較器は、横方向および縦方向の両方における家族性関係を識別することができる。結局、システムは、文書内において要素の祖父母および孫を分析することにより、家族性関係を検証することができる。

システムは、決定された家族性関係を使用して、文書の構造を表す文書ツリーを生成する。システムは、名前付きのエンティティのタグ付けを使用して視覚化を実装することにより、文書ツリーを活用してそのエンティティ間の関係を見付ける。結局、視覚化は、文書の構造を要求する利用者に応じて生成され得る。

実施形態の一例に係る、文書情報抽出システムに関する環境を例証する図である。実施形態の一例に係る、文書情報抽出システムの表現を例証するブロック図である。実施形態の一例に係る、文書情報抽出システムを使用し、文書から情報を抽出するためのプロセスの流れを例証する図である。実施形態の一例に係る、コンピュータシステムの表現を例証するブロック図である。

図面は、例証の目的のみのために本開示における種々の実施形態を描写する。当業者は、本明細書で説明される構造および方法に関する代替的な実施形態が、本明細書で記述される開示の原則から逸脱することなく、適用され得ることを、後続する議論から容易に理解することになる。

［文書情報抽出の環境］
図１は、一つの例に係る、文書情報抽出エンジンに関するシステム環境を例証する。環境１００は、クライアント装置１１０と、ネットワーク１３０を経由して通信する文書情報抽出（「ＤＩＥ」）システム１２０とを含む。

クライアント装置１１０は、電子文書に対して生成、アクセス、または、受信を行うことを可能とする演算装置である。例えば、実施形態において、クライアント装置１１０は、文書処理ソフトウェアを使用して、文書を生成するように構成されたラップトップコンピュータである。他の例において、クライアント装置１１０は、個人用携帯情報端末（ＰＤＡ）、携帯電話、スマートフォン、または、別の適切な装置などの、コンピュータ機能を有する装置であり得る。クライアント装置１１０は、ネットワーク１３０を介してＤＩＥシステム１２０と通信するように構成される。例えば、実施形態において、クライアント装置１１０は、携帯電話ネットワーク１３０を介してＤＩＥシステム１２０に通信するように構成された携帯電話であり得る。

ＤＩＥシステム１２０は、クライアント装置１１０から文書を受信し、それに応じて文書の構造を決定する。文書の構造は、情報の階層構造のような、文書における情報の高レベルな表現である。その構造は、ツリー構造のような視覚化として表現され得る。以下でより詳細に説明するように、その構造を決定するために、ＤＩＥシステム１２０は、文書を要素に分割し、要素間の家族性関係を判定し、判定された家族性関係に基づいて文書の構造を決定する。ＤＩＥシステム１２０は、ネットワーク１３０を介してクライアント装置１１０にその構造を提供し得る。

ネットワーク１３０は、有線および／または無線の両方の通信システムを使用して、ローカルエリアおよび／またはワイドエリアのネットワーク１３０の任意の組合せを含む。ネットワーク１３０は、種々の通信技術および／または通信プロトコルを使用し得る。例えば、ネットワーク１３０は、イーサネット、８０２．１１、３Ｇ、４Ｇ、デジタル加入者線（ＤＳＬ）等などの通信技術を利用し得る。ネットワーク１３０は、ネットワーク１３０を介して情報を通信するためのネットワーク１３０のプロトコルを適用することもある。プロトコルに関する幾つかの例は、伝送制御プロトコル／インターネットプロトコル（ＴＣＰ／ＩＰ）、ハイパーテキスト転送プロトコル（ＨＴＴＰ）、簡易メール転送プロトコル（ＳＭＴＰ）、ファイル転送プロトコル（ＦＴＰ）等を含み得る。ネットワーク１３０を経由して交換されたデータは、ハイパーテキスト転送プロトコル（ＨＴＭＬ）、または、拡張マークアップ言語（ＸＭＬ）などの、任意の適切な書式設定を使用して表現され得る。幾つかの実施形態において、ネットワーク１３０における通信リンクの全部または一部は、任意の適切な技術、または、複数の技術を用いて使用し得る。

環境１００は、他の構成を選択し得る。例示すると、実施形態の例において、ＤＩＥシステム１２０は、ネットワーク１３０を介してクライアント装置１１０に接続されるリモートシステムではなく、クライアント装置１１０に実装され得る。例えば、ＤＩＥシステム１２０は、クライアント装置１１０において実行する文書処理システムに関するプラグインとして実装され得る。この場合、ＤＩＥシステム１２０は、文書処理システムから文書を受信し、その構造を決定し、それに応じてその構造を文書処理システムへ提供し得る。別の例において、ＤＩＥシステム１２０は、クライアント装置１１０において単独で独立動作するプログラムであり得る。この場合、ＤＩＥシステム１２０は、クライアント装置１１０に保存される文書にアクセスし、その構造を決定し、それに応じてその構造の表現をプログラムに提供し得る。実施形態の別例において、ＤＩＥシステム１２０は、クライアント装置１１０において実行するアプリケーションを通してアクセス可能であるネットワーク１３０のシステムをとして実装され得る。この場合、多数のクライアント装置（図示されない）が、ＤＩＥシステム１２０に接続し、文書を提供し、それに応じて構造を受信し得る。

［文書情報抽出システム］
図２は、一つの実施形態に係る、文書情報抽出システムを例証するブロック図である。図２に示されるように、ＤＩＥシステム１２０は、分割モジュール２１０、近接モジュール２２０、クラスター化モジュール２３０、マスタ比較器２４０、検証モジュール２５０、視覚化モジュール２６０、および、抽出モジュール２７０を含む。図示されるように、マスタ比較器２４０は、３個のユニット比較器（例えば、概してユニット比較器２４２と参照される、ユニット比較器２４２Ａ、２４２Ｂ、および２４２Ｂ）を含むが、様々な個数のユニット比較器２４２を含むことが可能である。ＤＩＥシステム１２０に関する他の実施形態は、より少数の、付加的な、または、様々なモジュールを含み得て、その機能性は、モジュール間で異なるように分散され得る。

広範には、ＤＩＥシステム１２０は、文書を受信してその構造を決定する。そうするため、ＤＩＥシステム１２０は、文書における要素を判定し、要素間の方向関係を判定し、要素のクラスターを生成する。続いて、ＤＩＥシステム１２０は、要素（またはクラスター）間の階層的な関係を判定し、その階層的な関係に基づいて構造を決定し、その関係を使用して構造の視覚化を生成する。

［文書の分割］
ＤＩＥシステム１２０は、文書をその構成要素に分割する分割モジュール２１０を含む。要素は、文書の最小構成部分であり、文書に含まれる情報の一部を表す。複数の要素は、高レベルに、その構造によって表現され得る。例示すると、単語からなる頁である文書を検討してみる。文書における要素は、文書において構成要素である単語であり、その構造は、文書における単語によって表現される情報の階層的な順序である。

より広範には、複数の要素は、文書に見つけられ得る情報に関する様々な種類を表し得る。例えば、複数の要素は、情報を伝え得る文書において、文字、数字、単語、イメージ、テキストの行、または、何らかの他の要素を表し得る。さらに、以下でより詳細に記述されるように、文書における要素間の関係は、文書の構造を決定するための基礎を形成する。

文書における各要素は、一つまたは複数の視覚的特性を有し、文書における他の要素と共通して、一つまたは複数の視覚的特性を有し得る。説明すると、要素「Ｆ」は、例えば、フォントの種類、フォントサイズ、下線付き、大文字化を含む視覚的特性を有し得る。これは、単なる一例であり、視覚的特性に関する多数の他種類が可能である。例えば、視覚的特性は、フォントサイズ、フォントファミリー、文字の太さ、下線付け、大文字化、斜体化、フォントカラー、背景色、クラスター、および、バウンディングボックスを含み得る。他の例も可能である。

文書における各要素は、一つまたは複数の位置特性を有する。位置特性は、文書内における要素の位置に関する説明である。例として、要素「Ｆ」は、文書において座標（ｘ，ｙ）を有し得て、文書に関する位置特性は、その座標となる。他の例も可能である。種々の実施形態において、位置特性は、参照のための異なるフレームを有し得る。例えば、要素に関する位置特性は、要素の中心、要素を囲むボックスの左上等であり得る。さらに、位置特性は、位置に関連付けられ得る付加的な属性を含み得る。例えば、位置特性は、座標およびサイズであり得るが、そのサイズは、座標における要素のサイズ（例えば、要素バウンディングボックスのピクセルサイズ）である。どのような実装であっても、要素に関する位置特性は、文書における要素を空間的に配置するための方法をもたらす。

さらに、幾つかの実施形態において、要素の位置特性は、要素に関する視覚的座標を含むこともある。視覚的座標は、文書内におけるその絶対的な位置ではなく、要素に関する視覚的境界を表す。例えば、要素は、文書内において大量の空白に囲まれ得る。この場合、文書に関する視覚的座標は、文書を囲む空白の一部を含み得る。この方法において、文書内の要素に関する視覚的座標は、構造を決定する際に、文書内における要素の位置に関するより正確な表現をもたらし得る。

ＤＩＥシステム１２０は、文書における要素間の方向関係を判定する近接モジュール２２０を含む。方向関係は、位置特性の重なり合いを有する要素間に関する近接の種類を規定する。例として、文書における文字要素「ＴＸ」に対して、要素「Ｔ」は、要素「Ｘ」と方向関係を有する（そして、逆の場合も同様である）。特に、要素「Ｘ」は、「Ｔ」に対して「右」の方向関係を有し、要素「Ｔ」は、「Ｘ」に対して「左」の方向関係を有する。本来、より多くの方向関係が存在し得る。例えば、方向関係は、上、下、左、右等を含み得る。

近接モジュール２２０は、二つの要素間の方向関係を、それらの位置特性を比較することにより、判定する。位置特性が近接および／または重複である場合、近接モジュール２２０は、妥当な方向関係を判定する。前出の例を参照すると、要素「Ｔ」は、（１２３２，８５５，１４，８）という位置特性を有するが、ピクセル単位で、１２３２はｘ座標であり、８５５はｙ座標であり、１４は高さであり、８は幅である。要素「Ｘ」は、同一の座標系において（１２４０，８５５，１４，１０）という位置特性を有する。そのため、要素「Ｘ」のｘ座標が要素「Ｔ」と重複し、要素「Ｔ」より大きいｘ座標を有することから、近接モジュール２２０は、要素「Ｘ」が要素「Ｔ」の右側にあると判定する。近接モジュール２２０は、同様にして、要素「Ｔ」が要素「Ｘ」の左側にあると判定する。

要素とそれらの判定された方向関係とは、文字以外の要素を含み得る。例えば、文書は、二つのテキスト要素「ＧＯ」および「ＥＡＲＴＨＱＵＡＫＥＳ」を含み得る。この場合、要素は、単語全体を表す位置座標を有し、近接モジュール２２０は、単語「ＥＡＲＴＨＱＵＡＫＥＳ」が「ＧＯ」の右側にあり、単語「ＧＯ」が「ＥＡＲＴＨＱＵＡＫＥＳ」の左側にあると判定する。近接モジュール２２０は、様々な種類の要素間における方向関係を判定することもある。例えば、文書は、テキスト要素「ＬＵＶＵ」と、ハートの絵文字であるイメージ要素とを含み得る。この場合、要素の各々は、文書におけるそれらの位置を説明する位置座標を有し、近接モジュール２２０は、その二つの間の方向関係を判定することができる。

ＤＩＥシステム１２０は、複数の要素を、それらの位置特性に基づいてクラスターにグループ化するクラスター化モジュール２３０を含む。例として、文書は、「ＢＡＣＯＮ」、「ＬＥＴＴＵＣＥ」、「ＴＯＭＡＴＯ」、「ＢＲＥＡＤ」、および「ＭＡＹＯＮＡＩＳＥ」をそれぞれ含むテキスト要素の列を含む。その列において、最初の４単語は、引き続く４行にあるが、単語「ＭＡＹＯＮＡＩＳＥ」は、単語「ＢＲＥＡＤ」の５行後である。クラスター化モジュール２３０は、複数の要素を、文書内におけるそれらの位置に基づいてグループ化する。例示すると、クラスター化モジュール２３０は、「ＢＡＣＯＮ」を含むクラスターを作成する。クラスター化モジュール２３０は、そのクラスターに追加され得る近くの要素のために文書を調べる。ここで、要素「ＬＥＴＴＵＣＥ」が要素「ＢＡＣＯＮ」から最大の閾値距離未満にあることを、「ＬＥＴＴＵＣＥ」に関する位置特性が示すことから、クラスター化モジュール２３０は、「ＢＡＣＯＮ」を含むクラスターに「ＬＥＴＴＵＣＥ」を追加する。クラスター化モジュール２３０は、閾値距離内にある要素が無くなるまで、クラスターに追加するように、複数の要素に対して調査を継続する。この場合、クラスター化モジュール２３０は、単語「ＢＡＣＯＮ」、「ＬＥＴＴＵＣＥ」、「ＴＯＭＡＴＯ」および「ＢＲＥＡＤ」を、それらが相互に閾値距離内にあることから、クラスター化する。クラスター化モジュール２３０は、要素「ＭＡＹＯＮＡＩＳＥ」を、それがクラスター化された要素からあまりに離れて位置することから、含めない。

クラスター化モジュール２３０は、種々の方法でクラスターを生成し得る。例えば、上述した通り、クラスター化モジュール２３０は、要素間の縦方向距離に基づいて、クラスターを生成し得る。しかしながら、他の実施形態において、クラスター化モジュール２３０は、要素間における横方向距離、絶対的な近接、相対的な近接等に基づいて、クラスターを生成し得る。より一般的には、クラスター化モジュール２３０は、その構成要素の位置特性に反映される文書の基本的な構造に基づいて、クラスターを生成する。

［比較器］
ＤＩＥシステム１２０は、文書における要素間の家族性関係を、それらの（例えば、位置、視覚的）特性を比較することにより、決定するマスタ比較器２４０を含む。複数の要素間の家族性関係は、文書の階層構造を確定するために使用され得る。マスタ比較器２４０は、分割モジュール２１０がその文書を要素に分割済みであり、近接モジュール２２０がその文書における要素間の方向関係を判定済みであり、クラスター化モジュール２３０がその文書における要素をクラスター化済みである、文書を比較する。

マスタ比較器２４０は、二つの要素（例えば、第一の要素および第二の要素）を比較することにより、それらの特性の一つまたは複数に基づいて家族性関係を決定する。マスタ比較器２４０は、要素間における四つの関係、すなわち、親、子、兄弟、および無関係の内の一つを決定し得る。その関係を明確化すると、（１）第一の要素が文書の階層において第二の要素の真上にある場合、第一の要素は第二の要素にとって親であり、（２）第一の要素が文書の階層において第二の要素の真下にある場合、第一の要素は第二の要素にとって子であり、（３）第一の要素および第二の要素が文書の階層において同一のレベルにある場合、第一の要素は第二の要素にとって兄弟であり、（４）第一の要素および第二の要素に文書の階層において繋がりがない場合、第一の要素は第二の要素にとって無関係である。第一の要素および第二の要素を比較する際に、第一の要素が第二の要素に対して親、兄弟、または、無関係であり得ることをそれぞれ示すように、マスタ比較器２４０の出力は、１、０、または－１となり得る。種々の実施形態において、家族性関係は、例えば、孫、曾祖父母等などの、要素間のより拡張された関係を含み得る。

マスタ比較器２４０は、マスタ比較器２４２が要素間の家族性関係を決定することを可能とする複数の比較器２４２を含む。ユニット比較器２４２は、複数の要素における単一の特性を分析することにより、第一の要素および第二の要素の間における家族性関係（例えば、１、０、－１の判定）を決定する。すなわち、ユニット比較器２４２は、一つの特性を比較するが、マスタ比較器２４０は、その構成要素である複数のユニット比較器（例えば、マスタ比較器２４０におけるユニット比較器２４２Ａ、２４２Ｂ、および２３２Ｃ）を使用して、複数の特性を比較する。

ユニット比較器２４２によって分析される特性は、視覚的特性および／または位置特性であり得る。例えば、第一のユニット比較器２４２Ａは、第一の要素および第二の要素の間におけるフォントサイズを比較することにより、家族性関係を決定し得て、第二のユニット比較器２４２Ｂは、第一の要素および第二の要素の間における座標を比較することにより、家族性関係を決定し得て、第三のユニット比較器２４２Ｃは、第一の要素および第二の要素の間における文字の太さを比較し得る。他の例も可能である。

複数のユニット比較器２４２は、マスタ比較器２４０を形成するために直列に接続されている。すなわち、マスタ比較器２４０の内部における複数のユニット比較器２４２は、二つの要素の特性を順次に比較することにより、家族性関係を決定する。例示すると、例えば、５個のユニット比較器２４２を含むマスタ比較器２４０を検討してみる。マスタ比較器２４０は、第一のユニット比較器２４２を使用して、二つの要素における第一の特性を比較し、第二のユニット比較器２４２を使用して、二つの要素における第二の特性を比較し、第三のユニット比較器２４２を使用して、二つの要素における第三の特性を比較する、などとなる。

このアーキテクチュアにおいて、ユニット比較器２４２の結果がゼロ以外になる（例えば、親関係または無関係の関係が見付けられる）と、マスタ比較器２４０は、複数のユニット比較器２４２を用いた要素の比較を停止する。ユニット比較器２４２がゼロ以外の結果を戻す場合、マスタ比較器２４０は、最新に呼び出されたユニット比較器２４２によって決定された二つの要素に間における関係を割り当てる。例示すると、前出の例を継続して、マスタ比較器２４０は、ゼロ以外の結果が見出されるまで、５個のユニット比較器２４２を順次に使用することにより、二つの要素間における家族性関係を決定する。第一の例において、複数のユニット比較器２４２は、二つの要素が兄弟であることを示す「０，０，０，０，０」を戻す。第二の例において、複数のユニット比較器２４２は、二つの要素が無関係であることに示す「０，０，０，－１」を戻す。第三の例において、複数のユニット比較器２４２は、第一の要素が第二の要素にとって親であることを示す「０，１」を戻す。他の例も可能である。

このアーキテクチュアに起因して、マスタ比較器２４０において選択された複数のユニット比較器２４２およびそれらの順番は、文書の構造を正確に決定することを可能とする。例えば、マスタ比較器２４０は、家族性関係に関して最も示唆に富む視覚的特性および／または位置特性を比較するユニット比較器２４２を使用する必要がある。さらに、文書における要素間で比較する順序は、文書の構造を決定することにも役立つ。例えば、標準的な左から右へ、それから上から下への読む順序、ｙ座標による下から上へ、または、何らかの他の順序において、複数の要素が比較され得る。ＤＩＥシステム１２０の実装は、所望の通りにマスタ比較器２４０においてユニット比較器２４２の配列を構成することができる。種々の実施形態において、ＤＩＥシステム１２０は、文書の種類、文書における要素の種類、アプリケーション空間等に依存する、多種多様な比較器、比較器の配列、および、比較器の順序を適用する。マスタ比較器２４０を使用して文書の構造を決定するための幾つかの具体的な技法が本明細書に記述されるが、限定することを意図しない。より一般的には、ＤＩＥシステム１２０は、マスタ比較器２４０におけるユニット比較器２４２の配列を使用することにより、文書の構造を決定する。

［例：マスタ比較器に基づく書式設定］
実施形態において、ＤＩＥシステム１２０は、文書における要素の書式設定に基づいて、家族性関係を決定するように構成されたマスタ比較器２４０を使用し得る（「フォーマット構成」）。フォーマット構成において、マスタ比較器２４０は、ボトムアップかつ行単位の方法で親関係を決定するように構成されている。より具体的には、ある実施例において、第一の要素は、次の場合に第二の要素の親である。すなわち、（１）二つの要素間における視覚的座標に関する横方向のはみ出し部分が重なり合い、（２）第一の要素は第二の要素に対して上方の方向関係を有する。この構成において、第一の行における第一の要素が第二の行における第二の要素にとって子として確定される場合、第一の行における全ての要素は、第二の行における第二の要素にとって子として割り当てられる。さらに、幾つかの構成において、マスタ比較器２４０は、第一の要素に対する全ての兄弟を第二の要素に対する子として確定し得る。この方法において、文書の構造は、主に行単位の原則で確定される。

フォーマット構成において、マスタ比較器２４０は、他の特性に基づいて親関係を決定するために、他の比較器を使用することもある。例えば、マスタ比較器２４０は、書式設定（例えば、フォントサイズ、クラスター、および、文字の太さ）に基づいて構造を示す可能性がより高いユニット比較器２４２を使用し得る。幾つかの構成において、マスタ比較器２４０は、書式設定（例えば、インデント、斜体、大文字化の色、要素の境界）に基づいて構造を示す可能性がより低い幾つかの他の比較器を使用することもある。他の比較器も可能である。

［例：マスタ比較器に基づく索引付け］
実施形態において、ＤＩＥシステム１２０は、文書における要素の索引付け要素（例えば、黒丸、番号付きリスト等）に基づいて、家族性関係を決定するように構成されたマスタ比較器２４０を使用し得る（「インデックス構成」）。インデックス構成において、マスタ比較器２４０は、左から右かつ上から下の方法で親関係を決定するように構成されている。ここで、行において他の要素の前にある索引付け要素は、索引付け要素を有する行における他の要素に親を自動的に割り当て得る。

例示すると、第一の行が「ＳＣＨＥＤＵＬＥ」と読めて、黒丸付きリストが後続の行で「・ＷＡＫＥＵＰ」、「・ＢＲＵＳＨＴＥＥＴＨ」、「・ＳＨＯＷＥＲ」、「・ＧＥＴＤＲＥＳＳＥＤ」、および「・ＧＯＴＯＷＯＲＫ」を含む状態で、文書を検討してみる。ＤＩＥシステム１２０は、マスタ比較器２４０を使用することにより、第一の行における要素「ＳＣＨＥＤＵＬＥ」が第二の行における要素「・ＷＡＫＥＵＰ」に対して親であることを決定する。ＤＩＥシステム１２０は、索引付けキャッシュにおいて第二の行における索引付け要素「・」を保存し、その要素を（１）その親、（２）その対応する位置特性（例えば、インデント）に関連付ける。この後は、マスタ比較器２４０は、索引付け要素に関連付けられた親の子として適切な位置特性（例えば、インデント）を有する、索引付け要素「・」を含む要素を自動的に割り当てる。この方法において、要素「・ＢＲＵＳＨＴＥＥＴＨ」、「・ＳＨＯＷＥＲ」、「・ＧＥＴＤＲＥＳＳＥＤ」、および「・ＧＯＴＯＷＯＲＫ」は、要素「ＳＣＨＥＤＵＬＥ」の子として割り当てられる。

類似の例として、第一の行が「ＦＡＭＩＬＹＳＣＨＥＤＵＬＥ」と読めて、番号付きリストが「１．ＤＡＮＳＣＨＥＤＵＬＥ」および「２．ＣＨＲＩＳＳＣＨＥＤＵＬＥ」を含む、文書を検討してみる。番号付きリストの各々は、上述したリストに類似する黒丸付きリストを含む。この例において、親は「ＦＡＭＩＬＹＳＣＨＥＤＵＬＥ」であり、その子は「ＤＡＤＳＣＨＥＤＵＬＥ」および「ＣＨＲＩＳＳＣＨＥＤＵＬＥ」である。子「ＤＡＤＳＣＨＥＤＵＬＥ」および「ＣＨＲＩＳＳＣＨＥＤＵＬＥ」の各々は、それらの対応する黒丸付きリストにおける要素となる子を有する。

ＤＩＥシステム１２０は、索引付けキャッシュおよび索引付け要素の位置特性を使用して、単体の文書内における幾つかの索引付け要素を追跡し得る。さらに、後続のインデックスに家族性関係を割り当てるために、最近のインデックスの登録のみが必要とされ得ることから、ＤＩＥシステム１２０は、新たな索引付けされた要素が見出された場合に、索引付けられた要素に関する任意の以前の登録を削除し得る。

[例：横方向の親に対するマスタ比較器］
前出の二つの例は、ＤＩＥシステム１２０が縦方向の関連性から親および子を示す（例えば、親は子の上方にある）構成を例証する。しかしながら、幾つかの文書において、親は、子と同一の行にあり得る。この場合、ＤＩＥシステム１２０は、横方向の家族性関係を決定するように構成されたマスタ比較器２４０を使用し得る（「横方向構成」）。

横方向構成において、ＤＩＥシステム１２０は、既に記述された（例えば、インデックス、フォーマット）構成を使用して、縦方向の方法で家族性関係を決定するようにマスタ比較器２４０を適用する。しかしながら、ここで、ＤＩＥシステム１２０は、文書において同一の横方向の位置で要素も比較するマスタ比較器２４０を使用する。マスタ比較器２４０は、縦方向の方法と類似する方法における横方向の方法で比較し得る。すなわち、第一の要素が第二の要素に対して左の方向関係を有し、第二の要素が親子関係を満たすために必要な任意の他の比較（例えば、文字の太さ、インデント等）を満足する場合、第一の要素は第二の要素の親として確定される。横方向構成に関する幾つかの例において、マスタ比較器２４０は、インデックス構成に類似する要素を含むこともできる。例えば、要素がキーと値との区切り記号（例えば、コロン）を含む場合、マスタ比較器２４０は、キー値区切り文字の後にある要素がキー値区切り文字を含む要素の子であることを確定し得る。他の同様な例も可能である。

横方向構成において、ＤＩＥシステム１２０は、既に割り当てられた縦方向の親が横方向に識別された要素の親でもあるかどうかを決定するように、マスタ比較器２４０を使用することもある。そうするために、マスタ比較器２４０は、要素の位置特性を使用することにより、縦方向に位置する親を決定し得る。

［例：複数行の親に対するマスタ比較器］
前出の例は、ＤＩＥシステム１２０が縦方向および／または横方向の関連性から親および子を認識する、構成を説明している。しかしながら、幾つかの文書において、親は、複数の行にまたがることがあり、ＤＩＥシステム１２０は、これら複数行の親（「共同の親」）をさらに認識することができる。

共同の親を認識するために、ＤＩＥシステム１２０は、近接の要素を比較するように、マスタ比較器２４０を適用する。そのため、ＤＩＥシステム１２０は、親の要素と上方または下方のいずれかの方向関係を有する近接の要素に親の要素を比較することにより、それらが近接する親であるかどうかを決定するように、マスタ比較器２４０を適用する。マスタ比較器２４０は、次の場合に共同の親として近接の親を認識する。すなわち、（１）潜在的な共同の親は子を有せず、（２）共同の親は同一の親を有し、（３）共同の親は階層的な比較によって兄弟として識別される。

［例：親の検証］
ＤＩＥシステム１２０は、マスタ比較器２４０によって決定された家族性関係を検証する検証モジュール２５０を含む。家族性関係を検証するために、検証モジュール２５０は、本明細書で記述されるように、マスタ比較器２４０を使用することにより、孫および祖父母の関係を有する第一の要素および第二の要素を比較する。すなわち、検証モジュール２５０は、孫の要素を祖父母の要素と比較するように、マスタ比較器２４０を適用する。

孫を祖父母と比較することは、ＤＩＥシステム１２０がより大きな関連性を必要とする親子関係を見付けることを可能とする。説明すると、例えば、複数の節を含む章を含む文書を検討してみるが、各節は対応する小節を含む。各節におけるテキストは普通であるが、一方で、各小節におけるテキストは斜体化されている。構成に依存すると、ＤＩＥシステム１２０は、親、子、孫、曾孫等として、それが文書を下に（または、上に）移動するにつれ、代替する書式設定を識別し得る。その関係を検証するため、検証モジュール２５０は、マスタ比較器２４０を使用して、孫の要素を祖父母の要素と比較する。その二つの要素が兄弟であるとマスタ比較器２４０が決定する（例えば、マスタ比較器２４０が「０」を戻す）場合、家族性関係はそれに応じて更新される。例えば、前出の例を使用すると、各節がそれらの小節の親であり、各節が兄弟であり、章が節に対する親であり、章が小節に対する祖父母であることを、検証モジュール２５０は保証することになる。

［応用］
ＤＩＥシステム１２０は、文書の構造に関する視覚化を生成する視覚化モジュール２６０を含む。再びとなるが、文書の構造は、文書における情報の階層であり、マスタ比較器２４０によって決定される家族性関係によって表現され得る。したがって、視覚化は、文書内の情報に関して容易に理解できる構造的な表現を作り出す。

例として、視覚化モジュール２６０は、利用者から受信された文書の構造を表すための文書ツリーを生成する。文書ツリーは、階層的なツリーとして表現される親、子、孫、祖父母等の間における様々な結合をともなう、家族ツリーと構造に関して類似している。ＤＩＥシステム１２０は、文書ツリーとして構造を表す視覚化を作り出し、利用者へ文書ツリーを提供する。文書ツリーは、利用者が文書の構造を調べることを可能とする。

文書ツリーは、視覚化ではなく、文書に関連付けられたデータ構造またはメタデータとして表現されることもある。他の視覚化も可能である。例えば、視覚化モジュール２６０は、文書の構造を表すために、折り畳み可能なリスト、概要、または、何らかの他の視覚化を生成し得る。視覚化は、ＤＩＥシステム１２０、または、何か他の人に文書を送信する人に提供され得る。

ＤＩＥシステム１２０は、クライアントシステム１１０から受信された要求に応答して、視覚化を生成し得る。その要求は、任意の適切な基準（特性の種類、クラスター、比較器の構成等）に準じて視覚化を生成するための要求を含み得る。一旦生成されると、視覚化は、要求するクライアントシステム１１０に送信され得る。

ＤＩＥシステム１２０は、文書の構造に基づいて文書から情報を抽出する抽出モジュール２７０を含む。例えば、ＤＩＥシステム１２０の利用者は、特定の階層レベル（例えば、節見出し）で文書に含まれた全ての情報を要求し得て、抽出モジュール２７０は、それに応じて情報を提供する。別の例において、ＤＩＥシステム１２０は、文書における特定の要素に関する視覚的特性を要求し得て、抽出モジュール２７０は、それに応じてそれらの特性にアクセスして、提供し得る。抽出モジュール２７０は、抽出された情報を使用することにより、文書の視覚化（例えば、文書ツリー）を実装し得る。

抽出モジュール２７０は、文書から情報を抽出する際に、名前付きのエンティティ・リンキング（ＮＥＬ）を実行することもある。エンティティ・リンキングにおいて、興味ある単語（例えば、人、場所、組織の名称等）は、テキストからターゲット知識ベースにおいて対応するエンティティにマッピングされる。興味ある単語は、名前付きエンティティ（ＮＥ）と呼ばれ、ここで、名前付きエンティティは、任意の要素、または、要素の部分であり得る。名前付きリンキングに対するターゲット知識ベースは、ＤＩＥシステム１２０の利用者、文書の種類、または、ＤＩＥシステム１２０に適切である任意の他のターゲット知識ベースに基づくことがある。例として、文書における親は、「ＤＡＮ’ＳＢＲＯＷＮＩＥＨＥＡＶＥＮ，ＬＴＤ．，」であり得て、子は、「ＥＭＰＬＯＹＥＥＳ」であり得て、孫は、「ＣＨＲＩＳ」および「ＤＡＮ」であり得る。この例において、抽出モジュール２７０は、親の要素が「ｏｒｇａｎｉｚａｔｉｏｎ」であり、子の要素が「ｒｏｌｅ」であり、孫の要素が「ｐｅｒｓｏｎｓ」であると識別し得る。ＮＥＬを含む抽出システム２７０は、文書の構造に付加的な関連性を提供し得る。

［実装例］
図３は、実施形態の一例に係る、文書情報抽出システムを使用して文書から情報を抽出するためのプロセスフローを例証する。プロセスフローは、図１において記述された環境に類似する環境において実装され得るが、異なる環境において実装することも可能である。プロセスは、文書から情報を抽出するための幾つかのステップを含むが、種々の他の実施形態において、プロセスは、付加的なステップ、または、より少数のステップを含むことが可能である。さらに、複数のステップは、任意の順序で発生してよく、任意のステップが必要に応じて繰り返されてよい。

クライアントシステム（例えば、クライアントシステム１１０）は、ＤＩＥシステム（例えば、ＤＩＥシステム１２０）を実行中である。クライアントシステムは、ネットワーク（例えば、ネットワーク１３０）を介して文書を受信する。クライアントシステムは、ＤＩＥシステムに文書を入力し、ＤＩＥシステムは、それに応じて文書の構造を表す文書ツリーを生成する。

文書ツリーを生成するため、ＤＩＥシステムは、文書をその構成要素に分割するように、分割モジュール（例えば、分割モジュール２１０）を適用する。要素の各々は、一つまたは複数の位置特性、および／または、一つまたは複数の視覚的特性を有する。ＤＩＥシステムは、要素の各々の間における方向関係を判定するように近接モジュール（例えば、近接モジュール２２０）を適用する。例えば、近接モジュールは、どの要素が文書における他の要素に対して「左方」、「右方」、「上方」、または、「下方」であるのかを判定し得る。ＤＩＥシステムは、クラスターを生成するように、クラスター化モジュールを適用し得る。クラスターは、類似の特性を有する要素のグループである。

ＤＩＥシステムは、文書における要素間の家族性関係を決定する。家族性関係を決定するため、ＤＩＥシステムは、ステップ３２０において、マスタ比較器（例えば、マスタ比較器２４０）を文書における複数の要素に適用する。マスタ比較器は、各ユニット比較器が要素間における単一の（例えば、視覚的、位置）特性を比較する状態で、ユニット比較器（例えば、ユニット比較器２４２Ａ、２４２Ｂ、２４２Ｃ）の順序付けられた配列を含む。決定された家族性関係は、要素に固有となる文書の構造を表す。

ＤＩＥシステムは、ステップ３３０において、決定された家族性関係に基づいて、その構造を表す文書ツリーを生成するように、視覚化モジュールを適用する。文書ツリーは、文書における要素間の家族性関係に関する結合の視覚的な表現である。

［コンピュータシステム］
図４は、実施形態の一例に係る、コンピュータシステムを表すブロック図を例証する。具体的には、図４は、コンピュータシステム４００の例示的な形態において、ＤＩＥシステム１２０およびクライアントシステム１１０に関する模式的な表現を示す。コンピュータシステム４００は、マシンに本明細書で記述される任意の一つまたは複数の技法（または、プロセス）を実行させるための命令４２４（例えば、プログラムコード、または、ソフトウェア）を実行するように使用することができる。代替的な実施形態において、マシンは、単独で独立動作する装置、または、他のマシンに接続する接続（例えば、ネットワーク化）装置として動作する。ネットワーク化の展開において、マシンは、サーバ・クライアントシステム環境（例えば、環境１００）におけるサーバ機もしくはクライアント機の能力で、または、ピアツーピア（または、分散化）システム環境におけるピア機として動作し得る。

マシンは、サーバコンピュータ、クライアントコンピュータ、パーソナルコンピュータ（ＰＣ）、タブレットＰＣ、セットトップボックス（ＳＴＢ）、スマートフォン、モノのインターネット（ＩｏＴ）アプライアンス、ネットワークルーター、スウィッチもしくはブリッジ、または、マシンによって実行されるべきアクションを具体化する（一連の、または、それ以外の）命令４２４を実行可能な任意のマシンであり得る。さらに、単体のマシンのみが例証されるが、用語「マシン」は、本明細書で議論される一つまたは複数の技法を実行するための命令４２４を個別に、または、連携して実行するマシンの任意の集まりを含むように解釈されることになる。

コンピュータシステム４００の例は、一つまたは複数の演算装置（概してプロセッサ４０２）を含む。例えば、プロセッサ４０２は、中央演算処理ユニット（ＣＰＵ）、グラフィック処理ユニット（ＧＰＵ）、デジタル信号プロセッサ（ＤＳＰ）、制御装置、状態マシン、一つもしくは複数の特定用途向け集積回路（ＡＳＩＣ）、一つもしくは複数の高周波集積回路（ＲＦＩＣ）、または、これらの任意の組合せである。コンピュータシステム４００は、主メモリ４０４も含む。コンピュータシステムは、記憶ユニット４１６を含み得る。プロセッサ４０２、メモリ４０４、および、記憶ユニット４１６は、バス４０８を介して通信する。

さらに、コンピュータシステム４００は、スタティックメモリ４０６、（例えば、プラズマ・ディスプレイ・パネル（ＰＤＰ）、液晶ディスプレイ（ＬＣＤ）、または、プロジェクタを駆動するための）グラフィックディスプレイ４１０を含むことができる。コンピュータシステム４００は、英数字入力デバイス４１２（例えば、キーボード）、カーソル制御デバイス４１４（例えば、マウス、トラックボール、ジョイスティック、モーションセンサー、または、他のポインティング機器）、信号発生器４１８（例えば、スピーカー）、および、ネットワーク・インターフェース装置４２０も含み得るが、これらの装置は、バス４０８を介して通信するように構成されることもある。

記憶ユニット４１６は、本明細書で記述されるモジュールに関する技法または機能に関する任意の一つもしくは複数を具現化する、格納された命令４２４（例えば、ソフトウェア）であるマシン可読メディア４２２を含む。例えば、命令４２４は、図１において記述されたシステム１３０におけるモジュールの機能性を含み得る。命令４２４は、マシン可読メディアも含むコンピュータシステム４００、主メモリ４０４、および、プロセッサ４０２によってその実行中に、完全に、または、少なくとも部分的に、主メモリ４０４の内部、または、プロセッサ４０２の内部（例えば、プロセッサのキャッシュメモリの内部）に存在することもある。命令４２４は、ネットワーク・インターフェース装置４２０を介してネットワーク４２６（例えば、ネットワーク１３０）を経由して送信または受信され得る。

マシン可読メディア４２２は、単体のメディアであるように実施形態の例に示されるが、用語「マシン可読メディア」は、命令４２４も保存するための、単体のメディア、または、多数のメディア（例えば、集中もしくは分散データベース、または、関連するキャッシュおよびサーバ）を含むように解釈される必要がある。用語「マシン可読メディア」は、マシンによる実行のために命令４２４を保存可能であり、本明細書に記述される任意の一つまたは複数の技法をマシンに実行させる、任意のメディアを含むようにも解釈される必要がある。用語「マシン可読メディア」は、ソリッドステートメモリ、光学メディア、および、磁気メディアの形態におけるデータリポジトリを含むが、それらに限定されない。

［追加の考慮事項］
本開示の実施形態に関する以上の記述は、説明の目的のために提示されており、網羅的であること、または、本開示を開示された通り正確な形態に制限することは、意図されていない。関連する技術分野の当業者は、多くの変更および変形が上記の開示に照らして可能であることを十分に理解することができる。

この記述における幾つかの部分は、アルゴリズムと情報に関する操作の抽象的表現との観点から、本開示の実施形態を記述する。これらのアルゴリズム的な記述および表現は、データ処理分野における当業者によって一般的に使用されることにより、彼らの業務の本質を他の当業者に対して効率的に伝達する。これらの操作は、機能的に、計算的に、または、論理的に記述されるが、コンピュータプログラムもしくは等価な電子回路、または、マイクロコードなどよって実装されると理解される。さらに、一般性を失うことなく、これらの操作の配置をモジュールと呼ぶことは、時には利便性があることも判明している。記述された操作、および、それらに関連付けられたモジュールは、ソフトウェア、ファームウェア、ハードウェア、または、それらの任意の組合せに具現化され得る。

本明細書に記述される任意のステップ、操作、または、プロセスは、一つもしくは複数のハードウェアモジュールまたはソフトウェアモジュール、単独にまたは他の装置と組み合わせて、遂行または実装され得る。ある実施形態において、ソフトウェアモジュールは、コンピュータプログラムコードを含むコンピュータ可読メディアから構成されるコンピュータプログラム製品で実装されるが、このブログラムコードは、記述された任意または全てのステップ、操作、または、プロセスを遂行するためのコンピュータプロセッサによって実行することができる。

本開示の実施形態は、本明細書における操作を実行するための装置に関連することもある。この装置は、要求された目的のために具体的に構成され得て、および／または、それは、コンピュータに保存されたコンピュータプログラムによって選択的に活性化され、または、再構成される、一般的用途の演算装置を含み得る。そのようなコンピュータプログラムは、有形のコンピュータ可読記憶メディア、または、電子的命令の保存に適切な任意の種類のメディアに保存されて、コンピュータシステムバスに結合され得る。さらに、その仕様において言及された任意の演算システムは、単体のプロセッサを含み得て、演算能力を向上させるために複数のプロセッサ設計を採用するアーキテクチュアであり得る。

本開示の実施形態は、搬送波に具現化されたコンピュータデータ信号に関連することもあるが、そのコンピュータデータ信号は、コンピュータプログラム製品、または、本明細書で記述される他のデータ組合せに関する任意の実施形態を含む。コンピュータデータ信号は、有形のメディアまたは搬送波に提示されて、実在する搬送波に変調され、または、それ以外にコード化され、任意の適切な伝送方法にしたがって伝送される製品である。

最後に、その仕様に使用される術語は、可読性および教育的な目的のために主として選択されており、発明の主題を描写する、または、境界を定めるために選択されていなくてもよい。そのため、本開示の範囲が、この詳細な記述によるだけでなく、むしろ、本明細書に基づく出願によって発行される任意の請求項により限定されることは、意図されていない。したがって、本開示における実施形態の開示は、本発明の範囲を限定するものではなく、理解を助けることを意図している。

Claims

電子文書の階層構造を決定するためのコンピュータ実装の方法であって、
前記階層構造を全体として含む複数の要素に前記文書を分割するステップであって、各要素が、一つまたは複数の視覚的特性、および、一つまたは複数の位置特性を有する、ステップと、
前記文書の前記階層構造を決定するように、ユニット比較器のセットを含むマスタ比較器を前記複数の要素に適用するステップであって、前記マスタ比較器が、
前記文書における要素の各ペアに対して、少なくとも前記要素のペアにおける前記視覚的特性または前記位置特性を使用して、前記要素のペアの間における家族性関係を決定するように、前記ユニット比較器のセットを順序付けられた配列で適用することにより、前記階層構造を決定し、
前記複数の要素の間における前記家族性関係が、前記文書の前記階層構造を同定する、ステップと、
前記文書の前記階層構造を表す文書階層ツリーを生成するステップであって、前記文書階層ツリーが、前記複数の要素の間における前記家族性関係の視覚化である、ステップと
を備えることを特徴とする、方法。
各要素に対して、前記要素に関する複数の方向関係を決定するステップであって、前記方向関係が、前記要素と前記文書における任意の近接する要素との間における近接の種類を規定し、
前記マスタ比較器が、前記方向関係に基づいて要素のペアを比較する、ステップ
をさらに備えることを特徴とする、請求項１記載の方法。
前記家族性関係が、要素間の前記方向関係にさらに基づいていることを特徴とする、請求項２記載の方法。
前記ユニット比較器のセットのセットにおける各ユニット比較器が、異なる視覚的特性を比較することを特徴とする、請求項１記載の方法。
前記ユニット比較器のセットにおける各ユニット比較器が、異なる位置特性を比較することを特徴とする、請求項１記載の方法。
前記階層構造を決定するステップが、
前記文書における前記複数の要素に関する書式設定の構造を決定するステップ
をさらに備え、
階層構造が、前記書式設定の構造に基づいている
ことを特徴とする、請求項１記載の方法。
前記階層構造を決定するステップが、
前記文書における前記複数の要素に関する索引付けの構造を決定するステップ
をさらに備え、
階層構造が、前記索引付けの構造に基づいている
ことを特徴とする、請求項１記載の方法。
前記文書の前記階層構造が、複数の家族性関係を含み、前記複数の家族性関係が、複数の親関係、複数の子関係、および、複数の兄弟関係を含むことを特徴とする、請求項１記載の方法。
前記文書が、第一の要素および第二の要素を含み、
前記第一の要素および前記第二の要素の間における親関係は、前記第一の要素が前記第二の要素よりも前記文書の前記階層構造において高レベルとなる階層を有することを規定し、
前記第一の要素および前記第二の要素の間における子関係は、前記第一の要素が前記第二の要素よりも前記文書の前記階層構造において低レベルとなる階層を有することを規定し、
前記第一の要素および前記第二の要素の間における兄弟関係は、前記第一の要素および前記第二の要素が前記文書の前記階層構造において同一レベルとなる階層を有することを規定する
ことを特徴とする、請求項８記載の方法。
前記文書の前記階層構造における祖父母関係および孫関係を有する要素のペアに前記マスタ比較器を適用することにより、前記複数の要素の間における前記家族性関係を検証するステップ
をさらに備えることを特徴とする、請求項１記載の方法。
リモートクライアントシステムから前記視覚化を生成するための要求を受信するステップと、
前記リモートクライアントシステムへ前記視覚化を送信するステップと
をさらに備えることを特徴とする、請求項１記載の方法。
前記要求が、前記マスタ比較器における前記ユニット比較器のセットの構成を含むことを特徴とする、請求項１記載の方法。
電子文書の階層構造を決定するためのコンピュータ命令を含む非一時的コンピュータ可読記憶メディアであって、プロセッサによって実行されると、前記コンピュータ命令が、前記プロセッサに
前記階層構造を全体として含む複数の要素に前記文書を分割することであって、各要素が、一つまたは複数の視覚的特性、および、一つまたは複数の位置特性を有する、ことと、
前記文書の前記階層構造を決定するように、ユニット比較器のセットを含むマスタ比較器を前記複数の要素に適用することであって、前記マスタ比較器が、
前記文書における要素の各ペアに対して、少なくとも前記要素のペアにおける前記視覚的特性または前記位置特性を使用して、前記要素のペアの間における家族性関係を決定するように、前記ユニット比較器のセットを順序付けられた配列で適用することより、前記階層構造を決定し、
前記複数の要素の間における前記家族性関係が、前記文書の前記階層構造を同定する、ことと、
前記文書の前記階層構造を表す文書階層ツリーを生成することであって、前記文書階層ツリーが、前記複数の要素の間における前記家族性関係の視覚化である、こと
を行わせることを特徴とする、非一時的コンピュータ可読記憶メディア。
前記プロセッサによって実行されると、前記コンピュータ命令が、前記プロセッサに
各要素に対して、前記要素に関する複数の方向関係を決定することであって、前記方向関係が、前記要素と前記文書における任意の隣接する要素との間における近接の種類を規定する、ことをさらに行わせて、
前記マスタ比較器が、前記方向関係に基づいて要素のペアを比較する
ことを特徴とする、請求項１３記載の非一時的コンピュータ可読記憶メディア。
前記家族性関係が、要素間の前記方向関係にさらに基づいていることを特徴とする、請求項１３記載の非一時的コンピュータ可読記憶メディア。
前記ユニット比較器のセットのセットにおける各ユニット比較器が、異なる視覚的特性を比較することを特徴とする、請求項１３記載の非一時的コンピュータ可読記憶メディア。
前記ユニット比較器のセットにおける各ユニット比較器が、異なる位置特性を比較することを特徴とする、請求項１３記載の非一時的コンピュータ可読記憶メディア。
前記文書の前記階層構造が、複数の家族性関係を含み、前記複数の家族性関係が、複数の親関係、複数の子関係、および、複数の兄弟関係を含むことを特徴とする、請求項１３記載の非一時的コンピュータ可読記憶メディア。
前記文書が、第一の要素および第二の要素を含み、
前記第一の要素および前記第二の要素の間における親関係は、前記第一の要素が前記第二の要素よりも前記文書の前記階層構造において高レベルとなる階層を有することを規定し、
前記第一の要素および前記第二の要素の間における子関係は、前記第一の要素が前記第二の要素よりも前記文書の前記階層構造において低レベルとなる階層を有することを規定し、
前記第一の要素および前記第二の要素の間における兄弟関係は、前記第一の要素および前記第二の要素が前記文書の前記階層構造において同一レベルとなる階層を有することを規定する
ことを特徴とする、請求項１３記載の非一時的コンピュータ可読記憶メディア。
電子文書の階層構造を決定するためのシステムであって、
コンピュータプログラム命令を実行するためのコンピュータプロセッサと、
前記コンピュータプロセッサによって実行可能であるコンピュータプログラム命令を保存することにより、
前記階層構造を全体として含む複数の要素に前記文書を分割することであって、各要素が、一つまたは複数の視覚的特性、および、一つまたは複数の位置特性を有する、ことと、
前記文書の前記階層構造を決定するように、ユニット比較器のセットを含むマスタ比較器を前記複数の要素に適用することであって、前記マスタ比較器が、
前記文書における要素の各ペアに対して、少なくとも前記要素のペアにおける前記視覚的特性または前記位置特性を使用して、前記要素のペアの間における家族性関係を決定するように、前記ユニット比較器のセットを順序付けられた配列で適用することにより、前記階層構造を決定し、
前記複数の要素の間における前記家族性関係が、前記文書の前記階層構造を同定する、ことと、
前記文書の前記階層構造を表す文書階層ツリーを生成することであって、前記文書階層ツリーが、前記複数の要素の間における前記家族性関係の視覚化である、ことと
を含む操作を実行する非一時的コンピュータ可読メディアと
を備えることを特徴とする、システム。