JP2023509996A - 順序付けられた比較器を使用する文書情報抽出システム - Google Patents
順序付けられた比較器を使用する文書情報抽出システム Download PDFInfo
- Publication number
- JP2023509996A JP2023509996A JP2022542891A JP2022542891A JP2023509996A JP 2023509996 A JP2023509996 A JP 2023509996A JP 2022542891 A JP2022542891 A JP 2022542891A JP 2022542891 A JP2022542891 A JP 2022542891A JP 2023509996 A JP2023509996 A JP 2023509996A
- Authority
- JP
- Japan
- Prior art keywords
- document
- elements
- hierarchical structure
- relationships
- comparator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title abstract description 22
- 238000000034 method Methods 0.000 claims description 31
- 230000000007 visual effect Effects 0.000 claims description 29
- 238000012800 visualization Methods 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 8
- 239000000470 constituent Substances 0.000 abstract description 8
- 230000008569 process Effects 0.000 description 9
- 230000015654 memory Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 238000012795 verification Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000007373 indentation Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 241000208822 Lactuca Species 0.000 description 3
- 235000003228 Lactuca sativa Nutrition 0.000 description 3
- 235000015241 bacon Nutrition 0.000 description 3
- 235000008429 bread Nutrition 0.000 description 3
- 241000227653 Lycopersicon Species 0.000 description 2
- 235000007688 Lycopersicon esculentum Nutrition 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 241001047198 Scomberomorus semifasciatus Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000012467 brownies Nutrition 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/137—Hierarchical processing, e.g. outlines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/904—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/131—Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
文書情報抽出システムは、文書の構成要素の特性に基づいて、電子文書の構造を決定する。そのシステムは、文書を分割することにより、各要素が類似の特性を有する複数の要素を生成する。複数の要素は、文書構造の決定を支援するためにクラスター化され得る。システムは、複数の要素間の方向関係(例えば、上方、下方等)を決定する。それから、システムは、近接する複数の要素間の家族性関係を決定するように、マスタ比較器を適用する。マスタ比較器は、ユニット比較器のセットを含み、各ユニット比較器は、二つの要素間における特定の特性を比較する。マスタ比較器は、その比較に基づいて家族性関係を決定するように、ユニット比較器を順次付けて適用する。システムは、決定された家族性関係を反映する文書の階層ツリーを出力する。階層ツリーは、文書の構造を表す。
Description
本発明は、概して文書の構造を決定することに関連し、特に、決定された構造に基づいて文書から情報を抽出することに関連する。
文書における情報の抽出は、文書から選択されたトピックに関連した特定の情報、または、情報の種類に関する検索である。情報の抽出は、文書内において特定の項目、単語、行等(「情報」)の位置を決定する。抽出された情報は、その情報を効率的に分類して目録を作成することを可能とする基本的な構造を有し得る。
自動化された文書の抽出は、技術的に複雑なプロセスであり、不都合なことに、文書から情報を正確に抽出することは、現行の解決策を使用すると、間違いを起こし易い。多数の文書は一般的な構造を共有するが、どのようにその構造が文書の情報に埋め込まれて、反映されるのかということが一致しないという事実に、これらの問題の多くは由来する。例えば、様々な文書は、様々な方法で、節、見出し、小見出し等の書式を設定する。したがって、その埋め込みに関係することなく、システムが文書の構造を正確に決定することを可能にする方法は、有益であることになる。
文書情報抽出システムは、文書の構成要素に関する特性に基づいて、電子文書の構造を決定する。文章の構造は、文書における情報の高レベルな表現である。例として、その構造は、文書内の情報に関する階層ツリー構造であり得る。
文書内の要素は、その構成部分であり、文書に含まれる情報の一部を表す。例として、要素は、文書において単語、または、単語のセットであり得る。その要素の特性は、視覚的特性および/または位置特性を含み得る。例示すると、視覚的特性はフォントサイズであってよいし、一方、位置特性は座標であってよい。
システムは、分割により文書における要素を判定する。文書を分割することは、類似の特性を有する文書における情報を識別して、クラスター化する。例えば、システムは、文書を多数の単語に分割し得る。あるいは、より堅実には、システムは、文書を多数の文字に分割し、文字を異なる単語にグループ化し、さらに、単語をテキストの行にグループ化し得る。文字が類似のy座標およびフォントサイズを有することから、システムは文字をグループ化し得る。分割およびクラスター化に関する類似の例も可能である。
システムは、要素間の方向関係を判定することにより、構造の決定を支援し得る。方向関係は、位置特性の重なり合いを有する要素間における近接の種類を規定する。例えば、システムは、第二の要素に近接する第一の要素が、「右方」という方向関係を有することを決定し得る。
さらに、システムは、要素の位置に基づいて要素をクラスター化することにより、構造の決定を支援し得る。クラスターは、類似の位置特性および/または視覚的特性の少なくとも一つをともなう幾つかの要素を含む。例えば、クラスターは、文書の特定領域(例えば、節、リスト等)における全ての要素をグループ化し得る。別の例として、クラスターは、類似のフォントスタイル(例えば、太字)を有する全ての要素をグループ化し得る。
システムは、要素間の家族性関係を判定することにより、文書の構造を決定する。家族性関係は、親、子、兄弟、および、無関係を含む。その関係は、文書構造における階層的な繋がりを表す。さらに、その関係は、文書ツリーとして構造の視覚化を可能とする。
システムは、文書において、要素間またはクラスター間の特性を比較することにより、家族性関係を決定する。そうするため、システムは、ユニット比較器のセットを含むマスタ比較器を使用する。各ユニット比較器は、二つの要素間における特定の特性を比較し、家族性関係を判定する。しかしながら、単体のユニット比較器は、家族性関係を誤って判定することがある。そのようなものとして、マスタ比較器は、複数のユニット比較器を順序付けて使用し、複数のユニット比較器の順序付けられた結果に基づいて、複数の要素間における正確な家族性関係を出力する。複数のユニット比較器に関する順序および選択は、文書構造を正確に決定するように、システムの設計者によって行われる。
マスタ比較器は、索引付け、書式設定、および/または、他の特性に基づいて、構造を識別するための複数のユニット比較器を含むことができる。さらに、マスタ比較器は、横方向および縦方向の両方における家族性関係を識別することができる。結局、システムは、文書内において要素の祖父母および孫を分析することにより、家族性関係を検証することができる。
システムは、決定された家族性関係を使用して、文書の構造を表す文書ツリーを生成する。システムは、名前付きのエンティティのタグ付けを使用して視覚化を実装することにより、文書ツリーを活用してそのエンティティ間の関係を見付ける。結局、視覚化は、文書の構造を要求する利用者に応じて生成され得る。
図面は、例証の目的のみのために本開示における種々の実施形態を描写する。当業者は、本明細書で説明される構造および方法に関する代替的な実施形態が、本明細書で記述される開示の原則から逸脱することなく、適用され得ることを、後続する議論から容易に理解することになる。
[文書情報抽出の環境]
図1は、一つの例に係る、文書情報抽出エンジンに関するシステム環境を例証する。環境100は、クライアント装置110と、ネットワーク130を経由して通信する文書情報抽出(「DIE」)システム120とを含む。
図1は、一つの例に係る、文書情報抽出エンジンに関するシステム環境を例証する。環境100は、クライアント装置110と、ネットワーク130を経由して通信する文書情報抽出(「DIE」)システム120とを含む。
クライアント装置110は、電子文書に対して生成、アクセス、または、受信を行うことを可能とする演算装置である。例えば、実施形態において、クライアント装置110は、文書処理ソフトウェアを使用して、文書を生成するように構成されたラップトップコンピュータである。他の例において、クライアント装置110は、個人用携帯情報端末(PDA)、携帯電話、スマートフォン、または、別の適切な装置などの、コンピュータ機能を有する装置であり得る。クライアント装置110は、ネットワーク130を介してDIEシステム120と通信するように構成される。例えば、実施形態において、クライアント装置110は、携帯電話ネットワーク130を介してDIEシステム120に通信するように構成された携帯電話であり得る。
DIEシステム120は、クライアント装置110から文書を受信し、それに応じて文書の構造を決定する。文書の構造は、情報の階層構造のような、文書における情報の高レベルな表現である。その構造は、ツリー構造のような視覚化として表現され得る。以下でより詳細に説明するように、その構造を決定するために、DIEシステム120は、文書を要素に分割し、要素間の家族性関係を判定し、判定された家族性関係に基づいて文書の構造を決定する。DIEシステム120は、ネットワーク130を介してクライアント装置110にその構造を提供し得る。
ネットワーク130は、有線および/または無線の両方の通信システムを使用して、ローカルエリアおよび/またはワイドエリアのネットワーク130の任意の組合せを含む。ネットワーク130は、種々の通信技術および/または通信プロトコルを使用し得る。例えば、ネットワーク130は、イーサネット、802.11、3G、4G、デジタル加入者線(DSL)等などの通信技術を利用し得る。ネットワーク130は、ネットワーク130を介して情報を通信するためのネットワーク130のプロトコルを適用することもある。プロトコルに関する幾つかの例は、伝送制御プロトコル/インターネットプロトコル(TCP/IP)、ハイパーテキスト転送プロトコル(HTTP)、簡易メール転送プロトコル(SMTP)、ファイル転送プロトコル(FTP)等を含み得る。ネットワーク130を経由して交換されたデータは、ハイパーテキスト転送プロトコル(HTML)、または、拡張マークアップ言語(XML)などの、任意の適切な書式設定を使用して表現され得る。幾つかの実施形態において、ネットワーク130における通信リンクの全部または一部は、任意の適切な技術、または、複数の技術を用いて使用し得る。
環境100は、他の構成を選択し得る。例示すると、実施形態の例において、DIEシステム120は、ネットワーク130を介してクライアント装置110に接続されるリモートシステムではなく、クライアント装置110に実装され得る。例えば、DIEシステム120は、クライアント装置110において実行する文書処理システムに関するプラグインとして実装され得る。この場合、DIEシステム120は、文書処理システムから文書を受信し、その構造を決定し、それに応じてその構造を文書処理システムへ提供し得る。別の例において、DIEシステム120は、クライアント装置110において単独で独立動作するプログラムであり得る。この場合、DIEシステム120は、クライアント装置110に保存される文書にアクセスし、その構造を決定し、それに応じてその構造の表現をプログラムに提供し得る。実施形態の別例において、DIEシステム120は、クライアント装置110において実行するアプリケーションを通してアクセス可能であるネットワーク130のシステムをとして実装され得る。この場合、多数のクライアント装置(図示されない)が、DIEシステム120に接続し、文書を提供し、それに応じて構造を受信し得る。
[文書情報抽出システム]
図2は、一つの実施形態に係る、文書情報抽出システムを例証するブロック図である。図2に示されるように、DIEシステム120は、分割モジュール210、近接モジュール220、クラスター化モジュール230、マスタ比較器240、検証モジュール250、視覚化モジュール260、および、抽出モジュール270を含む。図示されるように、マスタ比較器240は、3個のユニット比較器(例えば、概してユニット比較器242と参照される、ユニット比較器242A、242B、および242B)を含むが、様々な個数のユニット比較器242を含むことが可能である。DIEシステム120に関する他の実施形態は、より少数の、付加的な、または、様々なモジュールを含み得て、その機能性は、モジュール間で異なるように分散され得る。
図2は、一つの実施形態に係る、文書情報抽出システムを例証するブロック図である。図2に示されるように、DIEシステム120は、分割モジュール210、近接モジュール220、クラスター化モジュール230、マスタ比較器240、検証モジュール250、視覚化モジュール260、および、抽出モジュール270を含む。図示されるように、マスタ比較器240は、3個のユニット比較器(例えば、概してユニット比較器242と参照される、ユニット比較器242A、242B、および242B)を含むが、様々な個数のユニット比較器242を含むことが可能である。DIEシステム120に関する他の実施形態は、より少数の、付加的な、または、様々なモジュールを含み得て、その機能性は、モジュール間で異なるように分散され得る。
広範には、DIEシステム120は、文書を受信してその構造を決定する。そうするため、DIEシステム120は、文書における要素を判定し、要素間の方向関係を判定し、要素のクラスターを生成する。続いて、DIEシステム120は、要素(またはクラスター)間の階層的な関係を判定し、その階層的な関係に基づいて構造を決定し、その関係を使用して構造の視覚化を生成する。
[文書の分割]
DIEシステム120は、文書をその構成要素に分割する分割モジュール210を含む。要素は、文書の最小構成部分であり、文書に含まれる情報の一部を表す。複数の要素は、高レベルに、その構造によって表現され得る。例示すると、単語からなる頁である文書を検討してみる。文書における要素は、文書において構成要素である単語であり、その構造は、文書における単語によって表現される情報の階層的な順序である。
DIEシステム120は、文書をその構成要素に分割する分割モジュール210を含む。要素は、文書の最小構成部分であり、文書に含まれる情報の一部を表す。複数の要素は、高レベルに、その構造によって表現され得る。例示すると、単語からなる頁である文書を検討してみる。文書における要素は、文書において構成要素である単語であり、その構造は、文書における単語によって表現される情報の階層的な順序である。
より広範には、複数の要素は、文書に見つけられ得る情報に関する様々な種類を表し得る。例えば、複数の要素は、情報を伝え得る文書において、文字、数字、単語、イメージ、テキストの行、または、何らかの他の要素を表し得る。さらに、以下でより詳細に記述されるように、文書における要素間の関係は、文書の構造を決定するための基礎を形成する。
文書における各要素は、一つまたは複数の視覚的特性を有し、文書における他の要素と共通して、一つまたは複数の視覚的特性を有し得る。説明すると、要素「F」は、例えば、フォントの種類、フォントサイズ、下線付き、大文字化を含む視覚的特性を有し得る。これは、単なる一例であり、視覚的特性に関する多数の他種類が可能である。例えば、視覚的特性は、フォントサイズ、フォントファミリー、文字の太さ、下線付け、大文字化、斜体化、フォントカラー、背景色、クラスター、および、バウンディングボックスを含み得る。他の例も可能である。
文書における各要素は、一つまたは複数の位置特性を有する。位置特性は、文書内における要素の位置に関する説明である。例として、要素「F」は、文書において座標(x,y)を有し得て、文書に関する位置特性は、その座標となる。他の例も可能である。種々の実施形態において、位置特性は、参照のための異なるフレームを有し得る。例えば、要素に関する位置特性は、要素の中心、要素を囲むボックスの左上等であり得る。さらに、位置特性は、位置に関連付けられ得る付加的な属性を含み得る。例えば、位置特性は、座標およびサイズであり得るが、そのサイズは、座標における要素のサイズ(例えば、要素バウンディングボックスのピクセルサイズ)である。どのような実装であっても、要素に関する位置特性は、文書における要素を空間的に配置するための方法をもたらす。
さらに、幾つかの実施形態において、要素の位置特性は、要素に関する視覚的座標を含むこともある。視覚的座標は、文書内におけるその絶対的な位置ではなく、要素に関する視覚的境界を表す。例えば、要素は、文書内において大量の空白に囲まれ得る。この場合、文書に関する視覚的座標は、文書を囲む空白の一部を含み得る。この方法において、文書内の要素に関する視覚的座標は、構造を決定する際に、文書内における要素の位置に関するより正確な表現をもたらし得る。
DIEシステム120は、文書における要素間の方向関係を判定する近接モジュール220を含む。方向関係は、位置特性の重なり合いを有する要素間に関する近接の種類を規定する。例として、文書における文字要素「TX」に対して、要素「T」は、要素「X」と方向関係を有する(そして、逆の場合も同様である)。特に、要素「X」は、「T」に対して「右」の方向関係を有し、要素「T」は、「X」に対して「左」の方向関係を有する。本来、より多くの方向関係が存在し得る。例えば、方向関係は、上、下、左、右等を含み得る。
近接モジュール220は、二つの要素間の方向関係を、それらの位置特性を比較することにより、判定する。位置特性が近接および/または重複である場合、近接モジュール220は、妥当な方向関係を判定する。前出の例を参照すると、要素「T」は、(1232,855,14,8)という位置特性を有するが、ピクセル単位で、1232はx座標であり、855はy座標であり、14は高さであり、8は幅である。要素「X」は、同一の座標系において(1240,855,14,10)という位置特性を有する。そのため、要素「X」のx座標が要素「T」と重複し、要素「T」より大きいx座標を有することから、近接モジュール220は、要素「X」が要素「T」の右側にあると判定する。近接モジュール220は、同様にして、要素「T」が要素「X」の左側にあると判定する。
要素とそれらの判定された方向関係とは、文字以外の要素を含み得る。例えば、文書は、二つのテキスト要素「GO」および「EARTHQUAKES」を含み得る。この場合、要素は、単語全体を表す位置座標を有し、近接モジュール220は、単語「EARTHQUAKES」が「GO」の右側にあり、単語「GO」が「EARTHQUAKES」の左側にあると判定する。近接モジュール220は、様々な種類の要素間における方向関係を判定することもある。例えば、文書は、テキスト要素「LUVU」と、ハートの絵文字であるイメージ要素とを含み得る。この場合、要素の各々は、文書におけるそれらの位置を説明する位置座標を有し、近接モジュール220は、その二つの間の方向関係を判定することができる。
DIEシステム120は、複数の要素を、それらの位置特性に基づいてクラスターにグループ化するクラスター化モジュール230を含む。例として、文書は、「BACON」、「LETTUCE」、「TOMATO」、「BREAD」、および「MAYONAISE」をそれぞれ含むテキスト要素の列を含む。その列において、最初の4単語は、引き続く4行にあるが、単語「MAYONAISE」は、単語「BREAD」の5行後である。クラスター化モジュール230は、複数の要素を、文書内におけるそれらの位置に基づいてグループ化する。例示すると、クラスター化モジュール230は、「BACON」を含むクラスターを作成する。クラスター化モジュール230は、そのクラスターに追加され得る近くの要素のために文書を調べる。ここで、要素「LETTUCE」が要素「BACON」から最大の閾値距離未満にあることを、「LETTUCE」に関する位置特性が示すことから、クラスター化モジュール230は、「BACON」を含むクラスターに「LETTUCE」を追加する。クラスター化モジュール230は、閾値距離内にある要素が無くなるまで、クラスターに追加するように、複数の要素に対して調査を継続する。この場合、クラスター化モジュール230は、単語「BACON」、「LETTUCE」、「TOMATO」および「BREAD」を、それらが相互に閾値距離内にあることから、クラスター化する。クラスター化モジュール230は、要素「MAYONAISE」を、それがクラスター化された要素からあまりに離れて位置することから、含めない。
クラスター化モジュール230は、種々の方法でクラスターを生成し得る。例えば、上述した通り、クラスター化モジュール230は、要素間の縦方向距離に基づいて、クラスターを生成し得る。しかしながら、他の実施形態において、クラスター化モジュール230は、要素間における横方向距離、絶対的な近接、相対的な近接等に基づいて、クラスターを生成し得る。より一般的には、クラスター化モジュール230は、その構成要素の位置特性に反映される文書の基本的な構造に基づいて、クラスターを生成する。
[比較器]
DIEシステム120は、文書における要素間の家族性関係を、それらの(例えば、位置、視覚的)特性を比較することにより、決定するマスタ比較器240を含む。複数の要素間の家族性関係は、文書の階層構造を確定するために使用され得る。マスタ比較器240は、分割モジュール210がその文書を要素に分割済みであり、近接モジュール220がその文書における要素間の方向関係を判定済みであり、クラスター化モジュール230がその文書における要素をクラスター化済みである、文書を比較する。
DIEシステム120は、文書における要素間の家族性関係を、それらの(例えば、位置、視覚的)特性を比較することにより、決定するマスタ比較器240を含む。複数の要素間の家族性関係は、文書の階層構造を確定するために使用され得る。マスタ比較器240は、分割モジュール210がその文書を要素に分割済みであり、近接モジュール220がその文書における要素間の方向関係を判定済みであり、クラスター化モジュール230がその文書における要素をクラスター化済みである、文書を比較する。
マスタ比較器240は、二つの要素(例えば、第一の要素および第二の要素)を比較することにより、それらの特性の一つまたは複数に基づいて家族性関係を決定する。マスタ比較器240は、要素間における四つの関係、すなわち、親、子、兄弟、および無関係の内の一つを決定し得る。その関係を明確化すると、(1)第一の要素が文書の階層において第二の要素の真上にある場合、第一の要素は第二の要素にとって親であり、(2)第一の要素が文書の階層において第二の要素の真下にある場合、第一の要素は第二の要素にとって子であり、(3)第一の要素および第二の要素が文書の階層において同一のレベルにある場合、第一の要素は第二の要素にとって兄弟であり、(4)第一の要素および第二の要素に文書の階層において繋がりがない場合、第一の要素は第二の要素にとって無関係である。第一の要素および第二の要素を比較する際に、第一の要素が第二の要素に対して親、兄弟、または、無関係であり得ることをそれぞれ示すように、マスタ比較器240の出力は、1、0、または-1となり得る。種々の実施形態において、家族性関係は、例えば、孫、曾祖父母等などの、要素間のより拡張された関係を含み得る。
マスタ比較器240は、マスタ比較器242が要素間の家族性関係を決定することを可能とする複数の比較器242を含む。ユニット比較器242は、複数の要素における単一の特性を分析することにより、第一の要素および第二の要素の間における家族性関係(例えば、1、0、-1の判定)を決定する。すなわち、ユニット比較器242は、一つの特性を比較するが、マスタ比較器240は、その構成要素である複数のユニット比較器(例えば、マスタ比較器240におけるユニット比較器242A、242B、および232C)を使用して、複数の特性を比較する。
ユニット比較器242によって分析される特性は、視覚的特性および/または位置特性であり得る。例えば、第一のユニット比較器242Aは、第一の要素および第二の要素の間におけるフォントサイズを比較することにより、家族性関係を決定し得て、第二のユニット比較器242Bは、第一の要素および第二の要素の間における座標を比較することにより、家族性関係を決定し得て、第三のユニット比較器242Cは、第一の要素および第二の要素の間における文字の太さを比較し得る。他の例も可能である。
複数のユニット比較器242は、マスタ比較器240を形成するために直列に接続されている。すなわち、マスタ比較器240の内部における複数のユニット比較器242は、二つの要素の特性を順次に比較することにより、家族性関係を決定する。例示すると、例えば、5個のユニット比較器242を含むマスタ比較器240を検討してみる。マスタ比較器240は、第一のユニット比較器242を使用して、二つの要素における第一の特性を比較し、第二のユニット比較器242を使用して、二つの要素における第二の特性を比較し、第三のユニット比較器242を使用して、二つの要素における第三の特性を比較する、などとなる。
このアーキテクチュアにおいて、ユニット比較器242の結果がゼロ以外になる(例えば、親関係または無関係の関係が見付けられる)と、マスタ比較器240は、複数のユニット比較器242を用いた要素の比較を停止する。ユニット比較器242がゼロ以外の結果を戻す場合、マスタ比較器240は、最新に呼び出されたユニット比較器242によって決定された二つの要素に間における関係を割り当てる。例示すると、前出の例を継続して、マスタ比較器240は、ゼロ以外の結果が見出されるまで、5個のユニット比較器242を順次に使用することにより、二つの要素間における家族性関係を決定する。第一の例において、複数のユニット比較器242は、二つの要素が兄弟であることを示す「0,0,0,0,0」を戻す。第二の例において、複数のユニット比較器242は、二つの要素が無関係であることに示す「0,0,0,-1」を戻す。第三の例において、複数のユニット比較器242は、第一の要素が第二の要素にとって親であることを示す「0,1」を戻す。他の例も可能である。
このアーキテクチュアに起因して、マスタ比較器240において選択された複数のユニット比較器242およびそれらの順番は、文書の構造を正確に決定することを可能とする。例えば、マスタ比較器240は、家族性関係に関して最も示唆に富む視覚的特性および/または位置特性を比較するユニット比較器242を使用する必要がある。さらに、文書における要素間で比較する順序は、文書の構造を決定することにも役立つ。例えば、標準的な左から右へ、それから上から下への読む順序、y座標による下から上へ、または、何らかの他の順序において、複数の要素が比較され得る。DIEシステム120の実装は、所望の通りにマスタ比較器240においてユニット比較器242の配列を構成することができる。種々の実施形態において、DIEシステム120は、文書の種類、文書における要素の種類、アプリケーション空間等に依存する、多種多様な比較器、比較器の配列、および、比較器の順序を適用する。マスタ比較器240を使用して文書の構造を決定するための幾つかの具体的な技法が本明細書に記述されるが、限定することを意図しない。より一般的には、DIEシステム120は、マスタ比較器240におけるユニット比較器242の配列を使用することにより、文書の構造を決定する。
[例:マスタ比較器に基づく書式設定]
実施形態において、DIEシステム120は、文書における要素の書式設定に基づいて、家族性関係を決定するように構成されたマスタ比較器240を使用し得る(「フォーマット構成」)。フォーマット構成において、マスタ比較器240は、ボトムアップかつ行単位の方法で親関係を決定するように構成されている。より具体的には、ある実施例において、第一の要素は、次の場合に第二の要素の親である。すなわち、(1)二つの要素間における視覚的座標に関する横方向のはみ出し部分が重なり合い、(2)第一の要素は第二の要素に対して上方の方向関係を有する。この構成において、第一の行における第一の要素が第二の行における第二の要素にとって子として確定される場合、第一の行における全ての要素は、第二の行における第二の要素にとって子として割り当てられる。さらに、幾つかの構成において、マスタ比較器240は、第一の要素に対する全ての兄弟を第二の要素に対する子として確定し得る。この方法において、文書の構造は、主に行単位の原則で確定される。
実施形態において、DIEシステム120は、文書における要素の書式設定に基づいて、家族性関係を決定するように構成されたマスタ比較器240を使用し得る(「フォーマット構成」)。フォーマット構成において、マスタ比較器240は、ボトムアップかつ行単位の方法で親関係を決定するように構成されている。より具体的には、ある実施例において、第一の要素は、次の場合に第二の要素の親である。すなわち、(1)二つの要素間における視覚的座標に関する横方向のはみ出し部分が重なり合い、(2)第一の要素は第二の要素に対して上方の方向関係を有する。この構成において、第一の行における第一の要素が第二の行における第二の要素にとって子として確定される場合、第一の行における全ての要素は、第二の行における第二の要素にとって子として割り当てられる。さらに、幾つかの構成において、マスタ比較器240は、第一の要素に対する全ての兄弟を第二の要素に対する子として確定し得る。この方法において、文書の構造は、主に行単位の原則で確定される。
フォーマット構成において、マスタ比較器240は、他の特性に基づいて親関係を決定するために、他の比較器を使用することもある。例えば、マスタ比較器240は、書式設定(例えば、フォントサイズ、クラスター、および、文字の太さ)に基づいて構造を示す可能性がより高いユニット比較器242を使用し得る。幾つかの構成において、マスタ比較器240は、書式設定(例えば、インデント、斜体、大文字化の色、要素の境界)に基づいて構造を示す可能性がより低い幾つかの他の比較器を使用することもある。他の比較器も可能である。
[例:マスタ比較器に基づく索引付け]
実施形態において、DIEシステム120は、文書における要素の索引付け要素(例えば、黒丸、番号付きリスト等)に基づいて、家族性関係を決定するように構成されたマスタ比較器240を使用し得る(「インデックス構成」)。インデックス構成において、マスタ比較器240は、左から右かつ上から下の方法で親関係を決定するように構成されている。ここで、行において他の要素の前にある索引付け要素は、索引付け要素を有する行における他の要素に親を自動的に割り当て得る。
実施形態において、DIEシステム120は、文書における要素の索引付け要素(例えば、黒丸、番号付きリスト等)に基づいて、家族性関係を決定するように構成されたマスタ比較器240を使用し得る(「インデックス構成」)。インデックス構成において、マスタ比較器240は、左から右かつ上から下の方法で親関係を決定するように構成されている。ここで、行において他の要素の前にある索引付け要素は、索引付け要素を有する行における他の要素に親を自動的に割り当て得る。
例示すると、第一の行が「SCHEDULE」と読めて、黒丸付きリストが後続の行で「・WAKE UP」、「・BRUSH TEETH」、「・SHOWER」、「・GET DRESSED」、および「・GO TO WORK」を含む状態で、文書を検討してみる。DIEシステム120は、マスタ比較器240を使用することにより、第一の行における要素「SCHEDULE」が第二の行における要素「・WAKE UP」に対して親であることを決定する。DIEシステム120は、索引付けキャッシュにおいて第二の行における索引付け要素「・」を保存し、その要素を(1)その親、(2)その対応する位置特性(例えば、インデント)に関連付ける。この後は、マスタ比較器240は、索引付け要素に関連付けられた親の子として適切な位置特性(例えば、インデント)を有する、索引付け要素「・」を含む要素を自動的に割り当てる。この方法において、要素「・BRUSH TEETH」、「・SHOWER」、「・GET DRESSED」、および「・GO TO WORK」は、要素「SCHEDULE」の子として割り当てられる。
類似の例として、第一の行が「FAMILY SCHEDULE」と読めて、番号付きリストが「1.DAN SCHEDULE」および「2.CHRIS SCHEDULE」を含む、文書を検討してみる。番号付きリストの各々は、上述したリストに類似する黒丸付きリストを含む。この例において、親は「FAMILY SCHEDULE」であり、その子は「DAD SCHEDULE」および「CHRIS SCHEDULE」である。子「DAD SCHEDULE」および「CHRIS SCHEDULE」の各々は、それらの対応する黒丸付きリストにおける要素となる子を有する。
DIEシステム120は、索引付けキャッシュおよび索引付け要素の位置特性を使用して、単体の文書内における幾つかの索引付け要素を追跡し得る。さらに、後続のインデックスに家族性関係を割り当てるために、最近のインデックスの登録のみが必要とされ得ることから、DIEシステム120は、新たな索引付けされた要素が見出された場合に、索引付けられた要素に関する任意の以前の登録を削除し得る。
[例:横方向の親に対するマスタ比較器]
前出の二つの例は、DIEシステム120が縦方向の関連性から親および子を示す(例えば、親は子の上方にある)構成を例証する。しかしながら、幾つかの文書において、親は、子と同一の行にあり得る。この場合、DIEシステム120は、横方向の家族性関係を決定するように構成されたマスタ比較器240を使用し得る(「横方向構成」)。
前出の二つの例は、DIEシステム120が縦方向の関連性から親および子を示す(例えば、親は子の上方にある)構成を例証する。しかしながら、幾つかの文書において、親は、子と同一の行にあり得る。この場合、DIEシステム120は、横方向の家族性関係を決定するように構成されたマスタ比較器240を使用し得る(「横方向構成」)。
横方向構成において、DIEシステム120は、既に記述された(例えば、インデックス、フォーマット)構成を使用して、縦方向の方法で家族性関係を決定するようにマスタ比較器240を適用する。しかしながら、ここで、DIEシステム120は、文書において同一の横方向の位置で要素も比較するマスタ比較器240を使用する。マスタ比較器240は、縦方向の方法と類似する方法における横方向の方法で比較し得る。すなわち、第一の要素が第二の要素に対して左の方向関係を有し、第二の要素が親子関係を満たすために必要な任意の他の比較(例えば、文字の太さ、インデント等)を満足する場合、第一の要素は第二の要素の親として確定される。横方向構成に関する幾つかの例において、マスタ比較器240は、インデックス構成に類似する要素を含むこともできる。例えば、要素がキーと値との区切り記号(例えば、コロン)を含む場合、マスタ比較器240は、キー値区切り文字の後にある要素がキー値区切り文字を含む要素の子であることを確定し得る。他の同様な例も可能である。
横方向構成において、DIEシステム120は、既に割り当てられた縦方向の親が横方向に識別された要素の親でもあるかどうかを決定するように、マスタ比較器240を使用することもある。そうするために、マスタ比較器240は、要素の位置特性を使用することにより、縦方向に位置する親を決定し得る。
[例:複数行の親に対するマスタ比較器]
前出の例は、DIEシステム120が縦方向および/または横方向の関連性から親および子を認識する、構成を説明している。しかしながら、幾つかの文書において、親は、複数の行にまたがることがあり、DIEシステム120は、これら複数行の親(「共同の親」)をさらに認識することができる。
前出の例は、DIEシステム120が縦方向および/または横方向の関連性から親および子を認識する、構成を説明している。しかしながら、幾つかの文書において、親は、複数の行にまたがることがあり、DIEシステム120は、これら複数行の親(「共同の親」)をさらに認識することができる。
共同の親を認識するために、DIEシステム120は、近接の要素を比較するように、マスタ比較器240を適用する。そのため、DIEシステム120は、親の要素と上方または下方のいずれかの方向関係を有する近接の要素に親の要素を比較することにより、それらが近接する親であるかどうかを決定するように、マスタ比較器240を適用する。マスタ比較器240は、次の場合に共同の親として近接の親を認識する。すなわち、(1)潜在的な共同の親は子を有せず、(2)共同の親は同一の親を有し、(3)共同の親は階層的な比較によって兄弟として識別される。
[例:親の検証]
DIEシステム120は、マスタ比較器240によって決定された家族性関係を検証する検証モジュール250を含む。家族性関係を検証するために、検証モジュール250は、本明細書で記述されるように、マスタ比較器240を使用することにより、孫および祖父母の関係を有する第一の要素および第二の要素を比較する。すなわち、検証モジュール250は、孫の要素を祖父母の要素と比較するように、マスタ比較器240を適用する。
DIEシステム120は、マスタ比較器240によって決定された家族性関係を検証する検証モジュール250を含む。家族性関係を検証するために、検証モジュール250は、本明細書で記述されるように、マスタ比較器240を使用することにより、孫および祖父母の関係を有する第一の要素および第二の要素を比較する。すなわち、検証モジュール250は、孫の要素を祖父母の要素と比較するように、マスタ比較器240を適用する。
孫を祖父母と比較することは、DIEシステム120がより大きな関連性を必要とする親子関係を見付けることを可能とする。説明すると、例えば、複数の節を含む章を含む文書を検討してみるが、各節は対応する小節を含む。各節におけるテキストは普通であるが、一方で、各小節におけるテキストは斜体化されている。構成に依存すると、DIEシステム120は、親、子、孫、曾孫等として、それが文書を下に(または、上に)移動するにつれ、代替する書式設定を識別し得る。その関係を検証するため、検証モジュール250は、マスタ比較器240を使用して、孫の要素を祖父母の要素と比較する。その二つの要素が兄弟であるとマスタ比較器240が決定する(例えば、マスタ比較器240が「0」を戻す)場合、家族性関係はそれに応じて更新される。例えば、前出の例を使用すると、各節がそれらの小節の親であり、各節が兄弟であり、章が節に対する親であり、章が小節に対する祖父母であることを、検証モジュール250は保証することになる。
[応用]
DIEシステム120は、文書の構造に関する視覚化を生成する視覚化モジュール260を含む。再びとなるが、文書の構造は、文書における情報の階層であり、マスタ比較器240によって決定される家族性関係によって表現され得る。したがって、視覚化は、文書内の情報に関して容易に理解できる構造的な表現を作り出す。
DIEシステム120は、文書の構造に関する視覚化を生成する視覚化モジュール260を含む。再びとなるが、文書の構造は、文書における情報の階層であり、マスタ比較器240によって決定される家族性関係によって表現され得る。したがって、視覚化は、文書内の情報に関して容易に理解できる構造的な表現を作り出す。
例として、視覚化モジュール260は、利用者から受信された文書の構造を表すための文書ツリーを生成する。文書ツリーは、階層的なツリーとして表現される親、子、孫、祖父母等の間における様々な結合をともなう、家族ツリーと構造に関して類似している。DIEシステム120は、文書ツリーとして構造を表す視覚化を作り出し、利用者へ文書ツリーを提供する。文書ツリーは、利用者が文書の構造を調べることを可能とする。
文書ツリーは、視覚化ではなく、文書に関連付けられたデータ構造またはメタデータとして表現されることもある。他の視覚化も可能である。例えば、視覚化モジュール260は、文書の構造を表すために、折り畳み可能なリスト、概要、または、何らかの他の視覚化を生成し得る。視覚化は、DIEシステム120、または、何か他の人に文書を送信する人に提供され得る。
DIEシステム120は、クライアントシステム110から受信された要求に応答して、視覚化を生成し得る。その要求は、任意の適切な基準(特性の種類、クラスター、比較器の構成等)に準じて視覚化を生成するための要求を含み得る。一旦生成されると、視覚化は、要求するクライアントシステム110に送信され得る。
DIEシステム120は、文書の構造に基づいて文書から情報を抽出する抽出モジュール270を含む。例えば、DIEシステム120の利用者は、特定の階層レベル(例えば、節見出し)で文書に含まれた全ての情報を要求し得て、抽出モジュール270は、それに応じて情報を提供する。別の例において、DIEシステム120は、文書における特定の要素に関する視覚的特性を要求し得て、抽出モジュール270は、それに応じてそれらの特性にアクセスして、提供し得る。抽出モジュール270は、抽出された情報を使用することにより、文書の視覚化(例えば、文書ツリー)を実装し得る。
抽出モジュール270は、文書から情報を抽出する際に、名前付きのエンティティ・リンキング(NEL)を実行することもある。エンティティ・リンキングにおいて、興味ある単語(例えば、人、場所、組織の名称等)は、テキストからターゲット知識ベースにおいて対応するエンティティにマッピングされる。興味ある単語は、名前付きエンティティ(NE)と呼ばれ、ここで、名前付きエンティティは、任意の要素、または、要素の部分であり得る。名前付きリンキングに対するターゲット知識ベースは、DIEシステム120の利用者、文書の種類、または、DIEシステム120に適切である任意の他のターゲット知識ベースに基づくことがある。例として、文書における親は、「DAN’S BROWNIE HEAVEN,LTD.,」であり得て、子は、「EMPLOYEES」であり得て、孫は、「CHRIS」および「DAN」であり得る。この例において、抽出モジュール270は、親の要素が「organization」であり、子の要素が「role」であり、孫の要素が「persons」であると識別し得る。NELを含む抽出システム270は、文書の構造に付加的な関連性を提供し得る。
[実装例]
図3は、実施形態の一例に係る、文書情報抽出システムを使用して文書から情報を抽出するためのプロセスフローを例証する。プロセスフローは、図1において記述された環境に類似する環境において実装され得るが、異なる環境において実装することも可能である。プロセスは、文書から情報を抽出するための幾つかのステップを含むが、種々の他の実施形態において、プロセスは、付加的なステップ、または、より少数のステップを含むことが可能である。さらに、複数のステップは、任意の順序で発生してよく、任意のステップが必要に応じて繰り返されてよい。
図3は、実施形態の一例に係る、文書情報抽出システムを使用して文書から情報を抽出するためのプロセスフローを例証する。プロセスフローは、図1において記述された環境に類似する環境において実装され得るが、異なる環境において実装することも可能である。プロセスは、文書から情報を抽出するための幾つかのステップを含むが、種々の他の実施形態において、プロセスは、付加的なステップ、または、より少数のステップを含むことが可能である。さらに、複数のステップは、任意の順序で発生してよく、任意のステップが必要に応じて繰り返されてよい。
クライアントシステム(例えば、クライアントシステム110)は、DIEシステム(例えば、DIEシステム120)を実行中である。クライアントシステムは、ネットワーク(例えば、ネットワーク130)を介して文書を受信する。クライアントシステムは、DIEシステムに文書を入力し、DIEシステムは、それに応じて文書の構造を表す文書ツリーを生成する。
文書ツリーを生成するため、DIEシステムは、文書をその構成要素に分割するように、分割モジュール(例えば、分割モジュール210)を適用する。要素の各々は、一つまたは複数の位置特性、および/または、一つまたは複数の視覚的特性を有する。DIEシステムは、要素の各々の間における方向関係を判定するように近接モジュール(例えば、近接モジュール220)を適用する。例えば、近接モジュールは、どの要素が文書における他の要素に対して「左方」、「右方」、「上方」、または、「下方」であるのかを判定し得る。DIEシステムは、クラスターを生成するように、クラスター化モジュールを適用し得る。クラスターは、類似の特性を有する要素のグループである。
DIEシステムは、文書における要素間の家族性関係を決定する。家族性関係を決定するため、DIEシステムは、ステップ320において、マスタ比較器(例えば、マスタ比較器240)を文書における複数の要素に適用する。マスタ比較器は、各ユニット比較器が要素間における単一の(例えば、視覚的、位置)特性を比較する状態で、ユニット比較器(例えば、ユニット比較器242A、242B、242C)の順序付けられた配列を含む。決定された家族性関係は、要素に固有となる文書の構造を表す。
DIEシステムは、ステップ330において、決定された家族性関係に基づいて、その構造を表す文書ツリーを生成するように、視覚化モジュールを適用する。文書ツリーは、文書における要素間の家族性関係に関する結合の視覚的な表現である。
[コンピュータシステム]
図4は、実施形態の一例に係る、コンピュータシステムを表すブロック図を例証する。具体的には、図4は、コンピュータシステム400の例示的な形態において、DIEシステム120およびクライアントシステム110に関する模式的な表現を示す。コンピュータシステム400は、マシンに本明細書で記述される任意の一つまたは複数の技法(または、プロセス)を実行させるための命令424(例えば、プログラムコード、または、ソフトウェア)を実行するように使用することができる。代替的な実施形態において、マシンは、単独で独立動作する装置、または、他のマシンに接続する接続(例えば、ネットワーク化)装置として動作する。ネットワーク化の展開において、マシンは、サーバ・クライアントシステム環境(例えば、環境100)におけるサーバ機もしくはクライアント機の能力で、または、ピアツーピア(または、分散化)システム環境におけるピア機として動作し得る。
図4は、実施形態の一例に係る、コンピュータシステムを表すブロック図を例証する。具体的には、図4は、コンピュータシステム400の例示的な形態において、DIEシステム120およびクライアントシステム110に関する模式的な表現を示す。コンピュータシステム400は、マシンに本明細書で記述される任意の一つまたは複数の技法(または、プロセス)を実行させるための命令424(例えば、プログラムコード、または、ソフトウェア)を実行するように使用することができる。代替的な実施形態において、マシンは、単独で独立動作する装置、または、他のマシンに接続する接続(例えば、ネットワーク化)装置として動作する。ネットワーク化の展開において、マシンは、サーバ・クライアントシステム環境(例えば、環境100)におけるサーバ機もしくはクライアント機の能力で、または、ピアツーピア(または、分散化)システム環境におけるピア機として動作し得る。
マシンは、サーバコンピュータ、クライアントコンピュータ、パーソナルコンピュータ(PC)、タブレットPC、セットトップボックス(STB)、スマートフォン、モノのインターネット(IoT)アプライアンス、ネットワークルーター、スウィッチもしくはブリッジ、または、マシンによって実行されるべきアクションを具体化する(一連の、または、それ以外の)命令424を実行可能な任意のマシンであり得る。さらに、単体のマシンのみが例証されるが、用語「マシン」は、本明細書で議論される一つまたは複数の技法を実行するための命令424を個別に、または、連携して実行するマシンの任意の集まりを含むように解釈されることになる。
コンピュータシステム400の例は、一つまたは複数の演算装置(概してプロセッサ402)を含む。例えば、プロセッサ402は、中央演算処理ユニット(CPU)、グラフィック処理ユニット(GPU)、デジタル信号プロセッサ(DSP)、制御装置、状態マシン、一つもしくは複数の特定用途向け集積回路(ASIC)、一つもしくは複数の高周波集積回路(RFIC)、または、これらの任意の組合せである。コンピュータシステム400は、主メモリ404も含む。コンピュータシステムは、記憶ユニット416を含み得る。プロセッサ402、メモリ404、および、記憶ユニット416は、バス408を介して通信する。
さらに、コンピュータシステム400は、スタティックメモリ406、(例えば、プラズマ・ディスプレイ・パネル(PDP)、液晶ディスプレイ(LCD)、または、プロジェクタを駆動するための)グラフィックディスプレイ410を含むことができる。コンピュータシステム400は、英数字入力デバイス412(例えば、キーボード)、カーソル制御デバイス414(例えば、マウス、トラックボール、ジョイスティック、モーションセンサー、または、他のポインティング機器)、信号発生器418(例えば、スピーカー)、および、ネットワーク・インターフェース装置420も含み得るが、これらの装置は、バス408を介して通信するように構成されることもある。
記憶ユニット416は、本明細書で記述されるモジュールに関する技法または機能に関する任意の一つもしくは複数を具現化する、格納された命令424(例えば、ソフトウェア)であるマシン可読メディア422を含む。例えば、命令424は、図1において記述されたシステム130におけるモジュールの機能性を含み得る。命令424は、マシン可読メディアも含むコンピュータシステム400、主メモリ404、および、プロセッサ402によってその実行中に、完全に、または、少なくとも部分的に、主メモリ404の内部、または、プロセッサ402の内部(例えば、プロセッサのキャッシュメモリの内部)に存在することもある。命令424は、ネットワーク・インターフェース装置420を介してネットワーク426(例えば、ネットワーク130)を経由して送信または受信され得る。
マシン可読メディア422は、単体のメディアであるように実施形態の例に示されるが、用語「マシン可読メディア」は、命令424も保存するための、単体のメディア、または、多数のメディア(例えば、集中もしくは分散データベース、または、関連するキャッシュおよびサーバ)を含むように解釈される必要がある。用語「マシン可読メディア」は、マシンによる実行のために命令424を保存可能であり、本明細書に記述される任意の一つまたは複数の技法をマシンに実行させる、任意のメディアを含むようにも解釈される必要がある。用語「マシン可読メディア」は、ソリッドステートメモリ、光学メディア、および、磁気メディアの形態におけるデータリポジトリを含むが、それらに限定されない。
[追加の考慮事項]
本開示の実施形態に関する以上の記述は、説明の目的のために提示されており、網羅的であること、または、本開示を開示された通り正確な形態に制限することは、意図されていない。関連する技術分野の当業者は、多くの変更および変形が上記の開示に照らして可能であることを十分に理解することができる。
本開示の実施形態に関する以上の記述は、説明の目的のために提示されており、網羅的であること、または、本開示を開示された通り正確な形態に制限することは、意図されていない。関連する技術分野の当業者は、多くの変更および変形が上記の開示に照らして可能であることを十分に理解することができる。
この記述における幾つかの部分は、アルゴリズムと情報に関する操作の抽象的表現との観点から、本開示の実施形態を記述する。これらのアルゴリズム的な記述および表現は、データ処理分野における当業者によって一般的に使用されることにより、彼らの業務の本質を他の当業者に対して効率的に伝達する。これらの操作は、機能的に、計算的に、または、論理的に記述されるが、コンピュータプログラムもしくは等価な電子回路、または、マイクロコードなどよって実装されると理解される。さらに、一般性を失うことなく、これらの操作の配置をモジュールと呼ぶことは、時には利便性があることも判明している。記述された操作、および、それらに関連付けられたモジュールは、ソフトウェア、ファームウェア、ハードウェア、または、それらの任意の組合せに具現化され得る。
本明細書に記述される任意のステップ、操作、または、プロセスは、一つもしくは複数のハードウェアモジュールまたはソフトウェアモジュール、単独にまたは他の装置と組み合わせて、遂行または実装され得る。ある実施形態において、ソフトウェアモジュールは、コンピュータプログラムコードを含むコンピュータ可読メディアから構成されるコンピュータプログラム製品で実装されるが、このブログラムコードは、記述された任意または全てのステップ、操作、または、プロセスを遂行するためのコンピュータプロセッサによって実行することができる。
本開示の実施形態は、本明細書における操作を実行するための装置に関連することもある。この装置は、要求された目的のために具体的に構成され得て、および/または、それは、コンピュータに保存されたコンピュータプログラムによって選択的に活性化され、または、再構成される、一般的用途の演算装置を含み得る。そのようなコンピュータプログラムは、有形のコンピュータ可読記憶メディア、または、電子的命令の保存に適切な任意の種類のメディアに保存されて、コンピュータシステムバスに結合され得る。さらに、その仕様において言及された任意の演算システムは、単体のプロセッサを含み得て、演算能力を向上させるために複数のプロセッサ設計を採用するアーキテクチュアであり得る。
本開示の実施形態は、搬送波に具現化されたコンピュータデータ信号に関連することもあるが、そのコンピュータデータ信号は、コンピュータプログラム製品、または、本明細書で記述される他のデータ組合せに関する任意の実施形態を含む。コンピュータデータ信号は、有形のメディアまたは搬送波に提示されて、実在する搬送波に変調され、または、それ以外にコード化され、任意の適切な伝送方法にしたがって伝送される製品である。
最後に、その仕様に使用される術語は、可読性および教育的な目的のために主として選択されており、発明の主題を描写する、または、境界を定めるために選択されていなくてもよい。そのため、本開示の範囲が、この詳細な記述によるだけでなく、むしろ、本明細書に基づく出願によって発行される任意の請求項により限定されることは、意図されていない。したがって、本開示における実施形態の開示は、本発明の範囲を限定するものではなく、理解を助けることを意図している。
Claims (20)
- 電子文書の階層構造を決定するためのコンピュータ実装の方法であって、
前記階層構造を全体として含む複数の要素に前記文書を分割するステップであって、各要素が、一つまたは複数の視覚的特性、および、一つまたは複数の位置特性を有する、ステップと、
前記文書の前記階層構造を決定するように、ユニット比較器のセットを含むマスタ比較器を前記複数の要素に適用するステップであって、前記マスタ比較器が、
前記文書における要素の各ペアに対して、少なくとも前記要素のペアにおける前記視覚的特性または前記位置特性を使用して、前記要素のペアの間における家族性関係を決定するように、前記ユニット比較器のセットを順序付けられた配列で適用することにより、前記階層構造を決定し、
前記複数の要素の間における前記家族性関係が、前記文書の前記階層構造を同定する、ステップと、
前記文書の前記階層構造を表す文書階層ツリーを生成するステップであって、前記文書階層ツリーが、前記複数の要素の間における前記家族性関係の視覚化である、ステップと
を備えることを特徴とする、方法。 - 各要素に対して、前記要素に関する複数の方向関係を決定するステップであって、前記方向関係が、前記要素と前記文書における任意の近接する要素との間における近接の種類を規定し、
前記マスタ比較器が、前記方向関係に基づいて要素のペアを比較する、ステップ
をさらに備えることを特徴とする、請求項1記載の方法。 - 前記家族性関係が、要素間の前記方向関係にさらに基づいていることを特徴とする、請求項2記載の方法。
- 前記ユニット比較器のセットのセットにおける各ユニット比較器が、異なる視覚的特性を比較することを特徴とする、請求項1記載の方法。
- 前記ユニット比較器のセットにおける各ユニット比較器が、異なる位置特性を比較することを特徴とする、請求項1記載の方法。
- 前記階層構造を決定するステップが、
前記文書における前記複数の要素に関する書式設定の構造を決定するステップ
をさらに備え、
階層構造が、前記書式設定の構造に基づいている
ことを特徴とする、請求項1記載の方法。 - 前記階層構造を決定するステップが、
前記文書における前記複数の要素に関する索引付けの構造を決定するステップ
をさらに備え、
階層構造が、前記索引付けの構造に基づいている
ことを特徴とする、請求項1記載の方法。 - 前記文書の前記階層構造が、複数の家族性関係を含み、前記複数の家族性関係が、複数の親関係、複数の子関係、および、複数の兄弟関係を含むことを特徴とする、請求項1記載の方法。
- 前記文書が、第一の要素および第二の要素を含み、
前記第一の要素および前記第二の要素の間における親関係は、前記第一の要素が前記第二の要素よりも前記文書の前記階層構造において高レベルとなる階層を有することを規定し、
前記第一の要素および前記第二の要素の間における子関係は、前記第一の要素が前記第二の要素よりも前記文書の前記階層構造において低レベルとなる階層を有することを規定し、
前記第一の要素および前記第二の要素の間における兄弟関係は、前記第一の要素および前記第二の要素が前記文書の前記階層構造において同一レベルとなる階層を有することを規定する
ことを特徴とする、請求項8記載の方法。 - 前記文書の前記階層構造における祖父母関係および孫関係を有する要素のペアに前記マスタ比較器を適用することにより、前記複数の要素の間における前記家族性関係を検証するステップ
をさらに備えることを特徴とする、請求項1記載の方法。 - リモートクライアントシステムから前記視覚化を生成するための要求を受信するステップと、
前記リモートクライアントシステムへ前記視覚化を送信するステップと
をさらに備えることを特徴とする、請求項1記載の方法。 - 前記要求が、前記マスタ比較器における前記ユニット比較器のセットの構成を含むことを特徴とする、請求項1記載の方法。
- 電子文書の階層構造を決定するためのコンピュータ命令を含む非一時的コンピュータ可読記憶メディアであって、プロセッサによって実行されると、前記コンピュータ命令が、前記プロセッサに
前記階層構造を全体として含む複数の要素に前記文書を分割することであって、各要素が、一つまたは複数の視覚的特性、および、一つまたは複数の位置特性を有する、ことと、
前記文書の前記階層構造を決定するように、ユニット比較器のセットを含むマスタ比較器を前記複数の要素に適用することであって、前記マスタ比較器が、
前記文書における要素の各ペアに対して、少なくとも前記要素のペアにおける前記視覚的特性または前記位置特性を使用して、前記要素のペアの間における家族性関係を決定するように、前記ユニット比較器のセットを順序付けられた配列で適用することより、前記階層構造を決定し、
前記複数の要素の間における前記家族性関係が、前記文書の前記階層構造を同定する、ことと、
前記文書の前記階層構造を表す文書階層ツリーを生成することであって、前記文書階層ツリーが、前記複数の要素の間における前記家族性関係の視覚化である、こと
を行わせることを特徴とする、非一時的コンピュータ可読記憶メディア。 - 前記プロセッサによって実行されると、前記コンピュータ命令が、前記プロセッサに
各要素に対して、前記要素に関する複数の方向関係を決定することであって、前記方向関係が、前記要素と前記文書における任意の隣接する要素との間における近接の種類を規定する、ことをさらに行わせて、
前記マスタ比較器が、前記方向関係に基づいて要素のペアを比較する
ことを特徴とする、請求項13記載の非一時的コンピュータ可読記憶メディア。 - 前記家族性関係が、要素間の前記方向関係にさらに基づいていることを特徴とする、請求項13記載の非一時的コンピュータ可読記憶メディア。
- 前記ユニット比較器のセットのセットにおける各ユニット比較器が、異なる視覚的特性を比較することを特徴とする、請求項13記載の非一時的コンピュータ可読記憶メディア。
- 前記ユニット比較器のセットにおける各ユニット比較器が、異なる位置特性を比較することを特徴とする、請求項13記載の非一時的コンピュータ可読記憶メディア。
- 前記文書の前記階層構造が、複数の家族性関係を含み、前記複数の家族性関係が、複数の親関係、複数の子関係、および、複数の兄弟関係を含むことを特徴とする、請求項13記載の非一時的コンピュータ可読記憶メディア。
- 前記文書が、第一の要素および第二の要素を含み、
前記第一の要素および前記第二の要素の間における親関係は、前記第一の要素が前記第二の要素よりも前記文書の前記階層構造において高レベルとなる階層を有することを規定し、
前記第一の要素および前記第二の要素の間における子関係は、前記第一の要素が前記第二の要素よりも前記文書の前記階層構造において低レベルとなる階層を有することを規定し、
前記第一の要素および前記第二の要素の間における兄弟関係は、前記第一の要素および前記第二の要素が前記文書の前記階層構造において同一レベルとなる階層を有することを規定する
ことを特徴とする、請求項13記載の非一時的コンピュータ可読記憶メディア。 - 電子文書の階層構造を決定するためのシステムであって、
コンピュータプログラム命令を実行するためのコンピュータプロセッサと、
前記コンピュータプロセッサによって実行可能であるコンピュータプログラム命令を保存することにより、
前記階層構造を全体として含む複数の要素に前記文書を分割することであって、各要素が、一つまたは複数の視覚的特性、および、一つまたは複数の位置特性を有する、ことと、
前記文書の前記階層構造を決定するように、ユニット比較器のセットを含むマスタ比較器を前記複数の要素に適用することであって、前記マスタ比較器が、
前記文書における要素の各ペアに対して、少なくとも前記要素のペアにおける前記視覚的特性または前記位置特性を使用して、前記要素のペアの間における家族性関係を決定するように、前記ユニット比較器のセットを順序付けられた配列で適用することにより、前記階層構造を決定し、
前記複数の要素の間における前記家族性関係が、前記文書の前記階層構造を同定する、ことと、
前記文書の前記階層構造を表す文書階層ツリーを生成することであって、前記文書階層ツリーが、前記複数の要素の間における前記家族性関係の視覚化である、ことと
を含む操作を実行する非一時的コンピュータ可読メディアと
を備えることを特徴とする、システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/740,754 | 2020-01-13 | ||
US16/740,754 US11657101B2 (en) | 2020-01-13 | 2020-01-13 | Document information extraction system using sequenced comparators |
PCT/IB2021/050179 WO2021144683A1 (en) | 2020-01-13 | 2021-01-12 | Document information extraction system using sequenced comparators |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023509996A true JP2023509996A (ja) | 2023-03-10 |
JPWO2021144683A5 JPWO2021144683A5 (ja) | 2024-01-22 |
Family
ID=76760573
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022542891A Pending JP2023509996A (ja) | 2020-01-13 | 2021-01-12 | 順序付けられた比較器を使用する文書情報抽出システム |
Country Status (5)
Country | Link |
---|---|
US (2) | US11657101B2 (ja) |
EP (1) | EP4091088A4 (ja) |
JP (1) | JP2023509996A (ja) |
CN (1) | CN115244538A (ja) |
WO (1) | WO2021144683A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210350006A1 (en) * | 2020-05-08 | 2021-11-11 | NortonLifeLock Inc. | Systems and methods for identifying software vulnerabilities in embedded device firmware |
US11443102B1 (en) * | 2021-08-13 | 2022-09-13 | Pricewaterhousecoopers Llp | Methods and systems for artificial intelligence-assisted document annotation |
US11645462B2 (en) | 2021-08-13 | 2023-05-09 | Pricewaterhousecoopers Llp | Continuous machine learning method and system for information extraction |
US11657078B2 (en) * | 2021-10-14 | 2023-05-23 | Fmr Llc | Automatic identification of document sections to generate a searchable data structure |
US11615231B1 (en) * | 2022-02-15 | 2023-03-28 | Atlassian Pty Ltd. | System for generating outline navigational interface for native mobile browser applications |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7702641B2 (en) * | 2001-06-04 | 2010-04-20 | Oracle America, Inc. | Method and system for comparing and updating file trees |
US6889226B2 (en) * | 2001-11-30 | 2005-05-03 | Microsoft Corporation | System and method for relational representation of hierarchical data |
CN101055578A (zh) * | 2006-04-12 | 2007-10-17 | 龙搜(北京)科技有限公司 | 基于规则的文档内容挖掘器 |
US8935249B2 (en) | 2007-06-26 | 2015-01-13 | Oracle Otc Subsidiary Llc | Visualization of concepts within a collection of information |
US7890438B2 (en) * | 2007-12-12 | 2011-02-15 | Xerox Corporation | Stacked generalization learning for document annotation |
US8539342B1 (en) * | 2008-10-16 | 2013-09-17 | Adobe Systems Incorporated | Read-order inference via content sorting |
US7996435B2 (en) * | 2008-12-01 | 2011-08-09 | Sap Ag | Apparatus and method for comparing computer documents using tree structures |
US8473467B2 (en) | 2009-01-02 | 2013-06-25 | Apple Inc. | Content profiling to dynamically configure content processing |
US20120072824A1 (en) | 2010-09-20 | 2012-03-22 | Research In Motion Limited | Content acquisition documents, methods, and systems |
US8543911B2 (en) * | 2011-01-18 | 2013-09-24 | Apple Inc. | Ordering document content based on reading flow |
US20140149132A1 (en) | 2012-11-27 | 2014-05-29 | Jan DeHaan | Adaptive medical documentation and document management |
US9817804B2 (en) * | 2013-09-12 | 2017-11-14 | Wix.Com Ltd. | System for comparison and merging of versions in edited websites and interactive applications |
US20170364483A9 (en) * | 2014-09-09 | 2017-12-21 | Intentional Software Corporation | Generating visual layout nodes to fill a display area based on an anchor point |
US10565444B2 (en) * | 2017-09-07 | 2020-02-18 | International Business Machines Corporation | Using visual features to identify document sections |
-
2020
- 2020-01-13 US US16/740,754 patent/US11657101B2/en active Active
-
2021
- 2021-01-12 EP EP21741282.4A patent/EP4091088A4/en active Pending
- 2021-01-12 JP JP2022542891A patent/JP2023509996A/ja active Pending
- 2021-01-12 WO PCT/IB2021/050179 patent/WO2021144683A1/en unknown
- 2021-01-12 CN CN202180020493.3A patent/CN115244538A/zh active Pending
-
2023
- 2023-04-13 US US18/134,485 patent/US20230267154A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
WO2021144683A1 (en) | 2021-07-22 |
EP4091088A1 (en) | 2022-11-23 |
CN115244538A (zh) | 2022-10-25 |
US20230267154A1 (en) | 2023-08-24 |
US11657101B2 (en) | 2023-05-23 |
US20210216595A1 (en) | 2021-07-15 |
EP4091088A4 (en) | 2024-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2023509996A (ja) | 順序付けられた比較器を使用する文書情報抽出システム | |
US10409895B2 (en) | Optimizing a document based on dynamically updating content | |
US11468225B2 (en) | Determining functional and descriptive elements of application images for intelligent screen automation | |
KR102275413B1 (ko) | 플로우 문서를 생성하기 위한 이미지 문서 컴포넌트 검출 및 추출 기법 | |
US9697423B1 (en) | Identifying the lines of a table | |
US8433714B2 (en) | Data cell cluster identification and table transformation | |
JP6827116B2 (ja) | ウェブページのクラスタリング方法及び装置 | |
CN106649805B (zh) | 一种高效的Web应用跨浏览器布局兼容性检测系统及方法 | |
CN103500332B (zh) | 图片内文字显示方法及装置 | |
US20200387553A1 (en) | Digitization of technical documentation driven by machine learning | |
KR20210125955A (ko) | 정보 처리 방법, 정보 처리 장치, 전자 기기 및 저장 매체 | |
JP6506686B2 (ja) | ファイル記述子を自動的に管理する技法 | |
EP3853761A1 (en) | Converting an image into a structured table | |
WO2013110286A1 (en) | Paragraph property detection and style reconstruction engine | |
US20170132484A1 (en) | Two Step Mathematical Expression Search | |
CN103117052A (zh) | 信息处理设备、信息处理方法及程序 | |
US20130318133A1 (en) | Techniques to manage universal file descriptor models for content files | |
WO2018208412A1 (en) | Detection of caption elements in documents | |
US20160055413A1 (en) | Methods and systems that classify and structure documents | |
CN111857704A (zh) | 一种布局关系的代码生成方法及装置 | |
Yamanaka et al. | Enumerating floorplans with columns | |
AU2021273643A1 (en) | Systems and methods for automatically recolouring a design | |
CN104933055B (zh) | 网页识别方法及网页识别装置 | |
US20150082235A1 (en) | Difference-oriented user interface creation | |
CN112882775A (zh) | 页面模板自适应调整的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240112 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240112 |