JP2022547750A - クロスドキュメントインテリジェントオーサリングおよび処理アシスタント - Google Patents
クロスドキュメントインテリジェントオーサリングおよび処理アシスタント Download PDFInfo
- Publication number
- JP2022547750A JP2022547750A JP2022542307A JP2022542307A JP2022547750A JP 2022547750 A JP2022547750 A JP 2022547750A JP 2022542307 A JP2022542307 A JP 2022542307A JP 2022542307 A JP2022542307 A JP 2022542307A JP 2022547750 A JP2022547750 A JP 2022547750A
- Authority
- JP
- Japan
- Prior art keywords
- chunks
- documents
- document
- computer
- implemented method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims description 45
- 238000000034 method Methods 0.000 claims abstract description 191
- 238000010801 machine learning Methods 0.000 claims abstract description 29
- 238000011143 downstream manufacturing Methods 0.000 claims abstract description 11
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 7
- 230000008569 process Effects 0.000 claims description 34
- 230000000007 visual effect Effects 0.000 claims description 34
- 238000004458 analytical method Methods 0.000 claims description 15
- 238000003058 natural language processing Methods 0.000 claims description 13
- 230000004044 response Effects 0.000 claims description 13
- 238000012552 review Methods 0.000 claims description 13
- 238000012937 correction Methods 0.000 claims description 8
- 230000001419 dependent effect Effects 0.000 claims description 2
- 230000014509 gene expression Effects 0.000 claims description 2
- 238000004590 computer program Methods 0.000 claims 10
- 230000001747 exhibiting effect Effects 0.000 claims 2
- 238000012790 confirmation Methods 0.000 claims 1
- 230000007423 decrease Effects 0.000 claims 1
- 238000007670 refining Methods 0.000 claims 1
- 230000002123 temporal effect Effects 0.000 claims 1
- 230000013016 learning Effects 0.000 description 21
- 238000004891 communication Methods 0.000 description 15
- 238000002372 labelling Methods 0.000 description 15
- 238000013528 artificial neural network Methods 0.000 description 10
- 230000015654 memory Effects 0.000 description 8
- 230000008520 organization Effects 0.000 description 8
- 238000013459 approach Methods 0.000 description 6
- 239000003814 drug Substances 0.000 description 6
- 229940079593 drug Drugs 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 206010020751 Hypersensitivity Diseases 0.000 description 4
- 230000009471 action Effects 0.000 description 4
- 230000007815 allergy Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 208000026935 allergic disease Diseases 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 238000007373 indentation Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 241000295146 Gallionellaceae Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000005755 formation reaction Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000000275 quality assurance Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/106—Display of layout of documents; Previewing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/131—Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/418—Document matching, e.g. of document images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Medical Informatics (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本出願は、2019年9月16日に出願された米国仮特許出願第62/900,793号「Cross-Document Intelligent Authoring and Processing Assistant」に対する35USC§119(e)の優先権を主張する。前述の全ての主題は、参照によりその全体が本明細書に組み込まれる。
多くの企業は、毎回カスタマイズされているにもかかわらず、非常に類似した複数のドキュメントを作成している。例えば、保険事務所は特定の種類の保険について多くの提案をし得るが、それぞれを特定の顧客のニーズに合わせて調整しなければならない。これらのドキュメントは、類似のテキスト(場合によっては画像)コンテンツ(類似の目的およびトピックを反映する)、セクションなどの大単位の類似の選択および配置、および多くの場合、類似の幾何学的レイアウトおよびフォーマット特性を有するため、同じ「タイプ」であると見なすことができる。
概要
同じタイプであると決定されたドキュメントのグループは、「ドキュメントセット」または「ドキュメントクラスタ」を構成する。例えば、保険会社の特定のクラスの顧客への特定の種類の保険の提案は、同じタイプと見なされ、ドキュメントセットを形成し得る。同じ会社の異なる種類の保険の提案、または彼らが異なると考える顧客への提案は、異なるドキュメントセットに属する異なるタイプと見なされ得る。レンタル契約書、特定の種類の患者の臨床メモ、販売提案書、スケジュール書、会議議事録などは、コンテンツ、構造、および/またはレイアウトの特徴的なパターンを共有するサブタイプと同様に、他の潜在的なタイプのドキュメントである。
本明細書に記載の技術は、以下のいずれかを含む様々な特徴および利点を有し得る。
以下は、例示的なシステムの説明である。図1を参照する。このシステムは、概して、階層的に意味的にラベル付けされたドキュメントのAI自己管理作成のための、および/またはそのようなドキュメントの支援されたオーサリングおよび処理のための方法および装置に関する。これは、構成、構造化、注釈付け、変更、レビュー、ドキュメントからデータを抽出、および/またはダウンストリームビジネスプロセスにおいてそのようなデータを使用するなどのプロセスを含む。より具体的には、比較的小さなセットを含むドキュメントのセットにわたって、主に教師なしおよび自己管理機械学習技術を使用して、それらの役割に関連付けられた、多くの意味的に意味のあるチャンクで構成されるドキュメントの詳細な階層構造を発見することにより、以前のドキュメントと同様のドキュメントに、およびビジネスプロセスにおけるそのような高度に強化されたドキュメントの使用に、焦点を当てている。
1)インポート:ユーザのドキュメントのグループをデータストア110にもたらす。
2)編成:ドキュメントを、レンタル対販売契約書、または医療履歴対現在の臨床ノートのような、タイプ別にドキュメントセットに分ける。
3)ビジュアル抽出:そのコンテンツおよびビジュアルレイアウトに少なくとも基づいて、各ドキュメントから線状のテキストストリームを抽出し、これは、個別のテキストおよび他のエリア、その開始および終了の位置、フォーマット、およびコンテンツに関する限られた情報を含む。抽出されたデータは、幾何学的レイアウトによって区別されるパラグラフなどの、「ビジュアルライン」として、または「ビジュアルブロック」(「ハイパーライン」または「ビジュアル」チャンクとも呼ばれる)として編成され得る。
4)構造:ドキュメント内の見出し、リストアイテム、および他の構造チャンクの大マーカなクラスを識別する。
5)再ネスト:セクションおよびリストのネスト関係、およびそれぞれのテキストの範囲を決定する。
6)トピックチャンキング:各ドキュメントのトピックコンテンツを分析し、同様のトピックのエリアを囲むチャンク(トピックレベルのチャンク)を作成する。
7)トピックラベリング:
i)埋め込みおよびクラスタリングを使用して、コーパスの各見出しに対する候補データタイプおよびセマンティックロールラベルを作成する。
ii)キーフレーズ抽出技術を使用して、チャンクに対する候補データタイプおよびセマンティックロールラベルを作成する。
8)チャンクラベリング:複数の方法、例えば、ニューラルネットワーク、単語および文字の埋め込み、文法分析およびパターンマッチング、正規表現、類似性メトリクス、および/または他の方法を使用して、ドキュメント全体を通して他のチャンクにデータタイプおよびセマンティックロール候補を識別し、割り当てる(おそらく複数)。特定の実施形態に対して特に興味深いのは、以下のことである。
i)結果の構造上の文法解析およびパターンマッチング
ii)小さなチャンクをドキュメントでそれらが果たす特定のセマンティックロールと結びつけるための質問応答技術の使用
iii)XPathツリーマッチングと単語埋め込み技術を組み合わせて、言い回しおよび単語の選択が大きく異なる可能性があるにもかかわらず、構造および文法ツリーのパターンをマッチさせる。
9)名前付きエンティティ認識(NER):ドキュメント全体にわたって名前付きエンティティとして検出されるデータタイプを識別し、チャンクに割り当てる。
10)役割ラベリング、抽出ラベリング:名前が契約の「売り手」当事者を構成していること、または薬物がアレルギー対処方箋として言及されていることを表すような、セマンティックロールラベルをチャンクに割り当てる。
11)異常:検討中のドキュメントセットのドキュメントに通常存在する、または存在しないが、現在のドキュメントにはない(またはその逆)、セマンティックロールを特定する。
12)調停(Arbitration):チャンクの代替スコープ、データタイプ、およびセマンティックロールラベルを調整および/または選択し、XMLなどのフォーマットにおいて容易に表現可能な整形された構造を生成する。
13)DGML:ドキュメントの強化されたバージョンを作成し、これは、チャンクの位置、データタイプ、およびセマンティックロールラベルの明示的な識別情報、ならびに、場合によっては、それぞれの識別されたチャンクの信頼レベル、類似のチャンクにおいて期待されるデータタイプ(日付、日付範囲、個人名など)などの追加情報も含む。強化されたバージョンは、DGMLと呼ばれるXMLベースのマークアップ言語を使用して作成される。
14)フィードバック:強化されたバージョンをユーザに表示し、チャンク(およびおそらく省略されたチャンクの潜在的な位置)を選択してユーザを表示し、確認、拒否、または他の変更を行うためのユーザの選択を収集する。ユーザはまた、それらの独自の読み取りおよびレビューの順序を自由に選択できる。フィードバックはまた、ステップ(2)で説明されているように、ドキュメントをドキュメントセットの編成など、システムが行った任意の他の解釈に適用できる。
i)おそらく省略されたチャンクのケースでは、他のドキュメントから優先順位付けされた例を提供され、これは、必要に応じて現在のドキュメントを検査および/またはコピーし、より小さなネストされたチャンクにターゲットドキュメント値を適用することによって自動的にカスタマイズできる。
15)フィードバック応答:これらのインタラクションに対するユーザの応答を追跡し、その情報を使用してモデル120を微調整し、ならびに後に同じまたは同様のエラーを繰り返すことを防ぐ。
16)ダウンストリーム通信、送信:タイプおよび/またはロールごとにチャンクを選択し、それらを使用してドキュメントセットを介してレポートを生成し、および/またはバックエンド契約データベース、規制コンプライアンスチェッカー、管理レポートジェネレーターなどの機能を追加するダウンストリームシステムにそれらをエクスポートする。
・アップロード(Uploading)
・前処理(Preprocessing)
・大きなチャンクをレビュー(Review Large Chunks)
・小さなチャンクをレビュー(Review Small Chunks)
・使用する準備ができている(Ready to Use)
カラーコーディングは完了の度合いを示す。緑のステージは完了であり、赤のステージは処理中であり、黒のステージはまだ開始されていない。
ここでの番号付けは、この特定の例の分析の一般的な順序を反映している。しかし、すべてのステップがすべての前のステップに依存するわけではなく、結果として、多くの要素は、他の実装形態において並べ替えまたは並列化できる。要素はまた、シフトする、または繰り返して、追加情報を他の要素と交換できる、または要素は、別々のプロセスまたはマシンなどで独立して実行できる。
システムは、典型的なワードプロセッサドキュメント(MS Wordなど)およびページレイアウトドキュメント(PDFまたはpngファイルなど)を受け入れる。それぞれのケースにおいて、見出し、段落、テーブルセル、テーブル、画像などの視覚的に隣接する領域は、それらの相対位置、周囲の空白、フォントおよびレイアウトの特徴などの組み合わせを使用して、チャンクとして識別され、表現される。これらの特徴は、デザイナーによって部分的に選択され、多数のドキュメントの画像およびパターン分析によって部分的に学習される。機械で読み取り可能なテキストコンテンツがすでにない入力ドキュメントについては、OCRも適用される。
ユーザは、彼らがシステムにチェックインするドキュメントを編成する必要は無い。システムは、テキストコンテンツ、レイアウト情報、および既に検出された構造情報(いくつかの見出しの識別など)で動作するクラスタリング方法を使用して、ドキュメントを特定のタイプのドキュメントの「セット」、例えば、レンタル契約対リース対販売、にグループ化する。見つかった特定のドキュメントセットは、ユーザに確認されることができ、自動的にまたはユーザによってのいずれかで名前が付けられる。確立されると、これらのドキュメントセットは、フォーマット、コンテンツ、セマンティックロール、およびそれらの差についての後の機械学習および推論を容易にする。例えば、システムは、所与のセット内のほとんどすべてのドキュメントが、特定の役割の3つの特定のサブチャンクおよび個人名のデータタイプを有する特定のセクションを有し、そのうちの1つが5つの異なるセクションで再現されることを発見し得る。そのようなパターンを使用して、他のドキュメントの類似(および類似しない)部分を識別するのを支援し、ユーザにレビューまたは変更を提案し、同じ(またはおそらく異なる)セット内の他のドキュメントにおいて再利用するテキストの例を提供する。
i)エリア検出
このシステムは、ヒューリスティックおよび機械学習を使用して、幾何学的パターンに基づいてドキュメント内の領域を識別する。例えば、多くのドキュメントにおいて、意味のあるチャンクは、署名ブロック、抽象、定義のリスト、テーブルなどのような特別なレイアウトを有する。そのようなパターンを、幾何学的および/またはレイアウトの特徴、一意性または希少性、および/または同じドキュメント内またはドキュメント間のいずれか、特に同じドキュメントセット内での対応を考慮することによって、自動的に学習できる。
システムは、ドキュメントパーツの署名(「ダイジェスト」としても知られている)を作成し、これらを使用して「興味深い」追加のチャンクを識別および分類し、その境界を検出する。署名は、単にテキストコンテンツにだけでなく、コンテキストの様々な態様にも基づいており、より小さな含まれるチャンク(例えば、カウンターパート内のコンテンツが変化するフィールドチャンク)のコンテンツを無視し得る。
この態様は、レイアウト後のドキュメント(例えば、PDFまたはスキャンされた印刷ページ)を取り、ドキュメント内の認識された文字画像(「グリフ」)を、グリフの正しいドキュメント順序を表すテキストストリームに変換する(ストリームは、適切な場合、図または画像オブジェクトをも含み得、読み取り順序において、典型的な場所を有さない脚注またはページヘッダなどの複数のストリームが存在できる)。一部のドキュメントでは、読み取り順序の不完全な明示的な表現がある。よく知られている例は、通常、任意の所与の点において複数列レイアウトが有効であるという表示がなく、したがって、第1の「線」は、全体ではなく、半分(またはそれ未満)にわたってのみ延在するというものである。しかし、テキストの順序が複雑または不明確であり得る多くの追加の例がある。例えば、いくつかのレイアウトプログラムは各文字を個別に描画し、単語の境界は不明確となる。テーブルセル、サイドバー、図、脚注、および他の表示は、テキストの順序に明確な位置を有し得ない。ページヘッダおよびフッタ(ならびに行の終わりのハイフン)におけるようないくつかのテキストは、テキスト順序における場所を全く必要とし得ない。多くのフォーマットは、何かがそのような特別なカテゴリーにあるという明確な表示を提供しない。
テキストシーケンスおよびいくつかの仮定された構造チャンクを抽出すると、システムは、それらならびに視覚的特徴(フォント、色、サイズなど)に関する情報を含むドキュメントの表現(一例では「DGML」として知られている)を作成する。その位置、タイプ、役割などの情報を含むチャンクの表現は、「注釈」と呼ばれる。組み合わされたデータは、次いで、自然言語処理(NLP)およびディープニューラルネットワーク(DNN)によって使用できる。ディープニューラルネットワークはこの視覚情報を組み込み、ヘッダ/ボディ、リスト/リストアイテムなどのチャンクを含むドキュメント構造を表す階層にドキュメントを構造化するのを支援する。
構造パイプラインは、平坦なテキストファイルを階層構造に変換し、セクション、サブセクション、およびドキュメントの他の部分は、当業者に知られている構造であるコンテンツベースオブジェクトの順序付けられた階層を形成する。この変換は、教師なし機械学習技術を使用して行われる。この方法はいくつかのステージを有する。
これは、テキストを「ハイパーライン」にセグメント化することを含み、これは、ビジュアルラインよりも大きなグループであり、段落、見出し、または同様のものなどのより意味のある論理的な(ビジュアルとは対照的に)単位を備える。これは、トークン(特に先頭および末尾のトークン)の「単語形状」などの特徴、フォントおよびスペーシング特性などのレイアウト情報、ならびに類似の特徴を考慮する事前にトレーニングされたニューラルネットワークを使用して達成されることが好ましい。いくつかのハイパーラインは、以前のステップでも提供され得る(入力ドキュメントのフォーマット応じて)。
これは、単にテキストに基づく言語モデルの代わりに、テキストコンテンツ、フォーマッティング、およびこれまでに発見された構造に対する情報をも含むドキュメント言語モデルを使用することが好ましい。これは、フォーマットされたページから意味のあるチャンクおよびそれらの発生のパターンを認識するための学習により、チャンクおよびそれらの階層(ヘッダ/ボディ、リスト/リストアイテムなど)のより良好な検出を可能にする。
これは、単語形状構造に基づいてドキュメントセットにわたってハイパーラインをクラスタ化するためにオートエンコーダを使用し、各ハイパーラインを、レイアウト、開始および終了コンテンツ、ならびに他の特性に関して類似するハイパーラインのクラスタに割り当て、各クラスタは「クラスタID」によって識別される(これは、ドキュメントセットの作成または識別と混同されるべきではない)。
特に興味深い特別なケースは、「インライン見出し」であり、チャンクの見出し(チャンクのセマンティックロールを提供することがある)は、それ自体が別々の視覚的行にあるのではなく、以下のテキストの開始と同じ行にある。一般的に、インライン見出しは、太字、下線、異なるフォント、後続のコロン、またはその他の効果などによってタイポグラフィ的に区別される。別個のヒューリスティックおよびニューラルアルゴリズムは、これらのチャンクを識別する。
上記の高度な構造化方法にもかかわらず、生成される構造は、特定の不完全性を有する、またはユーザの先行的な期待を満たさないことが予想できる。少ショット構造学習は、ステップ(14)乃至(15)で説明したように、ユーザによって提供されるフィードバックに依存して機械学習モデルを作成することに対処する。次いで、このモデルを使用して、構造に関するユーザフィードバックと、システムによって既に生成されているものとを組み合わせた構造を生成する(おそらく、以前のフィードバックによって反復的に強化される)。
(a)最初に、機械翻訳モデルが、公的に利用可能なデータセットを使用して事前にトレーニングされる。
(b)「ディスパッチャ」(説明については「フィードバック応答」のセクションを参照)は、ユーザフィードバックをフィルタリングする。
(c)新しい構造ファイルがユーザフィードバックから生成され、微調整機械翻訳データセットが生成される。
(d)事前にトレーニングされたモデルはさらに、少ショット学習原理を使用してトレーニングされる。
この態様は、好ましくはハイパーラインクラスタリングステップからのクラスタIDのフラットリストが与えられると、プッシュダウンオートマトンを使用してネストされた構造を反復的に作成する「コーパス再ネスト」アルゴリズムを使用する。隣接するハイパーラインの署名を比較することによって、システムは、所与の見出しまたはリストアイテムが、より多く、等しく、またはより少ないネストされたレベルに属するかどうかを決定できる。これは、多くのドキュメント(チャプター、セクション、サブセクション、句、リストなど)の多重ネスト階層構造を再構築することを可能にする。
この態様は、ドキュメントの連続したチャンクにわたって語彙統計および他の学習技術を使用して、トピックがどこでシフトするかを検出する。これは、所与のトピックに関するセクション全体などの大きなチャンクの境界の識別を強化し、その理由は、セクション(どのようなレベルであっても)は、一般に、隣接するセクションよりも、その中でトピック、語彙、およびスタイルの均一性が高いからである。
i)見出しラベラー
図1に示すように、コーパス内の各ヘッダについて、このステップは
・各見出しの「埋め込み」として知られる数値表現を作成し、
・それらの埋め込みに少なくとも基づいて見出しをクラスタ化し、
・密度、アーティリティ、類似性のレベルなどの尺度に少なくとも基づいて、「悪い」クラスタを除外し、
・それぞれの残りのクラスタ内の最も一般的なセマンティックロールラベルを、前記クラスタ内のすべての見出しに伝搬する。
各チャンクについて、このステップは、キーフレーズ抽出技術(ルールベース言語技術、ML、統計、ベイジアン、および/またはその他など)のアンサンブルを使用して、テキストの候補セマンティックロールラベルを生成する。
i)文法
システムのこの態様は、スピーチタグ付けの一部、依存関係解析、構成要素解析、および他を含む自然言語処理タスクなどのテキストの言語学的分析から始まる。次いで、このシステムは、別のドメインからのツリーマッチング機構を適用して、NLPを介して発見されたツリーまたはツリー状構造内の文法的なおよび他の構造を位置付ける。これらは、XPath、GATE、および他のツールによって例示されるように、ツリー文法およびツリーパターンマッチングなどのドキュメント構造化方法を含む。
質問応答のためのBERTを含む質問応答技術は、候補チャンクのセマンティックロールラベル(例えば、日付、人名、ドル額)を識別するように特別に調整される。対照的に、ほとんどの従来の質問応答モデルは、「有効日は何か?」のような質問に応答することを目的とする。このシステムは、代わりに、「2018年7月8日は何か?」のような質問に答えるようにモデルをトレーニングし、「有効日」または「Xの有効日」を予測することを目的とし、Xは、テキスト中の別のチャンクを表す(単なる「日付」ではなく、これは、セマンティックロールではなくデータタイプである)。
ここで、「文法」の下で説明されているドメイン内のツールは、word 2 vec、char 2 vec、および多くの関連する方法などのテキストのベクトル-セマンティック表現を提供するツールと統合されている。このシステムは、アナリストが、XPathおよび類似のツールによってうまく処理される構造情報(XMLまたはDOM互換形式で表現されるチャンクのデータを含むことができる)と、ベクトルモデルによってうまく処理されるファジーまたは「意味論的」類似性情報との両方を含む、パターンを表現およびクエリすることを可能にする。
技術は、個人または企業名、住所などのデータタイプによっていくつかのチャンクを識別できる(これは「名前付きエンティティ認識」または「NER」として知られている)。しかし、NERはドキュメント内のこれらのエンティティのセマンティックロールを識別するのにかなり不足している。現在の技術はまた、句またはセクション全体などのより大きなチャンク、または意味のあるまたは有用なより大きなチャンクを含むチャンクのグループを識別することに失敗する。
ii)予想される単語
ウィキペディアなどの広範な一般的なテキストを使用してnグラムの言語モデルをトレーニングすることによって、「通常の英語に対してコンテキストにおいて予想される単語」のモデルを構築する。特定のドキュメントを見るとき、システムは、その一般的なモデルに適合せず、したがって、処理されているドキュメントに特有である傾向があるnグラムを識別するための手段を提供する。
これは、TF-IDFベースのアプローチ(「用語頻度対逆ドキュメント頻度」)であり、ラベル伝播およびコンテキストセマンティックラベリングと併せて使用される。
nグラムなどの小さな単語または文字シーケンスを抽出し、それらをコンテキスト埋め込み(例えば、BERTのもの)を使用してクラスタ化する。予想される結果は、意味論的意味を共有するnグラムが一緒にクラスタリングを開始することである。組み合わせエクスプロージョンのコストは、ヒューリスティック(構文ツリー上を含む)を使用して、クラスタリングの前にいくつかのnグラムをフィルタで除外することによって対処される。多種多様なクラスタリングアルゴリズムが適用され得る。この例では、hdbscanアルゴリズムは、「none」クラスタにランダムノイズを割り当てながら効果的なクラスタリングを達成する。
システムは少ショット学習技術を使用して、少数のラベル付けされたインスタンス(例えば、選択的なユーザフィードバック)から、学習されたパラメータのより広く適用可能なルールまたは調整までを一般化する。これは、ユーザにフィードバックを求めなければならない回数を大幅に削減し、システムのパフォーマンスをより迅速に向上する。
システムのこの側面は、チャンクを囲むセンテンスに直接現れる小さなチャンクのセマンティックロールラベルを検出する。意味のあるチャンクは、しばしば、コンテキストによって何らかの形で指定された役割を有する。例えば、以下である。
ジョン・ドゥ(「売り手」)は、…に住んでいる。
毎月の終わりまでに999ドルの賃料を支払わなければならない。
このプロセスは、センテンスの解析を含む以前に構築された構造上で動作するニューラルネットワークを使用して、テキストのどの部分が様々なチャンクのセマンティックロールラベルである可能性があるかを学習する。多くのチャンクは、さまざまなソースおよび信頼レベルを備えた、そのようなラベルを既に有し得るが、これは、それらについてのまたは対する追加の証拠、ならびに新しいラベルを提供する。ここでのパターンのいくつかは文法を伴う。例えば、「ドゥは、毎月の最終営業日までに$1000の賃料を支払うものとする」において、主要動詞は、通貨額の役割が何であるか、すなわち、それが支払われるべき賃料であること、を明らかにする。他のパターンは、構造、チャンキング、ラベリング、およびコンテキスト内で利用可能なコンテンツの特徴を使用して、教師ありおよび/または教師なしの方法によって自動的に学習される。括弧、テーブルレイアウト、キーフレーズおよび単語、ならびに他の特徴などのフォーマットはまた、ニューラルネットワークの特徴を提供する。
このプロセスは、ドキュメントのコーパス内のテキストの類似チャンクにわたってラベルを標準化する。これは、コンテキストから抽出されたラベルと、前のステップから利用可能なラベルとの両方に適用される。アルゴリズムは、凝集クラスタリングを使用してチャンクをそれらの埋め込みに基づいてクラスタリングし、重み付きページランクアルゴリズム(初期ノード重みとしてラベルの頻度/信頼度を使用する)を使用してチャンクの各クラスタについて候補ラベルをランク付けし、同時発生および埋め込み類似性を使用してラベルが互いにどのくらい類似しているかを決定する。次に、それらのクラスタレベルのスコアおよび我々がラベル付けしているチャンクが、ラベルの元のチャンクとどのくらい類似しているか(コンテンツ、埋め込み、構造、データタイプ、セマンティックロール、および/またはコンテキストの観点から)に基づいて、チャンクにラベルを割り当てる。凝集クラスタリングおよびページランクアルゴリズムを適用して、類似のコンテキストにわたってラベルを伝播させ、ドキュメントのセットにわたってラベルをより一貫性のあるようにする。
システムのこの態様は、ステップ(2)で生成されたようなドキュメントセット内の複数のドキュメントを検査し、現在のドキュメントで発生するが、一般に同じセットの他のドキュメントにカウンターパートチャンクを有していないチャンクを識別し、またはその逆も同様である。カウンターパートチャンクは、同一のコンテンツ、構造、フォーマット、コンテキスト、データタイプ、およびセマンティックロールを有する必要はないが、ひとつのドキュメントから別のドキュメントへのバリエーションを有し得る。それにもかかわらず、それらを、他の識別されたチャンクとそれらの方法において実質的に同様であると認識できる。
多くの前のステップは、ステップ(3)で生成された線形シーケンス内の文字、トークン、および/または非テキストオブジェクトの範囲として定義された(典型的には、必ずしも連続ではないが)ドキュメントのチャンクを作成および/または動作させる。
ドキュメントの強化バージョンは、ドキュメント構造、フォーマット、コンテンツ、および識別されたチャンクを表し、プロセスのどのステップでどのチャンクがどのレベルの信頼度で識別されたかを識別し得る。いくつかの実施形態は、この表現の構文としてXMLを使用するが、幅広い表現は、他のXMLスキーマ、JSON、様々なデータベース、カスタムテキストまたはバイナリフォーマットなどの実質的に同じ情報を含むことができる。
すでに説明した方法でドキュメントおよびその検出されたチャンクに添付された広範な注釈および分析は、サンプル、テンプレート、または以前のドキュメントの編集を通じてユーザを誘導し、現在のニーズに合わせてカスタマイズされた類似しているが新しいドキュメントを作成することを実現可能にする。例えば、このシステムは、通常、契約の対象となる当事者および財産、病歴、現在の所見、および臨床ノートの他の特定のセクションに記載されている薬または状態、関連する日付などを識別する。同じドキュメントセットの他のドキュメントも検査することによって、このシステムは、どの事柄が共通でないか、共通であるか、または必要であるかを学習し、したがって、何をレビューおよび/または更新すべきかについてユーザに対して、より有用な推奨を行うことができる。例えば、有効日は、ドキュメントセット内のほぼ全ての契約に存在し得るが、その値はそれぞれ異なり得る。同様に、当事者も変化するが、当事者の種類ははるかに一貫している。
ユーザとの相互作用では、システムは第1に、いくつかのドキュメントで検出された(または検出されなかった可能性がある)チャンクに関するフィードバックを要求する。フィードバックのために提示される最初のいくつかのドキュメントは、ドキュメントセットの「クラスタ重心(cluster centroids)」になる。最後のいくつかは、ドキュメントセットの「外れ値」になる。
この後、システムは、ドキュメントの選択された部分をユーザに示し、それらに対する現在のまたは潜在的なラベル、それらの範囲などについて尋ねることによってフィードバックを提供するようにユーザを誘導する。
a.「興味深いラベル」は、ページランクベースのアルゴリズムおよび文法および構造モデルによって決定される。これらのラベルのうち、信頼性の低いインスタンスのセットがレビューのために選択される。
b.現在のドキュメントに低信頼度ラベルがもはや存在しない場合、追加のドキュメントに対して同じプロセスを繰り返し得る。いくつかの実施形態では、モデルは、ユーザが提供しているフィードバックに基づいて継続的に更新される。しかし、代わりに、フィードバックを蓄積し、後で、バッチで、および/またはオフラインで適用できる。モデルに対する調整は、次いで、フィードバックのためにその後に提示されるチャンクおよびラベルの選択に影響を与えることができ、いくつかのドキュメントの再分析をトリガし得る。
c.このシステムは、実質的に同じメカニズムを使用して、フィールドおよび構造チャンクについてのフィードバックを求める。1つのアプローチでは、すべてのチャンク検出器は信頼性の推定値を提供し、これを、フィードバックの候補を選択するために他の情報と共に使用できる。
15)フィードバック応答
i)フリートクエリは、システムが、典型的には複数のユーザからのユーザフィードバックに基づいてプライベートおよびパブリックデータの両方をクエリすることを可能にする方法である。選択された例は、意味的におよび構文的に以前の障害ケースに類似しており、これはフィードバックの値を増加する。
ii)ディスパッチャ。ディスパッチャは、フィードバックから学習できる特定の学習モデル120に戻るいくつかのMLモデルおよび非MLアルゴリズムの組み合わされた出力に関するユーザフィードバックを接続するための方法論である。
説明されたようなチャンク情報を有するドキュメントに注釈を付けた後、選択された情報は、データベース、分析ツールなどの外部ビジネス情報システムによって必要とされる特定のフォーマットに変換され、それらのシステムに、直接または自動および/または手動のレビューステップを通じて、渡される。例えば、特定の当事者の名前および住所をデータベース内の正しいフィールドにコピーすることができ、これは、それらが「名前」および「住所」自体としてのみ識別された場合には自動的に行うことができない。ダウンストリームソフトウェアアプリケーションとの統合例については、図4を参照する。この例では、当事者が同意すると予想される用語を表すチャンクが抽出されており、それらは、Docusignと同様のダウンストリームアプリケーションに渡されて、記入され署名される。
Claims (100)
- ドキュメントを分析するおよび注釈を付けるための命令を実行するコンピュータシステム上に実装された方法であって、
複数のドキュメントを含むドキュメントセットにアクセスすることと、
前記ドキュメントセット内の個々のドキュメント内のチャンクを、(a)前記個々のドキュメント内のコンテンツ、レイアウト、およびコンテキストに基づいて、ならびに(b)前記ドキュメントセット内の前記ドキュメントにわたる前記コンテンツ、レイアウト、およびコンテキストのパターンに基づいて、自動的に識別することと、
前記ドキュメントセット内のドキュメントからの前記識別されたチャンクの分析に基づいて、前記ドキュメントセット内のドキュメントに注釈を付けることと、
を含むコンピュータ実装方法。 - コンテンツおよび/またはレイアウトの類似性に基づいて、ドキュメントを前記ドキュメントセット内にクラスタ化することによって前記ドキュメントセットを組み立てること、をさらに含む、請求項1に記載のコンピュータ実装方法。
- 前記ドキュメントセット内の個々のドキュメント内のチャンクを自動的に識別するステップは、さらに、(c)前記個々のドキュメント内のセマンティックロールを識別することに基づき、および(d)前記ドキュメントセット内の異なるドキュメント内のカウンターパートチャンクを識別することに基づいており、カウンターパートチャンクは異なるドキュメント内で同じセマンティックロールを果たす、請求項1に記載のコンピュータ実装方法。
- 異なるドキュメント内のカウンターパートチャンクを識別することは、
異なるドキュメントでは異なるが、前記異なるドキュメント内の実質的に同様のコンテキスト内で発生するコンテンツを識別することを含む、請求項3に記載のコンピュータ実装方法。 - 異なるドキュメント内のカウンターパートチャンクを識別することは、
異なるドキュメント内で実質的に同じコンテンツを識別することを含む、請求項3に記載のコンピュータ実装方法。 - 前記識別されたチャンクのいくつかに、前記チャンクを説明するメタデータで、注釈を付けることをさらに含み、異なるドキュメント内のカウンターパートチャンクを識別することは、前記メタデータの類似性に基づいている、請求項1に記載のコンピュータ実装方法。
- 前記ドキュメントセット内の前記ドキュメントにわたるパターンに基づいてチャンクを識別することは、
個々のドキュメントにおいて、前記ドキュメントセットの前記ドキュメントに共通して発生するが、前記個々のドキュメントに発生するようには見えないチャンクを識別することを含む、請求項1に記載のコンピュータ実装方法。 - 前記識別されたチャンクは、
ドキュメントテンプレートにおけるフィールドとして使用するのに適した前記ドキュメント内のコンテンツを含むフィールドチャンクと、
前記ドキュメントの前記レイアウト内の構造を含むコンテンツを含む構造チャンクと、を含む、請求項1に記載のコンピュータ実装方法。 - 前記フィールドチャンクのうちのいくつかは階層的であり、サブチャンクとして他のチャンクを含む、請求項8に記載のコンピュータ実装方法。
- 前記識別されたチャンクのうちのいくつかは、他のチャンクによって果たされるセマンティックロールを記述するコンテンツを含む、請求項1に記載のコンピュータ実装方法。
- 前記チャンクのデータタイプおよび前記チャンクのセマンティックロールを用いて、前記識別されたチャンクのうちのいくつかに注釈を付けることをさらに含む、請求項1に記載のコンピュータ実装方法。
- レイアウトに基づいてチャンクを識別することは、
行指向テキストを構造チャンクにグループ化することであって、前記グループ化は、単語形状、最初および最後のトークン、フォーマッティング特性、および/または句読点に基づくことを含む、請求項1に記載のコンピュータ実装方法。 - レイアウトに基づいてチャンクを識別することは、
ページ画像のタイルに対してトレーニングされた機械学習推論を使用して、構造チャンクの空間境界を識別することを含む、請求項1に記載のコンピュータ実装方法。 - レイアウトに基づいてチャンクを識別することは、
前記レイアウトの幾何学的パターンの人工知能ベースの視覚的認識を使用して、構造チャンクの空間境界を識別することを含む、請求項1に記載のコンピュータ実装方法。 - レイアウトに基づいてチャンクを識別することは、
非テキスト構造特徴のレイアウトに基づいて構造チャンクを識別することであって、前記非テキスト構造特徴が、図、テーブル、サイドバー、脚注、およびページヘッダまたはフッタのうちの少なくとも1つを含む、ことを含む、請求項1に記載のコンピュータ実装方法。 - コンテンツに基づいてチャンクを識別することは、
トピック推定のためのAI技術を使用してチャンクを識別することを含む、請求項1に記載のコンピュータ実装方法。 - コンテンツに基づいてチャンクを識別することは、
少ショット名前付きエンティティ認識技術を使用して、前記ドキュメントのセット内のチャンクを識別することを含む、請求項1に記載のコンピュータ実装方法。 - 誤って識別されたチャンクに対するユーザ補正を受信することと、
前記ユーザ補正に応答してチャンクを自動的に前記識別することを改善することと、をさらに含む、請求項1に記載のコンピュータ実装方法。 - ドキュメントを分析および改善するための実行可能なコンピュータプログラム命令を格納する非一時的コンピュータ可読記憶媒体であって、前記コンピュータプログラム命令は、コンピュータシステムによって実行可能であり、前記コンピュータシステムに、
複数のドキュメントを含むドキュメントセットにアクセスすることと、
前記ドキュメントセット内の個々のドキュメント内のチャンクを、(a)前記個々のドキュメント内のコンテンツ、レイアウト、およびコンテキストに基づいて、ならびに(b)前記ドキュメントセット内の前記ドキュメントにわたる前記コンテンツ、レイアウト、およびコンテキストのパターンに基づいて、自動的に識別することと
前記ドキュメントセット内のドキュメントからの前記識別されたチャンクの分析に基づいて、前記ドキュメントセット内のドキュメントに注釈を付けることと、
を含む方法を実行させる、非一時的コンピュータ可読記憶媒体。 - ドキュメントを分析および改善するためのコンピュータシステムであって、
複数のドキュメントを含むドキュメントセットを受信し格納する記憶媒体と、
前記記憶媒体へのアクセスを有し、ドキュメントを分析するおよび注釈を付けるためのアプリケーションプログラムを実行するプロセッサシステムと、
を含み、
前記プロセッサシステムが、
前記ドキュメントセット内の個々のドキュメント内のチャンクを、(a)前記個々のドキュメント内のコンテンツ、レイアウト、およびコンテキストに基づいて、ならびに(b)前記ドキュメントセット内の前記ドキュメントにわたる前記コンテンツ、レイアウト、およびコンテキストのパターンに基づいて、自動的に識別し、
前記ドキュメントセット内のドキュメントからの前記識別されたチャンクの分析に基づいて、前記ドキュメントセット内のドキュメントに注釈を付ける、
前記アプリケーションプログラムを実行する、
コンピュータシステム。 - ドキュメントを分析および改善するための命令を実行するコンピュータシステム上に実装された方法であって、
複数のドキュメントを含むドキュメントセットにアクセスすることであって、前記ドキュメントセットは、前記ドキュメントセットの個々のドキュメント内のチャンクも識別する、ことと、
セマンティックロールラベルを複数のチャンクに自動的に割り当てることであって、前記セマンティックロールラベルは、前記チャンクによって果たされるセマンティックロールを記述し、セマンティックロールラベルを前記チャンクに自動的に割り当てることは、(a)機械学習および/または自然言語処理方法を使用してチャンクのセマンティックロールを決定することを含み、(b)それぞれのドキュメント内で同じセマンティックロールを果たすと識別される異なるドキュメント内のチャンクにも基づく、ことと
前記ドキュメントセット内のドキュメントのさらなる処理において、前記チャンクおよびそれらのセマンティックロールラベルを使用することと、
を含むコンピュータ実装方法。 - 前記ドキュメントセット内の前記複数のドキュメントは、すべて同じドキュメントタイプである、請求項21に記載のコンピュータ実装方法。
- 前記ドキュメントセット内の前記チャンクは、
ドキュメントテンプレートにおけるフィールドとして使用するのに適した前記ドキュメント内のコンテンツを含むフィールドチャンクであって、前記フィールドチャンクのいくつかは階層的であり、サブチャンクとして他のチャンクを含む、フィールドチャンクと、
前記ドキュメントのレイアウト内の構造を含むコンテンツを含む構造チャンクと、
を含む、請求項21に記載のコンピュータ実装方法。 - 前記ドキュメントセットは法律ドキュメントを含み、前記セマンティックロールは、(a)前記法律ドキュメントの当事者によって果たされる役割と、(b)日付、期間または他の時間表現によって果たされる役割とを含む、請求項21に記載のコンピュータ実装方法。
- セマンティックロールラベルをチャンクに自動的に割り当てることは、
前記セマンティックロールラベルのいくつかをチャンクから自動的に抽出することと、
前記抽出されたセマンティックロールラベルをチャンクに割り当てることと、
を含む、請求項21に記載のコンピュータ実装方法。 - セマンティックロールラベルをチャンクに自動的に割り当てることは、
機械学習を使用して、(a)個々のドキュメント内のチャンクのコンテンツ、レイアウト、およびコンテキストに基づいて、(b)前記ドキュメントセット内の前記ドキュメントにわたるチャンクのコンテンツ、レイアウト、およびコンテキストのパターンに基づいて、ならびに(c)チャンクのデータタイプに基づいて、チャンクからセマンティックロールラベルを自動的に抽出することと
前記抽出されたセマンティックロールラベルをチャンクに割り当てることと、
を含む、請求項21に記載のコンピュータ実装方法。 - セマンティックロールラベルをチャンクに自動的に割り当てることは、
オートエンコーダ機械学習技術を使用して、前記セマンティックロールラベルのいくつかを自動的に抽出することと、
前記抽出されたセマンティックロールラベルをチャンクに割り当てることと、
を含む、請求項21に記載のコンピュータ実装方法。 - セマンティックロールラベルをチャンクに自動的に割り当てることは、
候補セマンティックロールラベルを前記チャンクから自動的に抽出することと、
機械学習を使用して、前記候補セマンティックロールラベルを洗練することと、
前記抽出されたセマンティックロールラベルをチャンクに割り当てることと、
を含む、請求項21に記載のコンピュータ実装方法。 - セマンティックロールラベルをチャンクに自動的に割り当てることは、
前記ドキュメントセット内の異なるドキュメントからのチャンクのコンテンツ、レイアウトおよび/またはコンテキストの類似性に基づいて、チャンクから前記セマンティックロールラベルのいくつかを自動的に抽出することと
前記抽出されたセマンティックロールラベルをチャンクに割り当てることと、
を含む、請求項21に記載のコンピュータ実装方法。 - セマンティックロールラベルをチャンクに自動的に割り当てることは、
候補セマンティックロールラベルをチャンクに割り当てることと、
前記チャンクによって果たされる前記セマンティックロールの類似性に基づいて、チャンクをクラスタにグループ化することと、
クラスタ内の前記チャンクの間の前記候補セマンティックロールラベルを標準化することと、
前記標準化されたセマンティックロールラベルをチャンクに割り当てることと、
を含む、請求項21に記載のコンピュータ実装方法。 - セマンティックロールラベルをチャンクに自動的に割り当てることは、
候補セマンティックロールラベルをチャンクに割り当てることと、
前記チャンクのサイズおよびテキスト埋め込みの類似性に基づいて、チャンクをチャンククラスタにグループ化することと、
前記候補セマンティックロールラベルのテキスト埋め込みの類似性に基づいて、候補セマンティックロールラベルをラベルクラスタにグループ化することと、
前記チャンククラスタおよび前記ラベルクラスタに基づいて前記候補セマンティックロールラベルを標準化することと、
前記標準化されたセマンティックロールラベルをチャンクに割り当てることと、
を含む、請求項21に記載のコンピュータ実装方法。 - セマンティックロールラベルをチャンクに自動的に割り当てることは、
候補セマンティックロールラベルをドキュメントのセクションを含むチャンクに割り当てることであって、前記候補セマンティックロールラベルが前記セクションの見出しに基づいている、ことと、
前記セクション内のコンテンツの類似性に基づいて、前記チャンクをクラスタにグループ化することと、
前記候補セマンティックロールラベルを、クラスタ内のすべてのチャンクの前記セマンティックロールラベルとして最も一般的な候補セマンティックロールラベルを選択することによって標準化することと、
前記標準化されたセマンティックロールラベルをチャンクに割り当てることと、
を含む、請求項21に記載のコンピュータ実装方法。 - 前記セマンティックロールラベルは、セマンティックロールラベルの所定のセットから選択される、請求項21に記載のコンピュータ実装方法。
- 前記セマンティックロールラベルは、前記ドキュメントセット内のドキュメントのさらなる処理のために使用されるソフトウェアアプリケーションによって認識されるラベルを含む、請求項21に記載のコンピュータ実装方法。
- セマンティックロールラベルをチャンクに自動的に割り当てることは、
(a)機械学習を使用して、近くにある他のチャンクに基づいて、または前記チャンクを含むチャンクを含むことに基づいて、チャンクのセマンティックロールを決定すること、
または(b)近くのチャンクの文法的構造に基づいて、自然言語処理方法を使用して、チャンクのセマンティックロールを決定すること、
の少なくとも1つを含む、請求項21に記載のコンピュータ実装方法。 - 前記チャンクのいくつかは名前付きエンティティ参照であり、そのようなチャンクは、前記ドキュメント内のそれらの前記チャンクによって果たされる前記セマンティックロールに対するセマンティックロールラベルでラベル付けされ、そのようなチャンクはまた、前記チャンクのデータタイプでラベル付けされる、請求項21に記載のコンピュータ実装方法。
- 前記チャンクのいくつかは前記ドキュメント内のマルチパラグラフ構造であり、そのようなチャンクは、前記ドキュメント内のそれらのチャンクによって果たされる前記セマンティックロールに対するセマンティックロールラベルでラベル付けされる、請求項21に記載のコンピュータ実装方法。
- 前記自動的に割り当てられたセマンティックロールラベルの信頼レベルを推定することと、
前記推定された信頼レベルに基づいて、確認のためにいくつかの割り当てをユーザに提示することと、
前記自動的に割り当てられたセマンティックロールラベルに対するユーザフィードバックを受信することと、
前記ユーザフィードバックに応答して、前記機械学習および/または自然言語処理方法を改善することと、
をさらに含む、請求項21に記載のコンピュータ実装方法。 - ドキュメントを分析および改善するための実行可能なコンピュータプログラム命令を格納する非一時的コンピュータ可読記憶媒体であって、前記コンピュータプログラム命令は、コンピュータシステムによって実行可能であり、前記コンピュータシステムに
複数のドキュメントを含むドキュメントセットにアクセスすることであって、前記ドキュメントセットは、前記ドキュメントセットの個々のドキュメント内のチャンクも識別する、ことと、
セマンティックロールラベルを複数のチャンクに自動的に割り当てることであって、前記セマンティックロールラベルは、前記チャンクによって果たされるセマンティックロールを記述し、セマンティックロールラベルを前記チャンクに自動的に割り当てることは、(a)機械学習および/または自然言語処理方法を使用してチャンクのセマンティックロールを決定することを含み、(b)それぞれのドキュメント内で同じセマンティックロールを果たすと識別される異なるドキュメント内のチャンクにも基づく、ことと
前記チャンクおよびそれらのセマンティックロールラベルを、前記ドキュメントセット内のドキュメントのさらなる処理のために利用可能にすることと
を含む方法を実行させる、非一時的コンピュータ可読記憶媒体。 - ドキュメントを分析および改善するためのコンピュータシステムであって、
複数のドキュメントを含むドキュメントセットを受信して格納するための記憶媒体であって、前記ドキュメントセットはまた、前記ドキュメントセットの個々のドキュメント内のチャンクを識別する、記憶媒体と
前記記憶媒体へのアクセスを有し、ドキュメントを分析および改善するためのアプリケーションプログラムを実行するプロセッサシステムと、
を含み、
前記プロセッサシステムが
セマンティックロールラベルを複数の前記チャンクに自動的に割り当て、前記セマンティックロールラベルは前記チャンクによって果たされるセマンティックロールを記述し、セマンティックロールラベルを前記チャンクに自動的に割り当てることは、(a)機械学習および/または自然言語処理方法を使用してチャンクのセマンティックロールを決定することを含み、(b)それぞれのドキュメント内で同じセマンティックロールを果たすと識別される異なるドキュメント内のチャンクにも基づき、
前記チャンクおよびそれらのセマンティックロールラベルを前記ドキュメントセット内のドキュメントのさらなる処理のために利用可能にする、
前記アプリケーションプログラムを実行する、
コンピュータシステム。 - ドキュメントを処理するための命令を実行するコンピュータシステム上に実装された方法であって、
複数のドキュメントを含むドキュメントセットを処理して、前記ドキュメント内のチャンクを識別し、対応する注釈を生成することであって、
前記ドキュメントの画像を処理して、前記ドキュメントの前記画像の視覚的に異なる領域を含む視覚的チャンクを識別し、前記視覚的チャンクの間隔およびフォーマットを指定する第1の注釈を生成し、
ビジュアルチャンクおよび第1の注釈を処理して、前記ビジュアルチャンク内の構造からのコンテンツを含む構造チャンクを識別し、前記構造チャンクのレイアウトを指定する第2の注釈を生成し、
前記構造チャンクおよび第2の注釈を処理して、トピックに従って構造チャンク内のコンテンツのグループ化に基づいてトピックレベルのチャンクを識別し、前記トピックレベルのチャンクのトピックを指定する第3の注釈を生成し、
前記トピックレベルのチャンクおよび第3の注釈を処理して、ドキュメントテンプレート内のフィールドとして使用するのに適したコンテンツを含むフィールドチャンクを識別し、前記フィールドチャンクの前記フィールドを指定する第4の注釈を生成する、
ステージを含む、ことと、
前記フィールドチャンクと、前記ドキュメントからの他の識別されたチャンクの少なくとも一部と、前記チャンクに対する対応する注釈と、を含むフォーマットにおいて、前記処理されたドキュメントの表現を生成することと
ダウンストリームプロセスにおける複数のソフトウェアアプリケーションのいずれかによって使用するために利用可能なフォーマットの表現を作成することと、
を含むコンピュータ実装方法。 - 前記処理されたドキュメントの前記表現は、前記ドキュメントを処理する際に識別された前記チャンクの全て、および前記ドキュメントを処理する際に生成された前記対応する注釈の全てを含む、請求項41に記載のコンピュータ実装方法。
- 前記ドキュメントを処理する前記ステージのそれぞれが、機械学習、人工知能、および/または自然言語処理を使用する、請求項41に記載のコンピュータ実装方法。
- 前記ドキュメントを処理する前記ステージのそれぞれが、100%未満の信頼度でチャンクを識別する、請求項41に記載のコンピュータ実装方法。
- 前記処理されたドキュメントの前記表現は、チャンクの前記識別の信頼レベルを指定する注釈をさらに含む、請求項44に記載のコンピュータ実装方法。
- 誤って識別されたチャンクに対するユーザ補正を受信することと、
前記ユーザ補正に応答してチャンクを自動的に識別する前記ステージを改善することと、をさらに含む、請求項44に記載のコンピュータ実装方法。 - 前記視覚的チャンクを処理する、構造チャンクを処理する、およびトピックレベルチャンクを処理する前記ステージは、他の視覚的チャンク内に含まれる視覚的チャンクについて再帰的に実行される、請求項41に記載のコンピュータ実装方法。
- 前記処理されたドキュメントの前記表現は、複数の前記チャンクのデータタイプおよびセマンティックロールラベルに対する注釈をさらに含み、前記セマンティックロールラベルは、前記チャンクによって果たされるセマンティックロールを記述する、請求項41に記載のコンピュータ実装方法。
- いくつかのより高いレベルのチャンクは、サブチャンクとして他のより低いレベルのチャンクを含み、前記処理されたドキュメントの前記表現は、より高いレベルのチャンクにおけるより低いレベルのチャンクの包含を指定する注釈をさらに含む、請求項41に記載のコンピュータ実装方法。
- いくつかのチャンクは階層関係を有し、前記処理されたドキュメントの前記表現は、チャンク間の階層関係を指定する注釈をさらに含む、請求項41に記載のコンピュータ実装方法。
- 前記処理されたドキュメントの前記表現における前記チャンクは、複数の異なるレベルにて、複数のセクション、見出し、リスト、項目、マーカ、および/または名前付きエンティティを含む、請求項41に記載のコンピュータ実装方法。
- 前記ドキュメントセット内の前記複数のドキュメントは、すべて同じドキュメントタイプである、請求項41に記載のコンピュータ実装方法。
- コンテンツおよび/またはレイアウトの類似性に基づいて、ドキュメントを前記ドキュメントセット内にクラスタ化することによって前記ドキュメントセットを組み立てること、をさらに含む、請求項41に記載のコンピュータ実装方法。
- 前記処理されたドキュメントの表現は、XMLフォーマットである、請求項41に記載のコンピュータ実装方法。
- 前記処理されたドキュメントの前記表現は、デジタル署名を使用して実装されるチャンクの位置に関する注釈をさらに含む、請求項41に記載のコンピュータ実装方法。
- 前記ドキュメントが元のレイアウトを有し、前記処理されたドキュメントの前記表現が、前記元のレイアウトで前記ドキュメントを再構築するのに十分な情報を含む、請求項41に記載のコンピュータ実装方法。
- 前記複数のソフトウェアアプリケーションは、ユーザが前記処理されたドキュメントの前記表現を作成、編集、および/またはレビューするためのユーザインターフェースを有するソフトウェアアプリケーションを含む、請求項41に記載のコンピュータ実装方法。
- 前記フォーマットは、標準化された公開されたフォーマットである、請求項41に記載のコンピュータ実装方法。
- ドキュメントを処理するための実行可能なコンピュータプログラム命令を格納する非一時的コンピュータ可読記憶媒体であって、前記コンピュータプログラム命令は、コンピュータシステムによって実行可能であり、前記コンピュータシステムに、
複数のドキュメントを含むドキュメントセットを処理して、前記ドキュメント内のチャンクを識別し、対応する注釈を生成することであって、
前記ドキュメントの画像を処理して、前記ドキュメントの前記画像の視覚的に異なる領域を含む視覚的チャンクを識別し、前記視覚的チャンクの間隔およびフォーマットを指定する第1の注釈を生成し、
ビジュアルチャンクおよび第1の注釈を処理して、前記ビジュアルチャンク内の構造からのコンテンツを含む構造チャンクを識別し、前記構造チャンクのレイアウトを指定する第2の注釈を生成し、
前記構造チャンクおよび第2の注釈を処理して、トピックに従って構造チャンク内のコンテンツのグループ化に基づいてトピックレベルのチャンクを識別し、前記トピックレベルのチャンクのトピックを指定する第3の注釈を生成し、
前記トピックレベルのチャンクおよび第3の注釈を処理して、ドキュメントテンプレート内のフィールドとして使用するのに適したコンテンツを含むフィールドチャンクを識別し、前記フィールドチャンクの前記フィールドを指定する第4の注釈を生成する、
ステージを含む、ことと、
前記フィールドチャンクと、前記ドキュメントからの他の識別されたチャンクの少なくとも一部と、前記チャンクに対する対応する注釈と、を含むフォーマットにおいて、前記処理されたドキュメントの表現を生成することと
ダウンストリームプロセスにおける複数のソフトウェアアプリケーションのいずれかによって使用するために利用可能なフォーマットの表現を作成することと、
を含む方法を実行させる、非一時的コンピュータ可読記憶媒体。 - ドキュメントを処理するためのコンピュータシステムであって、
複数のドキュメントを含むドキュメントセットを受信し格納する記憶媒体と、
前記記憶媒体へのアクセスを有し、ドキュメントを処理するためのアプリケーションプログラムを実行するプロセッサシステムと、
を含み、
前記プロセッサシステムが、
前記複数のドキュメントを処理して、前記ドキュメント内のチャンクを識別し、対応する注釈を生成することであって、
前記ドキュメントの画像を処理して、前記ドキュメントの前記画像の視覚的に異なる領域を含む視覚的チャンクを識別し、前記視覚的チャンクの間隔およびフォーマットを指定する第1の注釈を生成し、
ビジュアルチャンクおよび第1の注釈を処理して、前記ビジュアルチャンク内の構造からのコンテンツを含む構造チャンクを識別し、前記構造チャンクのレイアウトを指定する第2の注釈を生成し、
前記構造チャンクおよび第2の注釈を処理して、トピックに従って構造チャンク内のコンテンツのグループ化に基づいてトピックレベルのチャンクを識別し、前記トピックレベルのチャンクのトピックを指定する第3の注釈を生成し、
前記トピックレベルのチャンクおよび第3の注釈を処理して、ドキュメントテンプレート内のフィールドとして使用するのに適したコンテンツを含むフィールドチャンクを識別し、前記フィールドチャンクの前記フィールドを指定する第4の注釈を生成する、
ステージを含む、ことと、
前記フィールドチャンクと、前記ドキュメントからの他の識別されたチャンクの少なくとも一部と、前記チャンクに対する対応する注釈と、を含むフォーマットにおいて、前記処理されたドキュメントの表現を生成することと
ダウンストリームプロセスにおける複数のソフトウェアアプリケーションのいずれかによって使用するために利用可能なフォーマットの表現を作成することと、
を含む前記アプリケーションプログラムを実行する、
前記コンピュータシステム。 - ユーザがドキュメントのセットに属するターゲットドキュメントを開発するのを支援するための命令を実行するコンピュータシステム上に実装された方法であって、
複数のドキュメントを含むドキュメントセットにアクセスすることであって、前記ドキュメントセットは、前記ドキュメントセットの個々のドキュメント内のチャンクも識別し、前記チャンクのいくつかについてのデータタイプおよびセマンティックロールラベルも含み、前記セマンティックロールラベルは、それぞれのドキュメント内で前記チャンクによって果たされるセマンティックロールを記述する、ことと
(a)前記ドキュメントセット内の前記ドキュメントにわたってチャンクによって果たされるセマンティックロールの発生の、および(b)前記ドキュメントセットにわたって異なるドキュメント内のカウンターパートチャンクの発生のパターンを導出することであって、カウンターパートチャンクは異なるドキュメントにおいて同じセマンティックロールを果たす、ことと、
ユーザが前記ドキュメントのセットに属するターゲットドキュメントを開発するためのユーザインターフェースを提供することと、
前記ドキュメントセットにわたる前記導出された発生のパターンに基づいて前記ターゲットドキュメントを開発するための提案を自動的に生成し、前記ユーザインターフェース内に前記提案を表示することと、
を含む、コンピュータ実装方法。 - 前記発生のパターンを導出することは、前記発生のパターンを導出するために機械学習および/または人工知能を使用することを含む、請求項61に記載のコンピュータ実装方法。
- 前記ドキュメントセット内の前記複数のドキュメントは、すべて同じドキュメントタイプである、請求項61に記載のコンピュータ実装方法。
- 前記ドキュメントセット内の個々のドキュメント内のチャンクの発生のパターンを導出することをさらに含み、提案を自動的に生成することはさらに、そのような導出されたパターンに基づく、
請求項61に記載のコンピュータ実装方法。 - 前記ドキュメントセット内の前記チャンクは、
ドキュメントテンプレートにおけるフィールドとして使用するのに適した前記ドキュメント内のコンテンツを含むフィールドチャンクであって、前記フィールドチャンクのいくつかは階層的であり、サブチャンクとして他のチャンクを含む、フィールドチャンクと、
前記ドキュメントのレイアウト内の構造からのコンテンツを含む構造チャンクであって、前記セマンティックロールラベルは、前記構造チャンクのいくつかに対するセマンティックロールラベルを含む、構造チャンクと
画像または動画を含むチャンクと、
を含む、請求項61に記載のコンピュータ実装方法。 - 前記ターゲットドキュメント内のチャンクを、前記ドキュメントセットにわたるセマンティックロールおよび/またはカウンターパートチャンクの前記導出された発生のパターンと比較することであって、いくつかの提案が前記比較に基づいて自動的に生成される、ことをさらに含む、請求項61に記載のコンピュータ実装方法。
- 前記ドキュメントセットにわたるセマンティックロールおよび/またはカウンターパートチャンクの前記導出された発生のパターンと比較して、前記ターゲットドキュメントにおけるセマンティックロールの発生における異常を識別することであって、少なくとも1つの提案が前記識別された異常に基づいて自動的に生成される、こと、
をさらに含む、請求項61に記載のコンピュータ実装方法。 - 前記識別された異常は前記ターゲットドキュメント内にでは欠落しているが、前記ドキュメントセット内で一般的に発生している、セマンティックロールを識別することを含み、
前記自動的に生成された提案は、前記欠落しているセマンティックロールに対するコンテンツを追加することを含む、請求項67に記載のコンピュータ実装方法。 - 前記識別された異常は、前記ターゲットドキュメント内で発生するが、前記ドキュメントセット内で一般的に発生しない、余分なセマンティックロールを識別することを含み、
前記自動的に生成された提案は、前記余分なセマンティックロールについて対応するチャンクを除去または修正することを含む、請求項67に記載のコンピュータ実装方法。 - 前記識別された異常は、前記ターゲットドキュメント内で発生し、前記ドキュメントセット内でも一般的に発生しているセマンティックロールを識別することを含むが、前記ターゲットドキュメント内の対応するチャンクのコンテンツは、前記ドキュメントセット内の前記対応するチャンクのコンテンツと一致せず、
前記自動的に生成された提案は前記ターゲットドキュメント内の前記一致しないコンテンツを除去または修正することを含む、請求項67に記載のコンピュータ実装方法。 - 前記識別されたチャンクはドキュメントテンプレートにおけるフィールドとして使用するのに適した前記ドキュメント内のコンテンツを含むフィールドチャンクを含み、
前記導出されたパターンは、前記フィールドチャンクの1つについて、前記カウンターパートチャンクが同じコンテンツを実質的にすべて含むパターンを含み、
少なくとも1つの自動的に生成された提案は、前記フィールドチャンクに対して、前記同じコンテンツを前記ターゲットドキュメントに入力することを含む、請求項61に記載のコンピュータ実装方法。 - 前記ユーザに提案を表示することは前記ユーザが前記提案を承諾するまたは拒否するためのオプションとともにいくつかの提案を表示することを含む、請求項61に記載のコンピュータ実装方法。
- (a)前記ユーザが前記ターゲットドキュメントに対する個々の提案を承諾したことに応答して、前記ターゲットドキュメントにおける前記承諾された提案の生成につながった前記ターゲットドキュメントにおける前記同じパターンを示す第2のターゲットドキュメントに対して前記同じ提案を繰り返すことと、
(b)前記ユーザが前記ターゲットドキュメントに対する個々の提案を拒否することに応答して、前記ターゲットドキュメントにおける前記拒否された提案の生成につながった前記ターゲットドキュメントにおける前記同じパターンを示す第3のターゲットドキュメントに対して前記同じ提案を繰り返さないことと、
の少なくとも一つをさらに含む、請求項61に記載のコンピュータ実装方法。 - いくつかの提案を自動的に適用することをさらに含み、前記ユーザに提案を表示することは前記自動的に適用された提案を前記ユーザが確認するためのオプションを表示することを含む、請求項61に記載のコンピュータ実装方法。
- 前記提案を表示することは前記ユーザインターフェース内の前記提案における信頼度によってランク付けされた順序で前記提案を表示することを含む、請求項61に記載のコンピュータ実装方法。
- 前記ターゲットドキュメント自体内のパターンに基づいて、および/または前記ドキュメントセットの外のドキュメント内のパターンに基づいて、前記ターゲットドキュメントに対する追加の提案を自動的に生成することであって、前記ターゲットドキュメント内のパターンに基づく、前記ドキュメントセット内のパターンに基づく、および前記ドキュメントセットの外のドキュメント内のパターンに基づく前記提案が、異なる優先度で前記ユーザインターフェース内に表示される、ことをさらに含む、請求項61に記載のコンピュータ実装方法。
- 前記自動的に生成された提案は前記ユーザおよび/または前記ユーザの所属にさらに依存する、請求項61に記載のコンピュータ実装方法。
- (a)前記ターゲットドキュメントが前記ユーザによって編集されている既存のドキュメントであり、前記自動的に生成された提案が前記既存のドキュメントを編集するための提案を含むこと、および(b)前記ターゲットドキュメントが前記ユーザによって作成されている新しいドキュメントであり、前記自動的に生成された提案が前記新しいドキュメントを作成するための提案を含むこと、の少なくとも1つである、請求項61に記載のコンピュータ実装方法。
- ユーザがドキュメントのセットに属するターゲットドキュメントを開発するのを支援するための実行可能なコンピュータプログラム命令を格納する非一時的コンピュータ可読記憶媒体であって、前記コンピュータプログラム命令は、コンピュータシステムによって実行可能であり、前記コンピュータシステムに、
複数のドキュメントを含むドキュメントセットにアクセスすることであって、前記ドキュメントセットは、前記ドキュメントセットの個々のドキュメント内のチャンクも識別し、前記チャンクのいくつかについてのデータタイプおよびセマンティックロールラベルも含み、前記セマンティックロールラベルは、それぞれのドキュメント内で前記チャンクによって果たされるセマンティックロールを記述する、ことと
(a)前記ドキュメントセット内の前記ドキュメントにわたってチャンクによって果たされるセマンティックロールの発生の、および(b)前記ドキュメントセットにわたって異なるドキュメント内のカウンターパートチャンクの発生のパターンを導出することであって、カウンターパートチャンクは異なるドキュメントにおいて同じセマンティックロールを果たす、ことと、
ユーザが前記ドキュメントのセットに属するターゲットドキュメントを開発するためのユーザインターフェースを提供することと、
前記ドキュメントセットにわたる前記導出されたチャンクのパターンに基づいて前記ターゲットドキュメントを開発するための提案を自動的に生成し、前記ユーザインターフェース内に前記提案を表示することと、
を含む方法を実行させる、非一時的コンピュータ可読記憶媒体。 - ユーザがドキュメントのセットに属するターゲットドキュメントを開発するのを支援するためのコンピュータシステムであって、
複数のドキュメントを含むドキュメントセットを受信し格納するための記憶媒体であって、前記ドキュメントセットは、前記ドキュメントセットの個々のドキュメント内のチャンクも識別し、前記チャンクのいくつかについてのデータタイプおよびセマンティックロールラベルも含み、前記セマンティックロールラベルは、それぞれのドキュメント内で前記チャンクによって果たされるセマンティックロールを記述する、記憶媒体と、
前記記憶媒体へのアクセスを有し、前記ターゲットドキュメントを開発するためのアプリケーションプログラムを実行するプロセッサシステムと、
を含み、
前記プロセッサシステムが、
(a)前記ドキュメントセット内の前記ドキュメントにわたってチャンクによって果たされるセマンティックロールの発生の、および(b)前記ドキュメントセットにわたって異なるドキュメント内のカウンターパートチャンクの発生のパターンを導出し、カウンターパートチャンクは異なるドキュメントにおいて同じセマンティックロールを果たし、
ユーザが前記ドキュメントのセットに属するターゲットドキュメントを開発するためのユーザインターフェースを提供し、
前記ドキュメントのセットにわたる前記導出されたチャンクのパターンに基づいて前記ターゲットドキュメントを開発するための提案を自動的に生成し、前記ユーザインターフェース内に前記提案を表示する、
前記アプリケーションプログラムを実行する、
コンピュータシステム。 - ユーザがドキュメントのセットをレビューするのを支援するための命令を実行するコンピュータシステム上に実装された方法であって、
複数のドキュメントを含むドキュメントセットにアクセスすることであって、前記ドキュメントセットは、前記ドキュメントセットの個々のドキュメント内のチャンクも識別し、前記チャンクのいくつかについてのデータタイプおよびセマンティックロールラベルも含み、前記セマンティックロールラベルは、それぞれのドキュメント内で前記チャンクによって果たされるセマンティックロールを記述する、ことと
(a)前記ドキュメントセット内の前記ドキュメントにわたってチャンクによって果たされるセマンティックロールの発生の、および(b)前記ドキュメントセットにわたって異なるドキュメント内のカウンターパートチャンクの発生のパターンを導出することであって、カウンターパートチャンクは異なるドキュメントにおいて同じセマンティックロールを果たす、ことと、
前記ドキュメントセットにわたる前記導出された発生のパターンに基づいて、前記ドキュメントセット内の1つまたは複数のドキュメント内のコンテンツに関する情報を自動的に展開することと、ダウンストリームプロセスで使用するために前記情報を利用可能にすることと、
を含む、コンピュータ実装方法。 - 前記発生のパターンを導出することは、前記発生のパターンを導出するために機械学習および/または人工知能を使用することを含む、請求項81に記載のコンピュータ実装方法。
- 前記ドキュメントセット内の前記チャンクは、
ドキュメントテンプレートにおけるフィールドとして使用するのに適した前記ドキュメント内のコンテンツを含むフィールドチャンクであって、前記フィールドチャンクのいくつかは階層的であり、サブチャンクとして他のチャンクを含む、フィールドチャンクと
前記ドキュメントのレイアウト内の構造からのコンテンツを含む構造チャンクであって、前記セマンティックロールラベルは、前記構造チャンクのいくつかに対するセマンティックロールラベルを含む、構造チャンクと
画像または動画を含むチャンクと、
を含む、請求項81に記載のコンピュータ実装方法。 - 前記情報は、前記ドキュメントセットからの個々のドキュメントから抽出されたコンテンツを含む、請求項81に記載のコンピュータ実装方法。
- 前記抽出されたコンテンツは、他のドキュメント内のチャンクに対するカウンターパートである前記個々のドキュメントからのチャンクの1つまたは複数の抜粋を含む、請求項84に記載のコンピュータ実装方法。
- 前記情報は、個々のドキュメントにおける特定のチャンクの発生または不発生の表示を含み、前記特定のチャンクは前記ドキュメントセットからの他のドキュメントにおいて発生するチャンクに対するカウンターパートである、請求項81に記載のコンピュータ実装方法。
- 前記情報は、前記個々のドキュメントの要約を含む、請求項81に記載のコンピュータ実装方法。
- 前記情報は、前記ドキュメントセット内の複数のドキュメントから抽出されたコンテンツを含む、請求項81に記載のコンピュータ実装方法。
- 前記情報は、前記ドキュメントセット内の複数のドキュメントから抽出されたチャンクを含み、前記情報はどのチャンクがカウンターパートであるかに従って編成される、請求項88に記載のコンピュータ実装方法。
- 前記情報は、前記ドキュメントセット内の前記ドキュメントにわたるカウンターパートチャンクの発生における異常の表示を含む、請求項88に記載のコンピュータ実装方法。
- 前記異常は、個々のドキュメント内にカウンターパートチャンクの不在を含み、前記情報は、前記カウンターパートチャンクが不在の個々のドキュメントへのナビゲーションを容易にするフォーマットにおいて利用可能にされる、請求項90に記載のコンピュータ実装方法。
- 前記異常は、個々のドキュメント内にカウンターパートチャンクの不在を含み、前記情報は、個々のドキュメント内にカウンターパートチャンクが不在であることを要約するフォーマットにおいて利用可能にされる、請求項90に記載のコンピュータ実装方法。
- 前記ダウンストリームプロセスは、ソフトウェアアプリケーションによって実装され、前記情報は、前記ソフトウェアアプリケーションによる使用に適したフォーマットにおいて利用可能にされる、請求項88に記載のコンピュータ実装方法。
- 前記情報は、前記ドキュメントセット内の前記複数のドキュメントから抽出された前記コンテンツを取り出すために前記ソフトウェアアプリケーションによって実行可能な1つまたは複数のプロセスの記述をさらに含む、請求項93に記載のコンピュータ実装方法。
- 前記ダウンストリームプロセスは、前記ドキュメントが事前定義された要件または方針の対象となるセマンティックロールを果たすチャンク内の前記コンテンツのコンプライアンスを検証することを含む、請求項88に記載のコンピュータ実装方法。
- 前記ダウンストリームプロセスは、人間によって理解可能なフォーマットにおいてレポートを生成することを含む、請求項81記載のコンピュータ実装方法。
- 前記ドキュメントセット内の前記ドキュメントの1つ内のチャンクのユーザ選択を受信することをさらに含み、
前記ユーザ選択に応答して、前記レポートは、前記ユーザ選択されたチャンクに対するカウンターパートチャンクの発生または不発生を含む、
請求項96に記載のコンピュータ実装方法。 - 前記レポートがいくつかのカウンターパートチャンクを欠いていることに応答して、前記欠けているカウンターパートチャンクの1つのユーザ選択を受信し、前記ユーザ選択に応答して、前記欠けているカウンターパートチャンクを追加するように前記レポートを更新すること、
をさらに含む、請求項97に記載のコンピュータ実装方法。 - ユーザがドキュメントのセットをレビューするのを支援するための実行可能なコンピュータプログラム命令を格納する非一時的コンピュータ可読記憶媒体であって、前記コンピュータプログラム命令は、コンピュータシステムによって実行可能であり、前記コンピュータシステムに
複数のドキュメントを含むドキュメントセットにアクセスすることであって、前記ドキュメントセットは、前記ドキュメントセットの個々のドキュメント内のチャンクも識別し、前記チャンクのいくつかについてのデータタイプおよびセマンティックロールラベルも含み、前記セマンティックロールラベルは、それぞれのドキュメント内で前記チャンクによって果たされるセマンティックロールを記述する、ことと
(a)前記ドキュメントセット内の前記ドキュメントにわたってチャンクによって果たされるセマンティックロールの発生の、および(b)前記ドキュメントセットにわたって異なるドキュメント内のカウンターパートチャンクの発生のパターンを導出することであって、カウンターパートチャンクは異なるドキュメントにおいて同じセマンティックロールを果たす、ことと、
前記ドキュメントセットにわたる前記導出された発生のパターンに基づいて、前記ドキュメントセット内の1つまたは複数のドキュメント内のコンテンツに関する情報を自動的に展開し、ダウンストリームプロセスで使用するために前記情報を利用可能にすることと、
を含む、方法を実行させる、非一時的コンピュータ可読記憶媒体。 - ユーザがドキュメントのセットをレビューするのを支援するためのコンピュータシステムであって、
複数のドキュメントを含むドキュメントセットを受信し格納するための記憶媒体であって、前記ドキュメントセットは、前記ドキュメントセットの個々のドキュメント内のチャンクも識別し、前記チャンクのいくつかについてのデータタイプおよびセマンティックロールラベルも含み、前記セマンティックロールラベルは、それぞれのドキュメント内で前記チャンクによって果たされるセマンティックロールを記述する、記憶媒体と、
前記記憶媒体へのアクセスを有し、ユーザがドキュメントのセットをレビューするのを支援するためのアプリケーションプログラムを実行するプロセッサシステムと、
を含み、
前記プロセッサシステムが、
(a)前記ドキュメントセット内の前記ドキュメントにわたってチャンクによって果たされるセマンティックロールの発生の、および(b)前記ドキュメントセットにわたって異なるドキュメント内のカウンターパートチャンクの発生のパターンを導出し、カウンターパートチャンクは異なるドキュメントにおいて同じセマンティックロールを果たし、
前記ドキュメントセットにわたる前記導出された発生のパターンに基づいて、前記ドキュメントセット内の1つまたは複数のドキュメント内のコンテンツに関する情報を自動的に展開し、ダウンストリームプロセスにおいて使用するために前記情報を利用可能にする、
前記アプリケーションプログラムを実行する、
前記コンピュータシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962900793P | 2019-09-16 | 2019-09-16 | |
US62/900,793 | 2019-09-16 | ||
PCT/US2020/043606 WO2021055102A1 (en) | 2019-09-16 | 2020-07-24 | Cross-document intelligent authoring and processing assistant |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022547750A true JP2022547750A (ja) | 2022-11-15 |
JPWO2021055102A5 JPWO2021055102A5 (ja) | 2023-08-01 |
Family
ID=74867926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022542307A Pending JP2022547750A (ja) | 2019-09-16 | 2020-07-24 | クロスドキュメントインテリジェントオーサリングおよび処理アシスタント |
Country Status (6)
Country | Link |
---|---|
US (6) | US11507740B2 (ja) |
EP (1) | EP4028961A4 (ja) |
JP (1) | JP2022547750A (ja) |
KR (1) | KR20220059526A (ja) |
CN (1) | CN114616572A (ja) |
CA (1) | CA3150535A1 (ja) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3460685A1 (en) * | 2017-09-12 | 2019-03-27 | Bricsys NV | Improved semantic classification of an entity in a building information model |
KR20220059526A (ko) * | 2019-09-16 | 2022-05-10 | 도큐가미, 인크. | 문서 간 지능형 저작 및 처리 보조기 |
US11875778B1 (en) * | 2019-11-15 | 2024-01-16 | Yahoo Assets Llc | Systems and methods for voice rendering of machine-generated electronic messages |
US11763071B2 (en) * | 2020-01-06 | 2023-09-19 | Catachi Co. | Methods and systems for facilitating unifying of multiple regulatory documents |
US20220092097A1 (en) * | 2020-09-18 | 2022-03-24 | Anurag Gupta | Method for Extracting and Organizing Information from a Document |
US20220156489A1 (en) * | 2020-11-18 | 2022-05-19 | Adobe Inc. | Machine learning techniques for identifying logical sections in unstructured data |
CN112435651B (zh) * | 2020-11-20 | 2023-05-02 | 昆明学院 | 一种语音数据自动标注的质量评估方法 |
DE202022002902U1 (de) * | 2021-02-17 | 2024-01-03 | Applica sp. z o.o. | Iteratives Training für einen Text-Bild-Layout-Transformer |
US11594054B2 (en) | 2021-02-19 | 2023-02-28 | Capital One Services, Llc | Document lineage management system |
US11790568B2 (en) * | 2021-03-29 | 2023-10-17 | Kyndryl, Inc | Image entity extraction and granular interactivity articulation |
US11521639B1 (en) * | 2021-04-02 | 2022-12-06 | Asapp, Inc. | Speech sentiment analysis using a speech sentiment classifier pretrained with pseudo sentiment labels |
US20220358287A1 (en) * | 2021-05-10 | 2022-11-10 | International Business Machines Corporation | Text mining based on document structure information extraction |
US11755839B2 (en) * | 2021-05-19 | 2023-09-12 | International Business Machines Corporation | Low resource named entity recognition for sensitive personal information |
US20230017211A1 (en) * | 2021-07-14 | 2023-01-19 | Kpmg Llp | System and method for implementing a medical records analytics platform |
US11763803B1 (en) | 2021-07-28 | 2023-09-19 | Asapp, Inc. | System, method, and computer program for extracting utterances corresponding to a user problem statement in a conversation between a human agent and a user |
CN113505201A (zh) * | 2021-07-29 | 2021-10-15 | 宁波薄言信息技术有限公司 | 一种基于SegaBert预训练模型的合同抽取方法 |
US11941147B2 (en) * | 2021-08-31 | 2024-03-26 | Box, Inc. | Detection of personally identifiable information |
US11657078B2 (en) | 2021-10-14 | 2023-05-23 | Fmr Llc | Automatic identification of document sections to generate a searchable data structure |
US11361151B1 (en) | 2021-10-18 | 2022-06-14 | BriefCatch LLC | Methods and systems for intelligent editing of legal documents |
WO2024072483A2 (en) * | 2022-04-12 | 2024-04-04 | The Trustees Of Dartmouth College | Processing architecture for fundamental symbolic logic operations and method for employing the same |
US11907643B2 (en) * | 2022-04-29 | 2024-02-20 | Adobe Inc. | Dynamic persona-based document navigation |
US20230350954A1 (en) * | 2022-05-02 | 2023-11-02 | SparkCognition, Inc. | Systems and methods of filtering topics using parts of speech tagging |
JP2023166252A (ja) * | 2022-05-09 | 2023-11-21 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
US11853335B1 (en) | 2022-06-13 | 2023-12-26 | International Business Machines Corporation | Cooperative build and content annotation for conversational design of virtual assistants |
Family Cites Families (100)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69616093D1 (de) | 1996-07-03 | 2001-11-22 | Sopheon N V | System zum unterstützen der produktion von dokumenten |
US6076051A (en) | 1997-03-07 | 2000-06-13 | Microsoft Corporation | Information retrieval utilizing semantic representation of text |
US7287219B1 (en) | 1999-03-11 | 2007-10-23 | Abode Systems Incorporated | Method of constructing a document type definition from a set of structured electronic documents |
US6924828B1 (en) * | 1999-04-27 | 2005-08-02 | Surfnotes | Method and apparatus for improved information representation |
US20020002481A1 (en) | 2000-05-16 | 2002-01-03 | Hirokazu Uchio | Information processing apparatus for management of documents relevant to patent application |
AU2001286689A1 (en) * | 2000-08-24 | 2002-03-04 | Science Applications International Corporation | Word sense disambiguation |
WO2003012661A1 (en) * | 2001-07-31 | 2003-02-13 | Invention Machine Corporation | Computer based summarization of natural language documents |
US9009590B2 (en) * | 2001-07-31 | 2015-04-14 | Invention Machines Corporation | Semantic processor for recognition of cause-effect relations in natural language documents |
US20040001099A1 (en) * | 2002-06-27 | 2004-01-01 | Microsoft Corporation | Method and system for associating actions with semantic labels in electronic documents |
US7523394B2 (en) | 2002-06-28 | 2009-04-21 | Microsoft Corporation | Word-processing document stored in a single XML file that may be manipulated by applications that understand XML |
US20050027664A1 (en) * | 2003-07-31 | 2005-02-03 | Johnson David E. | Interactive machine learning system for automated annotation of information in text |
US20050060643A1 (en) | 2003-08-25 | 2005-03-17 | Miavia, Inc. | Document similarity detection and classification system |
US20050060140A1 (en) | 2003-09-15 | 2005-03-17 | Maddox Paul Christopher | Using semantic feature structures for document comparisons |
US20050108630A1 (en) | 2003-11-19 | 2005-05-19 | Wasson Mark D. | Extraction of facts from text |
US7742911B2 (en) | 2004-10-12 | 2010-06-22 | At&T Intellectual Property Ii, L.P. | Apparatus and method for spoken language understanding by using semantic role labeling |
US8719700B2 (en) * | 2010-05-04 | 2014-05-06 | Xerox Corporation | Matching a page layout for each page of a document to a page template candidate from a list of page layout candidates |
WO2006096260A2 (en) | 2005-01-31 | 2006-09-14 | Musgrove Technology Enterprises, Llc | System and method for generating an interlinked taxonomy structure |
US7606781B2 (en) | 2005-03-30 | 2009-10-20 | Primal Fusion Inc. | System, method and computer program for facet analysis |
US8249344B2 (en) | 2005-07-01 | 2012-08-21 | Microsoft Corporation | Grammatical parsing of document visual structures |
US8176004B2 (en) | 2005-10-24 | 2012-05-08 | Capsilon Corporation | Systems and methods for intelligent paperless document management |
US20070150802A1 (en) | 2005-12-12 | 2007-06-28 | Canon Information Systems Research Australia Pty. Ltd. | Document annotation and interface |
US7788579B2 (en) * | 2006-03-06 | 2010-08-31 | Ricoh Co., Ltd. | Automated document layout design |
US20080008391A1 (en) | 2006-07-10 | 2008-01-10 | Amir Geva | Method and System for Document Form Recognition |
US9495358B2 (en) * | 2006-10-10 | 2016-11-15 | Abbyy Infopoisk Llc | Cross-language text clustering |
US8738359B2 (en) | 2006-10-18 | 2014-05-27 | Honda Motor Co., Ltd. | Scalable knowledge extraction |
US8671341B1 (en) * | 2007-01-05 | 2014-03-11 | Linguastat, Inc. | Systems and methods for identifying claims associated with electronic text |
US7778953B2 (en) | 2007-02-19 | 2010-08-17 | Kabushiki Kaisha Toshiba | Document management apparatus and document management method |
US8180633B2 (en) | 2007-03-08 | 2012-05-15 | Nec Laboratories America, Inc. | Fast semantic extraction using a neural network architecture |
US8209278B1 (en) | 2007-03-23 | 2012-06-26 | Jay Bradley Straus | Computer editing system for common textual patterns in legal documents |
WO2008132706A1 (en) * | 2007-04-26 | 2008-11-06 | Markport Limited | A web browsing method and system |
US8527262B2 (en) | 2007-06-22 | 2013-09-03 | International Business Machines Corporation | Systems and methods for automatic semantic role labeling of high morphological text for natural language processing applications |
US8442923B2 (en) | 2007-08-14 | 2013-05-14 | John Nicholas Gross | Temporal document trainer and method |
EP2185999A4 (en) * | 2007-08-31 | 2011-11-02 | Microsoft Corp | SUBJECT OF SEARCH RESULTS BY MEANING OF TERM |
US8229730B2 (en) | 2007-08-31 | 2012-07-24 | Microsoft Corporation | Indexing role hierarchies for words in a search index |
US8280885B2 (en) | 2007-10-29 | 2012-10-02 | Cornell University | System and method for automatically summarizing fine-grained opinions in digital text |
US8392436B2 (en) * | 2008-02-07 | 2013-03-05 | Nec Laboratories America, Inc. | Semantic search via role labeling |
US8145632B2 (en) | 2008-02-22 | 2012-03-27 | Tigerlogic Corporation | Systems and methods of identifying chunks within multiple documents |
US8196030B1 (en) | 2008-06-02 | 2012-06-05 | Pricewaterhousecoopers Llp | System and method for comparing and reviewing documents |
US8286132B2 (en) * | 2008-09-25 | 2012-10-09 | International Business Machines Corporation | Comparing and merging structured documents syntactically and semantically |
US8214734B2 (en) | 2008-10-09 | 2012-07-03 | International Business Machines Corporation | Credibility of text analysis engine performance evaluation by rating reference content |
US20100153318A1 (en) | 2008-11-19 | 2010-06-17 | Massachusetts Institute Of Technology | Methods and systems for automatically summarizing semantic properties from documents with freeform textual annotations |
US8473467B2 (en) * | 2009-01-02 | 2013-06-25 | Apple Inc. | Content profiling to dynamically configure content processing |
US9262395B1 (en) * | 2009-02-11 | 2016-02-16 | Guangsheng Zhang | System, methods, and data structure for quantitative assessment of symbolic associations |
US8335754B2 (en) | 2009-03-06 | 2012-12-18 | Tagged, Inc. | Representing a document using a semantic structure |
US8862579B2 (en) * | 2009-04-15 | 2014-10-14 | Vcvc Iii Llc | Search and search optimization using a pattern of a location identifier |
JP5340847B2 (ja) | 2009-07-27 | 2013-11-13 | 株式会社日立ソリューションズ | 文書データ処理装置 |
JP5477635B2 (ja) * | 2010-02-15 | 2014-04-23 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
US8805840B1 (en) * | 2010-03-23 | 2014-08-12 | Firstrain, Inc. | Classification of documents |
US9129300B2 (en) * | 2010-04-21 | 2015-09-08 | Yahoo! Inc. | Using external sources for sponsored search AD selection |
US9594730B2 (en) | 2010-07-01 | 2017-03-14 | Yahoo! Inc. | Annotating HTML segments with functional labels |
US20150112664A1 (en) * | 2010-12-09 | 2015-04-23 | Rage Frameworks, Inc. | System and method for generating a tractable semantic network for a concept |
US8818932B2 (en) | 2011-02-14 | 2014-08-26 | Decisive Analytics Corporation | Method and apparatus for creating a predictive model |
US10303999B2 (en) * | 2011-02-22 | 2019-05-28 | Refinitiv Us Organization Llc | Machine learning-based relationship association and related discovery and search engines |
US8543577B1 (en) * | 2011-03-02 | 2013-09-24 | Google Inc. | Cross-channel clusters of information |
US8719692B2 (en) | 2011-03-11 | 2014-05-06 | Microsoft Corporation | Validation, rejection, and modification of automatically generated document annotations |
US20120296637A1 (en) | 2011-05-20 | 2012-11-22 | Smiley Edwin Lee | Method and apparatus for calculating topical categorization of electronic documents in a collection |
US8606780B2 (en) | 2011-07-08 | 2013-12-10 | Microsoft Corporation | Image re-rank based on image annotations |
US8488916B2 (en) | 2011-07-22 | 2013-07-16 | David S Terman | Knowledge acquisition nexus for facilitating concept capture and promoting time on task |
US9280525B2 (en) * | 2011-09-06 | 2016-03-08 | Go Daddy Operating Company, LLC | Method and apparatus for forming a structured document from unstructured information |
DK2639749T3 (en) | 2012-03-15 | 2017-02-27 | Cortical Io Gmbh | Methods, apparatus and products for semantic processing of text |
US9008443B2 (en) * | 2012-06-22 | 2015-04-14 | Xerox Corporation | System and method for identifying regular geometric structures in document pages |
US20150100877A1 (en) * | 2012-06-29 | 2015-04-09 | Yahoo! Inc. | Method or system for automated extraction of hyper-local events from one or more web pages |
US9280520B2 (en) | 2012-08-02 | 2016-03-08 | American Express Travel Related Services Company, Inc. | Systems and methods for semantic information retrieval |
US9582494B2 (en) | 2013-02-22 | 2017-02-28 | Altilia S.R.L. | Object extraction from presentation-oriented documents using a semantic and spatial approach |
US20140324808A1 (en) | 2013-03-15 | 2014-10-30 | Sumeet Sandhu | Semantic Segmentation and Tagging and Advanced User Interface to Improve Patent Search and Analysis |
US9922102B2 (en) | 2013-07-31 | 2018-03-20 | Splunk Inc. | Templates for defining fields in machine data |
GB2517976A (en) * | 2013-09-09 | 2015-03-11 | Ibm | Business rule management system |
US9058374B2 (en) | 2013-09-26 | 2015-06-16 | International Business Machines Corporation | Concept driven automatic section identification |
WO2015048275A2 (en) | 2013-09-26 | 2015-04-02 | Polis Technology Inc. | System and methods for real-time formation of groups and decentralized decision making |
US20150134321A1 (en) * | 2013-11-08 | 2015-05-14 | Thomas Fennell | System and method for translating text |
US9396763B2 (en) | 2013-11-15 | 2016-07-19 | Clipmine, Inc. | Computer-assisted collaborative tagging of video content for indexing and table of contents generation |
US10424016B2 (en) * | 2013-12-19 | 2019-09-24 | International Business Machines Corporation | Modeling asset transfer flow relationships discovered in unstructured data |
AU2015201364A1 (en) * | 2014-03-17 | 2015-10-01 | Accenture Global Services Limited | Generating a semantic network based on semantic connections between subject-verb-object units |
US10140578B1 (en) * | 2014-03-17 | 2018-11-27 | Intuit Inc. | System and method for managing social-based questions and answers |
US9477654B2 (en) | 2014-04-01 | 2016-10-25 | Microsoft Corporation | Convolutional latent semantic models and their applications |
US9760626B2 (en) * | 2014-09-05 | 2017-09-12 | International Business Machines Corporation | Optimizing parsing outcomes of documents |
US10325511B2 (en) | 2015-01-30 | 2019-06-18 | Conduent Business Services, Llc | Method and system to attribute metadata to preexisting documents |
US10733256B2 (en) | 2015-02-10 | 2020-08-04 | Researchgate Gmbh | Online publication system and method |
US20160267165A1 (en) * | 2015-03-14 | 2016-09-15 | Hui Wang | Automated Key Words (Phrases) Discovery In Document Stacks And Its Application To Document Classification, Aggregation, and Summarization |
US9940681B2 (en) * | 2015-09-01 | 2018-04-10 | International Business Machines Corporation | Predictive approach to contract management |
US10504010B2 (en) * | 2015-10-02 | 2019-12-10 | Baidu Usa Llc | Systems and methods for fast novel visual concept learning from sentence descriptions of images |
US9760556B1 (en) | 2015-12-11 | 2017-09-12 | Palantir Technologies Inc. | Systems and methods for annotating and linking electronic documents |
US10755804B2 (en) | 2016-08-10 | 2020-08-25 | Talix, Inc. | Health information system for searching, analyzing and annotating patient data |
JP2018045664A (ja) | 2016-09-16 | 2018-03-22 | 株式会社リコー | 利用量管理装置、利用量管理方法、利用量管理プログラム、及び、利用量管理システム |
US20180150768A1 (en) * | 2016-11-30 | 2018-05-31 | Gluru Limited | Automated generation of natural language task/expectation descriptions |
US10380228B2 (en) * | 2017-02-10 | 2019-08-13 | Microsoft Technology Licensing, Llc | Output generation based on semantic expressions |
US11416956B2 (en) | 2017-03-15 | 2022-08-16 | Coupa Software Incorporated | Machine evaluation of contract terms |
US20180300315A1 (en) | 2017-04-14 | 2018-10-18 | Novabase Business Solutions, S.A. | Systems and methods for document processing using machine learning |
US10540440B2 (en) * | 2017-06-05 | 2020-01-21 | International Business Machines Corporation | Relation extraction using Q and A |
JP7187545B2 (ja) * | 2017-09-28 | 2022-12-12 | オラクル・インターナショナル・コーポレイション | 名前付きエンティティの構文解析および識別に基づくクロスドキュメントの修辞的つながりの判断 |
EP3462331B1 (en) | 2017-09-29 | 2021-08-04 | Tata Consultancy Services Limited | Automated cognitive processing of source agnostic data |
US20190102697A1 (en) * | 2017-10-02 | 2019-04-04 | International Business Machines Corporation | Creating machine learning models from structured intelligence databases |
US10838996B2 (en) | 2018-03-15 | 2020-11-17 | International Business Machines Corporation | Document revision change summarization |
US10650186B2 (en) * | 2018-06-08 | 2020-05-12 | Handycontract, LLC | Device, system and method for displaying sectioned documents |
US10891316B2 (en) | 2018-07-02 | 2021-01-12 | Salesforce.Com, Inc. | Identifying homogenous clusters |
US11232132B2 (en) * | 2018-11-30 | 2022-01-25 | Wipro Limited | Method, device, and system for clustering document objects based on information content |
US20200311123A1 (en) | 2019-03-28 | 2020-10-01 | Wipro Limited | Method and a system for multimodal search key based multimedia content extraction |
US10614345B1 (en) | 2019-04-12 | 2020-04-07 | Ernst & Young U.S. Llp | Machine learning based extraction of partition objects from electronic documents |
WO2021055102A1 (en) * | 2019-09-16 | 2021-03-25 | Docugami, Inc. | Cross-document intelligent authoring and processing assistant |
KR20220059526A (ko) | 2019-09-16 | 2022-05-10 | 도큐가미, 인크. | 문서 간 지능형 저작 및 처리 보조기 |
-
2020
- 2020-07-24 KR KR1020227011501A patent/KR20220059526A/ko active IP Right Grant
- 2020-07-24 CA CA3150535A patent/CA3150535A1/en active Pending
- 2020-07-24 CN CN202080064610.1A patent/CN114616572A/zh active Pending
- 2020-07-24 JP JP2022542307A patent/JP2022547750A/ja active Pending
- 2020-07-24 EP EP20864772.7A patent/EP4028961A4/en active Pending
- 2020-08-05 US US16/986,146 patent/US11507740B2/en active Active
- 2020-08-05 US US16/986,136 patent/US11392763B2/en active Active
- 2020-08-05 US US16/986,139 patent/US11816428B2/en active Active
- 2020-08-05 US US16/986,151 patent/US11822880B2/en active Active
- 2020-08-05 US US16/986,142 patent/US11514238B2/en active Active
-
2022
- 2022-04-20 US US17/724,934 patent/US11960832B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN114616572A (zh) | 2022-06-10 |
US11960832B2 (en) | 2024-04-16 |
US11392763B2 (en) | 2022-07-19 |
US11507740B2 (en) | 2022-11-22 |
CA3150535A1 (en) | 2021-03-25 |
US20220245335A1 (en) | 2022-08-04 |
US11816428B2 (en) | 2023-11-14 |
US20210081608A1 (en) | 2021-03-18 |
US20210081411A1 (en) | 2021-03-18 |
US11514238B2 (en) | 2022-11-29 |
US20210081601A1 (en) | 2021-03-18 |
US20210081613A1 (en) | 2021-03-18 |
EP4028961A1 (en) | 2022-07-20 |
US20210081602A1 (en) | 2021-03-18 |
KR20220059526A (ko) | 2022-05-10 |
US11822880B2 (en) | 2023-11-21 |
EP4028961A4 (en) | 2023-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11960832B2 (en) | Cross-document intelligent authoring and processing, with arbitration for semantically-annotated documents | |
US11321364B2 (en) | System and method for analysis and determination of relationships from a variety of data sources | |
US10558746B2 (en) | Automated cognitive processing of source agnostic data | |
US9678949B2 (en) | Vital text analytics system for the enhancement of requirements engineering documents and other documents | |
US20190006027A1 (en) | Automatic identification and extraction of medical conditions and evidences from electronic health records | |
WO2021055102A1 (en) | Cross-document intelligent authoring and processing assistant | |
EP4085353A1 (en) | System and method for analysis and determination of relationships from a variety of data sources | |
US11120215B2 (en) | Identifying spans using visual recognition | |
RU61442U1 (ru) | Система автоматизированного упорядочения неструктурированного информационного потока входных данных | |
Nundloll et al. | Automating the extraction of information from a historical text and building a linked data model for the domain of ecology and conservation science | |
US20240012809A1 (en) | Artificial intelligence system for translation-less similarity analysis in multi-language contexts | |
Gessler et al. | Midas loop: A prioritized human-in-the-loop annotation for large scale multilayer data | |
RU2571407C1 (ru) | Способ формирования карты связей компонентов преобразованного структурированного массива данных | |
US11868313B1 (en) | Apparatus and method for generating an article | |
Hao et al. | A user-oriented semantic annotation approach to knowledge acquisition and conversion | |
US20230170099A1 (en) | Pharmaceutical process | |
Hanafi | Human-in-the-loop Tools for Constructing and Debugging Data Extraction Pipelines | |
Miloševic | A multi-layered approach to information extraction from tables in biomedical documents | |
Ashish et al. | Machine reading of biomedical data dictionaries | |
Özkan Çelik et al. | Structured abstract generator (SAG) model: analysis of IMRAD structure of articles and its effect on extractive summarization | |
Sefid | Automatic Summarization and Slide Generation for Scientific Papers | |
Dawson et al. | The Role of Unstructured Data in Healthcare Analytics | |
Miloševic et al. | Table mining and data curation from biomedical literature | |
Klügl | Context-specific consistencies in information extraction | |
Rosner | Electronic language resources for Maltese |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230724 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230724 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20230724 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231114 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231121 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20240221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240422 |