JP7842294B2 - クロスドキュメントインテリジェントオーサリングおよび処理アシスタント - Google Patents
クロスドキュメントインテリジェントオーサリングおよび処理アシスタントInfo
- Publication number
- JP7842294B2 JP7842294B2 JP2025171167A JP2025171167A JP7842294B2 JP 7842294 B2 JP7842294 B2 JP 7842294B2 JP 2025171167 A JP2025171167 A JP 2025171167A JP 2025171167 A JP2025171167 A JP 2025171167A JP 7842294 B2 JP7842294 B2 JP 7842294B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- chunks
- documents
- semantic
- patterns
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/106—Display of layout of documents; Previewing
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/131—Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/091—Active learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/418—Document matching, e.g. of document images
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- General Business, Economics & Management (AREA)
- Business, Economics & Management (AREA)
- Medical Informatics (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
Description
本出願は、2019年9月16日に出願された米国仮特許出願第62/900,793号「Cross-Document Intelligent Authoring and Processing Assistant」に対する35USC§119(e)の優先権を主張する。前述の全ての主題は、参照によりその全体が本明細書に組み込まれる。
多くの企業は、毎回カスタマイズされているにもかかわらず、非常に類似した複数のドキュメントを作成している。例えば、保険事務所は特定の種類の保険について多くの提案をし得るが、それぞれを特定の顧客のニーズに合わせて調整しなければならない。これらのドキュメントは、類似のテキスト(場合によっては画像)コンテンツ(類似の目的およびトピックを反映する)、セクションなどの大単位の類似の選択および配置、および多くの場合、類似の幾何学的レイアウトおよびフォーマット特性を有するため、同じ「タイプ」であると見なすことができる。
概要
同じタイプであると決定されたドキュメントのグループは、「ドキュメントセット」または「ドキュメントクラスタ」を構成する。例えば、保険会社の特定のクラスの顧客への特定の種類の保険の提案は、同じタイプと見なされ、ドキュメントセットを形成し得る。同じ会社の異なる種類の保険の提案、または彼らが異なると考える顧客への提案は、異なるドキュメントセットに属する異なるタイプと見なされ得る。レンタル契約書、特定の種類の患者の臨床メモ、販売提案書、スケジュール書、会議議事録などは、コンテンツ、構造、および/またはレイアウトの特徴的なパターンを共有するサブタイプと同様に、他の潜在的なタイプのドキュメントである。
本明細書に記載の技術は、以下のいずれかを含む様々な特徴および利点を有し得る。
以下は、例示的なシステムの説明である。図1を参照する。このシステムは、概して、階層的に意味的にラベル付けされたドキュメントのAI自己管理作成のための、および/またはそのようなドキュメントの支援されたオーサリングおよび処理のための方法および装置に関する。これは、構成、構造化、注釈付け、変更、レビュー、ドキュメントからデータを抽出、および/またはダウンストリームビジネスプロセスにおいてそのようなデータを使用するなどのプロセスを含む。より具体的には、比較的小さなセットを含むドキュメントのセットにわたって、主に教師なしおよび自己管理機械学習技術を使用して、それらの役割に関連付けられた、多くの意味的に意味のあるチャンクで構成されるドキュメントの詳細な階層構造を発見することにより、以前のドキュメントと同様のドキュメントに、およびビジネスプロセスにおけるそのような高度に強化されたドキュメントの使用に、焦点を当てている。
1)インポート:ユーザのドキュメントのグループをデータストア110にもたらす。
2)編成:ドキュメントを、レンタル対販売契約書、または医療履歴対現在の臨床ノートのような、タイプ別にドキュメントセットに分ける。
3)ビジュアル抽出:そのコンテンツおよびビジュアルレイアウトに少なくとも基づいて、各ドキュメントから線状のテキストストリームを抽出し、これは、個別のテキストおよび他のエリア、その開始および終了の位置、フォーマット、およびコンテンツに関する限られた情報を含む。抽出されたデータは、幾何学的レイアウトによって区別されるパラグラフなどの、「ビジュアルライン」として、または「ビジュアルブロック」(「ハイパーライン」または「ビジュアル」チャンクとも呼ばれる)として編成され得る。
4)構造:ドキュメント内の見出し、リストアイテム、および他の構造チャンクの大まかなクラスを識別する。
5)再ネスト:セクションおよびリストのネスト関係、およびそれぞれのテキストの範囲を決定する。
6)トピックチャンキング:各ドキュメントのトピックコンテンツを分析し、同様のトピックのエリアを囲むチャンク(トピックレベルのチャンク)を作成する。
7)トピックラベリング:
i)埋め込みおよびクラスタリングを使用して、コーパスの各見出しに対する候補データタイプおよびセマンティックロールラベルを作成する。
ii)キーフレーズ抽出技術を使用して、チャンクに対する候補データタイプおよびセマンティックロールラベルを作成する。
8)チャンクラベリング:複数の方法、例えば、ニューラルネットワーク、単語および文字の埋め込み、文法分析およびパターンマッチング、正規表現、類似性メトリクス、および/または他の方法を使用して、ドキュメント全体を通して他のチャンクにデータタイプおよびセマンティックロール候補を識別し、割り当てる(おそらく複数)。特定の実施形態に対して特に興味深いのは、以下のことである。
i)結果の構造上の文法解析およびパターンマッチング
ii)小さなチャンクをドキュメントでそれらが果たす特定のセマンティックロールと結びつけるための質問応答技術の使用
iii)XPathツリーマッチングと単語埋め込み技術を組み合わせて、言い回しおよび単語の選択が大きく異なる可能性があるにもかかわらず、構造および文法ツリーのパターンをマッチさせる。
9)名前付きエンティティ認識(NER):ドキュメント全体にわたって名前付きエンティティとして検出されるデータタイプを識別し、チャンクに割り当てる。
10)役割ラベリング、抽出ラベリング:名前が契約の「売り手」当事者を構成していること、または薬物がアレルギー対処方箋として言及されていることを表すような、セマンティックロールラベルをチャンクに割り当てる。
11)異常:検討中のドキュメントセットのドキュメントに通常存在する、または存在しないが、現在のドキュメントにはない(またはその逆)、セマンティックロールを特定する。
12)調停(Arbitration):チャンクの代替スコープ、データタイプ、およびセマンティックロールラベルを調整および/または選択し、XMLなどのフォーマットにおいて容易に表現可能な整形された構造を生成する。
13)DGML:ドキュメントの強化されたバージョンを作成し、これは、チャンクの位置、データタイプ、およびセマンティックロールラベルの明示的な識別情報、ならびに、場合によっては、それぞれの識別されたチャンクの信頼レベル、類似のチャンクにおいて期待されるデータタイプ(日付、日付範囲、個人名など)などの追加情報も含む。強化されたバージョンは、DGMLと呼ばれるXMLベースのマークアップ言語を使用して作成される。
14)フィードバック:強化されたバージョンをユーザに表示し、チャンク(およびおそらく省略されたチャンクの潜在的な位置)を選択してユーザを表示し、確認、拒否、または他の変更を行うためのユーザの選択を収集する。ユーザはまた、それらの独自の読み取りおよびレビューの順序を自由に選択できる。フィードバックはまた、ステップ(2)で説明されているように、ドキュメントをドキュメントセットの編成など、システムが行った任意の他の解釈に適用できる。
i)おそらく省略されたチャンクのケースでは、他のドキュメントから優先順位付けされた例を提供され、これは、必要に応じて現在のドキュメントを検査および/またはコピーし、より小さなネストされたチャンクにターゲットドキュメント値を適用することによって自動的にカスタマイズできる。
15)フィードバック応答:これらのインタラクションに対するユーザの応答を追跡し、その情報を使用してモデル120を微調整し、ならびに後に同じまたは同様のエラーを繰り返すことを防ぐ。
16)ダウンストリーム通信、送信:タイプおよび/またはロールごとにチャンクを選択し、それらを使用してドキュメントセットを介してレポートを生成し、および/またはバックエンド契約データベース、規制コンプライアンスチェッカー、管理レポートジェネレーターなどの機能を追加するダウンストリームシステムにそれらをエクスポートする。
・アップロード(Uploading)
・前処理(Preprocessing)
・大きなチャンクをレビュー(Review Large Chunks)
・小さなチャンクをレビュー(Review Small Chunks)
・使用する準備ができている(Ready to Use)
カラーコーディングは完了の度合いを示す。緑のステージは完了であり、赤のステージは処理中であり、黒のステージはまだ開始されていない。
ここでの番号付けは、この特定の例の分析の一般的な順序を反映している。しかし、すべてのステップがすべての前のステップに依存するわけではなく、結果として、多くの要素は、他の実装形態において並べ替えまたは並列化できる。要素はまた、シフトする、または繰り返して、追加情報を他の要素と交換できる、または要素は、別々のプロセスまたはマシンなどで独立して実行できる。
システムは、典型的なワードプロセッサドキュメント(MS Wordなど)およびページレイアウトドキュメント(PDFまたはpngファイルなど)を受け入れる。それぞれのケースにおいて、見出し、段落、テーブルセル、テーブル、画像などの視覚的に隣接する領域は、それらの相対位置、周囲の空白、フォントおよびレイアウトの特徴などの組み合わせを使用して、チャンクとして識別され、表現される。これらの特徴は、デザイナーによって部分的に選択され、多数のドキュメントの画像およびパターン分析によって部分的に学習される。機械で読み取り可能なテキストコンテンツがすでにない入力ドキュメントについては、OCRも適用される。
ユーザは、彼らがシステムにチェックインするドキュメントを編成する必要は無い。システムは、テキストコンテンツ、レイアウト情報、および既に検出された構造情報(いくつかの見出しの識別など)で動作するクラスタリング方法を使用して、ドキュメントを特定のタイプのドキュメントの「セット」、例えば、レンタル契約対リース対販売、にグループ化する。見つかった特定のドキュメントセットは、ユーザに確認されることができ、自動的にまたはユーザによってのいずれかで名前が付けられる。確立されると、これらのドキュメントセットは、フォーマット、コンテンツ、セマンティックロール、およびそれらの差についての後の機械学習および推論を容易にする。例えば、システムは、所与のセット内のほとんどすべてのドキュメントが、特定の役割の3つの特定のサブチャンクおよび個人名のデータタイプを有する特定のセクションを有し、そのうちの1つが5つの異なるセクションで再現されることを発見し得る。そのようなパターンを使用して、他のドキュメントの類似(および類似しない)部分を識別するのを支援し、ユーザにレビューまたは変更を提案し、同じ(またはおそらく異なる)セット内の他のドキュメントにおいて再利用するテキストの例を提供する。
i)エリア検出
このシステムは、ヒューリスティックおよび機械学習を使用して、幾何学的パターンに基づいてドキュメント内の領域を識別する。例えば、多くのドキュメントにおいて、意味のあるチャンクは、署名ブロック、抽象、定義のリスト、テーブルなどのような特別なレイアウトを有する。そのようなパターンを、幾何学的および/またはレイアウトの特徴、一意性または希少性、および/または同じドキュメント内またはドキュメント間のいずれか、特に同じドキュメントセット内での対応を考慮することによって、自動的に学習できる。
システムは、ドキュメントパーツの署名(「ダイジェスト」としても知られている)を作成し、これらを使用して「興味深い」追加のチャンクを識別および分類し、その境界を検出する。署名は、単にテキストコンテンツにだけでなく、コンテキストの様々な態様にも基づいており、より小さな含まれるチャンク(例えば、カウンターパート内のコンテンツが変化するフィールドチャンク)のコンテンツを無視し得る。
この態様は、レイアウト後のドキュメント(例えば、PDFまたはスキャンされた印刷ページ)を取り、ドキュメント内の認識された文字画像(「グリフ」)を、グリフの正しいドキュメント順序を表すテキストストリームに変換する(ストリームは、適切な場合、図または画像オブジェクトをも含み得、読み取り順序において、典型的な場所を有さない脚注またはページヘッダなどの複数のストリームが存在できる)。一部のドキュメントでは、読み取り順序の不完全な明示的な表現がある。よく知られている例は、通常、任意の所与の点において複数列レイアウトが有効であるという表示がなく、したがって、第1の「線」は、全体ではなく、半分(またはそれ未満)にわたってのみ延在するというものである。しかし、テキストの順序が複雑または不明確であり得る多くの追加の例がある。例えば、いくつかのレイアウトプログラムは各文字を個別に描画し、単語の境界は不明確となる。テーブルセル、サイドバー、図、脚注、および他の表示は、テキストの順序に明確な位置を有し得ない。ページヘッダおよびフッタ(ならびに行の終わりのハイフン)におけるようないくつかのテキストは、テキスト順序における場所を全く必要とし得ない。多くのフォーマットは、何かがそのような特別なカテゴリーにあるという明確な表示を提供しない。
テキストシーケンスおよびいくつかの仮定された構造チャンクを抽出すると、システムは、それらならびに視覚的特徴(フォント、色、サイズなど)に関する情報を含むドキュメントの表現(一例では「DGML」として知られている)を作成する。その位置、タイプ、役割などの情報を含むチャンクの表現は、「注釈」と呼ばれる。組み合わされたデータは、次いで、自然言語処理(NLP)およびディープニューラルネットワーク(DNN)によって使用できる。ディープニューラルネットワークはこの視覚情報を組み込み、ヘッダ/ボディ、リスト/リストアイテムなどのチャンクを含むドキュメント構造を表す階層にドキュメントを構造化するのを支援する。
構造パイプラインは、平坦なテキストファイルを階層構造に変換し、セクション、サブセクション、およびドキュメントの他の部分は、当業者に知られている構造であるコンテンツベースオブジェクトの順序付けられた階層を形成する。この変換は、教師なし機械学習技術を使用して行われる。この方法はいくつかのステージを有する。
これは、テキストを「ハイパーライン」にセグメント化することを含み、これは、ビジュアルラインよりも大きなグループであり、段落、見出し、または同様のものなどのより意味のある論理的な(ビジュアルとは対照的に)単位を備える。これは、トークン(特に先頭および末尾のトークン)の「単語形状」などの特徴、フォントおよびスペーシング特性などのレイアウト情報、ならびに類似の特徴を考慮する事前にトレーニングされたニューラルネットワークを使用して達成されることが好ましい。いくつかのハイパーラインは、以前のステップでも提供され得る(入力ドキュメントのフォーマット応じて)。
これは、単にテキストに基づく言語モデルの代わりに、テキストコンテンツ、フォーマッティング、およびこれまでに発見された構造に対する情報をも含むドキュメント言語モデルを使用することが好ましい。これは、フォーマットされたページから意味のあるチャンクおよびそれらの発生のパターンを認識するための学習により、チャンクおよびそれらの階層(ヘッダ/ボディ、リスト/リストアイテムなど)のより良好な検出を可能にする。
これは、単語形状構造に基づいてドキュメントセットにわたってハイパーラインをクラスタ化するためにオートエンコーダを使用し、各ハイパーラインを、レイアウト、開始および終了コンテンツ、ならびに他の特性に関して類似するハイパーラインのクラスタに割り当て、各クラスタは「クラスタID」によって識別される(これは、ドキュメントセットの作成または識別と混同されるべきではない)。
特に興味深い特別なケースは、「インライン見出し」であり、チャンクの見出し(チャンクのセマンティックロールを提供することがある)は、それ自体が別々の視覚的行にあるのではなく、以下のテキストの開始と同じ行にある。一般的に、インライン見出しは、太字、下線、異なるフォント、後続のコロン、またはその他の効果などによってタイポグラフィ的に区別される。別個のヒューリスティックおよびニューラルアルゴリズムは、これらのチャンクを識別する。
上記の高度な構造化方法にもかかわらず、生成される構造は、特定の不完全性を有する、またはユーザの先行的な期待を満たさないことが予想できる。少ショット構造学習は、ステップ(14)乃至(15)で説明したように、ユーザによって提供されるフィードバックに依存して機械学習モデルを作成することに対処する。次いで、このモデルを使用して、構造に関するユーザフィードバックと、システムによって既に生成されているものとを組み合わせた構造を生成する(おそらく、以前のフィードバックによって反復的に強化される)。
(a)最初に、機械翻訳モデルが、公的に利用可能なデータセットを使用して事前にトレーニングされる。
(b)「ディスパッチャ」(説明については「フィードバック応答」のセクションを参照)は、ユーザフィードバックをフィルタリングする。
(c)新しい構造ファイルがユーザフィードバックから生成され、微調整機械翻訳データセットが生成される。
(d)事前にトレーニングされたモデルはさらに、少ショット学習原理を使用してトレーニングされる。
この態様は、好ましくはハイパーラインクラスタリングステップからのクラスタIDのフラットリストが与えられると、プッシュダウンオートマトンを使用してネストされた構造を反復的に作成する「コーパス再ネスト」アルゴリズムを使用する。隣接するハイパーラインの署名を比較することによって、システムは、所与の見出しまたはリストアイテムが、より多く、等しく、またはより少ないネストされたレベルに属するかどうかを決定できる。これは、多くのドキュメント(チャプター、セクション、サブセクション、句、リストなど)の多重ネスト階層構造を再構築することを可能にする。
この態様は、ドキュメントの連続したチャンクにわたって語彙統計および他の学習技術を使用して、トピックがどこでシフトするかを検出する。これは、所与のトピックに関するセクション全体などの大きなチャンクの境界の識別を強化し、その理由は、セクション(どのようなレベルであっても)は、一般に、隣接するセクションよりも、その中でトピック、語彙、およびスタイルの均一性が高いからである。
i)見出しラベラー
図1に示すように、コーパス内の各ヘッダについて、このステップは
・各見出しの「埋め込み」として知られる数値表現を作成し、
・それらの埋め込みに少なくとも基づいて見出しをクラスタ化し、
・密度、アーティリティ、類似性のレベルなどの尺度に少なくとも基づいて、「悪い」クラスタを除外し、
・それぞれの残りのクラスタ内の最も一般的なセマンティックロールラベルを、前記クラスタ内のすべての見出しに伝搬する。
各チャンクについて、このステップは、キーフレーズ抽出技術(ルールベース言語技術、ML、統計、ベイジアン、および/またはその他など)のアンサンブルを使用して、テキストの候補セマンティックロールラベルを生成する。
i)文法
システムのこの態様は、スピーチタグ付けの一部、依存関係解析、構成要素解析、および他を含む自然言語処理タスクなどのテキストの言語学的分析から始まる。次いで、このシステムは、別のドメインからのツリーマッチング機構を適用して、NLPを介して発見されたツリーまたはツリー状構造内の文法的なおよび他の構造を位置付ける。これらは、XPath、GATE、および他のツールによって例示されるように、ツリー文法およびツリーパターンマッチングなどのドキュメント構造化方法を含む。
質問応答のためのBERTを含む質問応答技術は、候補チャンクのセマンティックロールラベル(例えば、日付、人名、ドル額)を識別するように特別に調整される。対照的に、ほとんどの従来の質問応答モデルは、「有効日は何か?」のような質問に応答することを目的とする。このシステムは、代わりに、「2018年7月8日は何か?」のような質問に答えるようにモデルをトレーニングし、「有効日」または「Xの有効日」を予測することを目的とし、Xは、テキスト中の別のチャンクを表す(単なる「日付」ではなく、これは、セマンティックロールではなくデータタイプである)。
ここで、「文法」の下で説明されているドメイン内のツールは、word 2 vec、char 2 vec、および多くの関連する方法などのテキストのベクトル-セマンティック表現を提供するツールと統合されている。このシステムは、アナリストが、XPathおよび類似のツールによってうまく処理される構造情報(XMLまたはDOM互換形式で表現されるチャンクのデータを含むことができる)と、ベクトルモデルによってうまく処理されるファジーまたは「意味論的」類似性情報との両方を含む、パターンを表現およびクエリすることを可能にする。
技術は、個人または企業名、住所などのデータタイプによっていくつかのチャンクを識別できる(これは「名前付きエンティティ認識」または「NER」として知られている)。しかし、NERはドキュメント内のこれらのエンティティのセマンティックロールを識別するのにかなり不足している。現在の技術はまた、句またはセクション全体などのより大きなチャンク、または意味のあるまたは有用なより大きなチャンクを含むチャンクのグループを識別することに失敗する。
ii)予想される単語
ウィキペディアなどの広範な一般的なテキストを使用してnグラムの言語モデルをトレーニングすることによって、「通常の英語に対してコンテキストにおいて予想される単語」のモデルを構築する。特定のドキュメントを見るとき、システムは、その一般的なモデルに適合せず、したがって、処理されているドキュメントに特有である傾向があるnグラムを識別するための手段を提供する。
これは、TF-IDFベースのアプローチ(「用語頻度対逆ドキュメント頻度」)であり、ラベル伝播およびコンテキストセマンティックラベリングと併せて使用される。
nグラムなどの小さな単語または文字シーケンスを抽出し、それらをコンテキスト埋め込み(例えば、BERTのもの)を使用してクラスタ化する。予想される結果は、意味論的意味を共有するnグラムが一緒にクラスタリングを開始することである。組み合わせエクスプロージョンのコストは、ヒューリスティック(構文ツリー上を含む)を使用して、クラスタリングの前にいくつかのnグラムをフィルタで除外することによって対処される。多種多様なクラスタリングアルゴリズムが適用され得る。この例では、hdbscanアルゴリズムは、「none」クラスタにランダムノイズを割り当てながら効果的なクラスタリングを達成する。
システムは少ショット学習技術を使用して、少数のラベル付けされたインスタンス(例えば、選択的なユーザフィードバック)から、学習されたパラメータのより広く適用可能なルールまたは調整までを一般化する。これは、ユーザにフィードバックを求めなければならない回数を大幅に削減し、システムのパフォーマンスをより迅速に向上する。
システムのこの側面は、チャンクを囲むセンテンスに直接現れる小さなチャンクのセマンティックロールラベルを検出する。意味のあるチャンクは、しばしば、コンテキストによって何らかの形で指定された役割を有する。例えば、以下である。
ジョン・ドゥ(「売り手」)は、…に住んでいる。
毎月の終わりまでに999ドルの賃料を支払わなければならない。
このプロセスは、センテンスの解析を含む以前に構築された構造上で動作するニューラルネットワークを使用して、テキストのどの部分が様々なチャンクのセマンティックロールラベルである可能性があるかを学習する。多くのチャンクは、さまざまなソースおよび信頼レベルを備えた、そのようなラベルを既に有し得るが、これは、それらについてのまたは対する追加の証拠、ならびに新しいラベルを提供する。ここでのパターンのいくつかは文法を伴う。例えば、「ドゥは、毎月の最終営業日までに$1000の賃料を支払うものとする」において、主要動詞は、通貨額の役割が何であるか、すなわち、それが支払われるべき賃料であること、を明らかにする。他のパターンは、構造、チャンキング、ラベリング、およびコンテキスト内で利用可能なコンテンツの特徴を使用して、教師ありおよび/または教師なしの方法によって自動的に学習される。括弧、テーブルレイアウト、キーフレーズおよび単語、ならびに他の特徴などのフォーマットはまた、ニューラルネットワークの特徴を提供する。
このプロセスは、ドキュメントのコーパス内のテキストの類似チャンクにわたってラベルを標準化する。これは、コンテキストから抽出されたラベルと、前のステップから利用可能なラベルとの両方に適用される。アルゴリズムは、凝集クラスタリングを使用してチャンクをそれらの埋め込みに基づいてクラスタリングし、重み付きページランクアルゴリズム(初期ノード重みとしてラベルの頻度/信頼度を使用する)を使用してチャンクの各クラスタについて候補ラベルをランク付けし、同時発生および埋め込み類似性を使用してラベルが互いにどのくらい類似しているかを決定する。次に、それらのクラスタレベルのスコアおよび我々がラベル付けしているチャンクが、ラベルの元のチャンクとどのくらい類似しているか(コンテンツ、埋め込み、構造、データタイプ、セマンティックロール、および/またはコンテキストの観点から)に基づいて、チャンクにラベルを割り当てる。凝集クラスタリングおよびページランクアルゴリズムを適用して、類似のコンテキストにわたってラベルを伝播させ、ドキュメントのセットにわたってラベルをより一貫性のあるようにする。
システムのこの態様は、ステップ(2)で生成されたようなドキュメントセット内の複数のドキュメントを検査し、現在のドキュメントで発生するが、一般に同じセットの他のドキュメントにカウンターパートチャンクを有していないチャンクを識別し、またはその逆も同様である。カウンターパートチャンクは、同一のコンテンツ、構造、フォーマット、コンテキスト、データタイプ、およびセマンティックロールを有する必要はないが、ひとつのドキュメントから別のドキュメントへのバリエーションを有し得る。それにもかかわらず、それらを、他の識別されたチャンクとそれらの方法において実質的に同様であると認識できる。
多くの前のステップは、ステップ(3)で生成された線形シーケンス内の文字、トークン、および/または非テキストオブジェクトの範囲として定義された(典型的には、必ずしも連続ではないが)ドキュメントのチャンクを作成および/または動作させる。
ドキュメントの強化バージョンは、ドキュメント構造、フォーマット、コンテンツ、および識別されたチャンクを表し、プロセスのどのステップでどのチャンクがどのレベルの信頼度で識別されたかを識別し得る。いくつかの実施形態は、この表現の構文としてXMLを使用するが、幅広い表現は、他のXMLスキーマ、JSON、様々なデータベース、カスタムテキストまたはバイナリフォーマットなどの実質的に同じ情報を含むことができる。
すでに説明した方法でドキュメントおよびその検出されたチャンクに添付された広範な注釈および分析は、サンプル、テンプレート、または以前のドキュメントの編集を通じてユーザを誘導し、現在のニーズに合わせてカスタマイズされた類似しているが新しいドキュメントを作成することを実現可能にする。例えば、このシステムは、通常、契約の対象となる当事者および財産、病歴、現在の所見、および臨床ノートの他の特定のセクションに記載されている薬または状態、関連する日付などを識別する。同じドキュメントセットの他のドキュメントも検査することによって、このシステムは、どの事柄が共通でないか、共通であるか、または必要であるかを学習し、したがって、何をレビューおよび/または更新すべきかについてユーザに対して、より有用な推奨を行うことができる。例えば、有効日は、ドキュメントセット内のほぼ全ての契約に存在し得るが、その値はそれぞれ異なり得る。同様に、当事者も変化するが、当事者の種類ははるかに一貫している。
ユーザとの相互作用では、システムは第1に、いくつかのドキュメントで検出された(または検出されなかった可能性がある)チャンクに関するフィードバックを要求する。フィードバックのために提示される最初のいくつかのドキュメントは、ドキュメントセットの「クラスタ重心(cluster centroids)」になる。最後のいくつかは、ドキュメントセットの「外れ値」になる。
この後、システムは、ドキュメントの選択された部分をユーザに示し、それらに対する現在のまたは潜在的なラベル、それらの範囲などについて尋ねることによってフィードバックを提供するようにユーザを誘導する。
a.「興味深いラベル」は、ページランクベースのアルゴリズムおよび文法および構造モデルによって決定される。これらのラベルのうち、信頼性の低いインスタンスのセットがレビューのために選択される。
b.現在のドキュメントに低信頼度ラベルがもはや存在しない場合、追加のドキュメントに対して同じプロセスを繰り返し得る。いくつかの実施形態では、モデルは、ユーザが提供しているフィードバックに基づいて継続的に更新される。しかし、代わりに、フィードバックを蓄積し、後で、バッチで、および/またはオフラインで適用できる。モデルに対する調整は、次いで、フィードバックのためにその後に提示されるチャンクおよびラベルの選択に影響を与えることができ、いくつかのドキュメントの再分析をトリガし得る。
c.このシステムは、実質的に同じメカニズムを使用して、フィールドおよび構造チャンクについてのフィードバックを求める。1つのアプローチでは、すべてのチャンク検出器は信頼性の推定値を提供し、これを、フィードバックの候補を選択するために他の情報と共に使用できる。
15)フィードバック応答
i)フリートクエリは、システムが、典型的には複数のユーザからのユーザフィードバックに基づいてプライベートおよびパブリックデータの両方をクエリすることを可能にする方法である。選択された例は、意味的におよび構文的に以前の障害ケースに類似しており、これはフィードバックの値を増加する。
ii)ディスパッチャ。ディスパッチャは、フィードバックから学習できる特定の学習モデル120に戻るいくつかのMLモデルおよび非MLアルゴリズムの組み合わされた出力に関するユーザフィードバックを接続するための方法論である。
説明されたようなチャンク情報を有するドキュメントに注釈を付けた後、選択された情報は、データベース、分析ツールなどの外部ビジネス情報システムによって必要とされる特定のフォーマットに変換され、それらのシステムに、直接または自動および/または手動のレビューステップを通じて、渡される。例えば、特定の当事者の名前および住所をデータベース内の正しいフィールドにコピーすることができ、これは、それらが「名前」および「住所」自体としてのみ識別された場合には自動的に行うことができない。ダウンストリームソフトウェアアプリケーションとの統合例については、図4を参照する。この例では、当事者が同意すると予想される用語を表すチャンクが抽出されており、それらは、Docusignと同様のダウンストリームアプリケーションに渡されて、記入され署名される。
Claims (20)
- ユーザがドキュメントセットに属するターゲットドキュメントを開発することを支援するための命令を実行するコンピュータシステムによって実行されるコンピュータ実装方法であって、
複数のドキュメントを含むドキュメントセットにアクセスすることであって、前記ドキュメントセットは、前記ドキュメントセットの前記個々のドキュメント内のチャンクを識別し、また、前記チャンクのいくつかについてのデータタイプおよびセマンティックロールラベルを含み、前記セマンティックロールラベルは、それぞれのドキュメント内で前記チャンクによって果たされる前記セマンティックロールを記述する、ことと、
(a)前記ドキュメントセット内の前記ドキュメントにわたってチャンクによって果たされるセマンティックロールの発生のパターン、および(b)前記ドキュメントセットにわたって異なるドキュメント内のカウンターパートチャンクの発生のパターンを導出することであって、カウンターパートチャンクは異なるドキュメントにおいて同じセマンティックロールを果たす、ことと、
ユーザが前記ドキュメントセットに属するターゲットドキュメントを開発するためのユーザインターフェースを提供することと、
前記ドキュメントセットにわたって前記導出された発生のパターンに基づいて、前記ターゲットドキュメントを開発するための提案を自動的に生成し、前記ユーザインターフェース内に前記提案を表示することと、
を含むコンピュータ実装方法。 - 前記発生のパターンを導出することは、前記発生のパターンを導出するために機械学習および/または人工知能を使用することを含む、請求項1に記載のコンピュータ実装方法。
- 前記ドキュメントセット内の前記複数のドキュメントは、すべて同じドキュメントタイプである、請求項1に記載のコンピュータ実装方法。
- 前記ドキュメントセット内の個々のドキュメント内のチャンクの発生のパターンを導出することをさらに含み、提案を自動的に生成することはさらに、そのような導出されたパターンにさらに基づく、
請求項1に記載のコンピュータ実装方法。 - 前記ドキュメントセット内の前記チャンクは、
ドキュメントテンプレートにおけるフィールドとして使用するのに適した前記ドキュメント内のコンテンツを含むフィールドチャンクであって、前記フィールドチャンクのいくつかは階層的であり、サブチャンクとして他のチャンクを含む、フィールドチャンクと、
前記ドキュメントのレイアウト内の構造からのコンテンツを含む構造チャンクであって、前記セマンティックロールラベルは、前記構造チャンクのいくつかに対するセマンティックロールラベルを含む、構造チャンクと、
画像または動画を含むチャンクと、
を含む、請求項1に記載のコンピュータ実装方法。 - 前記ターゲットドキュメント内のチャンクを、前記ドキュメントセットにわたってセマンティックロールおよび/またはカウンターパートチャンクの前記導出された発生のパターンと比較することであって、いくつかの提案が前記比較に基づいて自動的に生成される、ことをさらに含む、請求項1に記載のコンピュータ実装方法。
- 前記ドキュメントセットにわたってセマンティックロールおよび/またはカウンターパートチャンクの前記導出された発生のパターンと比較して、前記ターゲットドキュメントにおけるセマンティックロールの発生における異常を識別することであって、少なくとも1つの提案が前記識別された異常に基づいて自動的に生成される、こと、
をさらに含む、請求項1に記載のコンピュータ実装方法。 - 前記識別された異常は前記ターゲットドキュメント内にでは欠落しているが、前記ドキュメントセット内で一般的に発生している、セマンティックロールを識別することを含み、
前記自動的に生成された提案は、前記欠落しているセマンティックロールに対するコンテンツを追加することを含む、請求項7に記載のコンピュータ実装方法。 - 前記識別された異常は、前記ターゲットドキュメント内で発生するが、前記ドキュメントセット内で一般的に発生しない、余分なセマンティックロールを識別することを含み、
前記自動的に生成された提案は、前記余分なセマンティックロールについて対応するチャンクを除去または修正することを含む、請求項7に記載のコンピュータ実装方法。 - 前記識別された異常は、前記ターゲットドキュメント内で発生し、前記ドキュメントセット内でも一般的に発生しているセマンティックロールを識別することを含むが、前記ターゲットドキュメント内の対応するチャンクのコンテンツは、前記ドキュメントセット内の前記対応するチャンクのコンテンツと一致せず、
前記自動的に生成された提案は前記ターゲットドキュメント内の前記一致しないコンテンツを除去または修正することを含む、請求項7に記載のコンピュータ実装方法。 - 前記識別されたチャンクはドキュメントテンプレートにおけるフィールドとして使用するのに適した前記ドキュメント内のコンテンツを含むフィールドチャンクを含み、
前記導出されたパターンは、前記フィールドチャンクの1つについて、前記カウンターパートチャンクが同じコンテンツを実質的にすべて含むパターンを含み、
少なくとも1つの自動的に生成された提案は、前記フィールドチャンクに対して、前記同じコンテンツを前記ターゲットドキュメントに入力することを含む、請求項1に記載のコンピュータ実装方法。 - 前記ユーザに提案を表示することは前記ユーザが前記提案を承諾するまたは拒否するためのオプションを有するいくつかの提案を表示することを含む、請求項1に記載のコンピュータ実装方法。
- (a)前記ユーザが前記ターゲットドキュメントに対する個々の提案を承諾することに応答して、前記ターゲットドキュメントにおける前記承諾された提案の生成につながった前記ターゲットドキュメントにおける前記同じパターンを示す第2のターゲットドキュメントに対して前記同じ提案を繰り返すことと、
(b)前記ユーザが前記ターゲットドキュメントに対する個々の提案を拒否したことに応答して、前記ターゲットドキュメントにおける前記拒否された提案の生成につながった前記ターゲットドキュメントにおける前記同じパターンを示す第3のターゲットドキュメントに対して前記同じ提案を繰り返さないことと、
の少なくとも1つをさらに含む、請求項1に記載のコンピュータ実装方法。 - いくつかの提案を自動的に適用することをさらに含み、前記ユーザに提案を表示することは前記自動的に適用された提案を前記ユーザが確認するためのオプションを表示することを含む、請求項1に記載のコンピュータ実装方法。
- 前記提案を表示することは前記ユーザインターフェース内の前記提案における信頼度によってランク付けされた順序で前記提案を表示することを含む、請求項1に記載のコンピュータ実装方法。
- 前記ターゲットドキュメント自体内のパターンに基づいて、および/または前記ドキュメントセットの外のドキュメント内のパターンに基づいて、前記ターゲットドキュメントに対する追加の提案を自動的に生成することであって、前記ターゲットドキュメント内のパターンに基づく、前記ドキュメントセット内のパターンに基づく、および前記ドキュメントセットの外のドキュメント内のパターンに基づく前記提案が、異なる優先度で前記ユーザインターフェース内に表示される、ことをさらに含む、請求項1に記載のコンピュータ実装方法。
- 前記自動的に生成された提案は前記ユーザおよび/または前記ユーザの所属にさらに依存する、請求項1に記載のコンピュータ実装方法。
- (a)前記ターゲットドキュメントが前記ユーザによって編集されている既存のドキュメントであり、前記自動的に生成された提案が前記既存のドキュメントを編集するための提案を含むこと、および(b)前記ターゲットドキュメントが前記ユーザによって作成されている新しいドキュメントであり、前記自動的に生成された提案が前記新しいドキュメントを作成するための提案を含むこと、の少なくとも1つである、請求項1に記載のコンピュータ実装方法。
- ユーザがドキュメントセットに属するターゲットドキュメントを開発することを支援するための実行可能なコンピュータプログラム命令を格納する非一時的コンピュータ可読記憶媒体であって、前記コンピュータプログラム命令は、コンピュータシステムによって実行可能であり、前記コンピュータシステムに、
複数のドキュメントを含むドキュメントセットにアクセスすることであって、前記ドキュメントセットは、前記ドキュメントセットの前記個々のドキュメント内のチャンクを識別し、また、前記チャンクのいくつかについてのデータタイプおよびセマンティックロールラベルを含み、前記セマンティックロールラベルは、それぞれのドキュメント内で前記チャンクによって果たされる前記セマンティックロールを記述する、ことと、
(a)前記ドキュメントセット内の前記ドキュメントにわたってチャンクによって果たされるセマンティックロールの発生のパターン、および(b)前記ドキュメントセットにわたって異なるドキュメント内のカウンターパートチャンクの発生のパターンを導出することであって、カウンターパートチャンクは異なるドキュメントにおいて同じセマンティックロールを果たす、ことと、
ユーザが前記ドキュメントセットに属するターゲットドキュメントを開発するためのユーザインターフェースを提供することと、
前記ドキュメントセットにわたって前記導出された発生のパターンに基づいて、前記ターゲットドキュメントを開発するための提案を自動的に生成し、前記ユーザインターフェース内に前記提案を表示することと、
を含む方法を実行させる、非一時的コンピュータ可読記憶媒体。 - ユーザがドキュメントセットに属するターゲットドキュメントを開発することを支援するためのコンピュータシステムであって、前記コンピュータシステムは、
複数のドキュメントを含むドキュメントセットを受信し、格納する記憶媒体であって、前記ドキュメントセットは、前記ドキュメントセットの前記個々のドキュメント内のチャンクを識別し、また、前記チャンクのいくつかについてのデータタイプおよびセマンティックロールラベルを含み、前記セマンティックロールラベルは、それらのそれぞれのドキュメント内の前記チャンクによって果たされる前記セマンティックロールを記述する、記憶媒体と、
前記記憶媒体へのアクセスを有し、前記ターゲットドキュメントを開発するためのアプリケーションプログラムを実行するプロセッサシステムと、
を備え、
前記アプリケーションプログラムを実行する前記プロセッサシステムは、
(a)前記ドキュメントセット内の前記ドキュメントにわたってチャンクによって果たされるセマンティックロールの発生のパターン、および(b)前記ドキュメントセットにわたって異なるドキュメント内のカウンターパートチャンクの発生のパターンを導出することであって、カウンターパートチャンクは異なるドキュメントにおいて同じセマンティックロールを果たす、ことと、
ユーザが前記ドキュメントセットに属するターゲットドキュメントを開発するためのユーザインターフェースを提供することと、
前記ドキュメントセットにわたって前記導出された発生のパターンに基づいて、前記ターゲットドキュメントを開発するための提案を自動的に生成し、前記ユーザインターフェース内に前記提案を表示することと、
を実行する、コンピュータシステム。
Applications Claiming Priority (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US201962900793P | 2019-09-16 | 2019-09-16 | |
| US62/900,793 | 2019-09-16 | ||
| JP2022542307A JP7664262B2 (ja) | 2019-09-16 | 2020-07-24 | クロスドキュメントインテリジェントオーサリングおよび処理アシスタント |
| PCT/US2020/043606 WO2021055102A1 (en) | 2019-09-16 | 2020-07-24 | Cross-document intelligent authoring and processing assistant |
| JP2024209611A JP7758836B2 (ja) | 2019-09-16 | 2024-12-02 | クロスドキュメントインテリジェントオーサリングおよび処理アシスタント |
Related Parent Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2024209611A Division JP7758836B2 (ja) | 2019-09-16 | 2024-12-02 | クロスドキュメントインテリジェントオーサリングおよび処理アシスタント |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2025188195A JP2025188195A (ja) | 2025-12-25 |
| JP7842294B2 true JP7842294B2 (ja) | 2026-04-07 |
Family
ID=74867926
Family Applications (3)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2022542307A Active JP7664262B2 (ja) | 2019-09-16 | 2020-07-24 | クロスドキュメントインテリジェントオーサリングおよび処理アシスタント |
| JP2024209611A Active JP7758836B2 (ja) | 2019-09-16 | 2024-12-02 | クロスドキュメントインテリジェントオーサリングおよび処理アシスタント |
| JP2025171167A Active JP7842294B2 (ja) | 2019-09-16 | 2025-10-09 | クロスドキュメントインテリジェントオーサリングおよび処理アシスタント |
Family Applications Before (2)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2022542307A Active JP7664262B2 (ja) | 2019-09-16 | 2020-07-24 | クロスドキュメントインテリジェントオーサリングおよび処理アシスタント |
| JP2024209611A Active JP7758836B2 (ja) | 2019-09-16 | 2024-12-02 | クロスドキュメントインテリジェントオーサリングおよび処理アシスタント |
Country Status (6)
| Country | Link |
|---|---|
| US (7) | US11507740B2 (ja) |
| EP (1) | EP4028961A4 (ja) |
| JP (3) | JP7664262B2 (ja) |
| KR (3) | KR102699233B1 (ja) |
| CN (2) | CN114616572B (ja) |
| CA (1) | CA3150535A1 (ja) |
Families Citing this family (62)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP3460685A1 (en) * | 2017-09-12 | 2019-03-27 | Bricsys NV | Improved semantic classification of an entity in a building information model |
| KR102699233B1 (ko) | 2019-09-16 | 2024-08-27 | 도큐가미, 인크. | 문서 간 지능형 저작 및 처리 보조기 |
| US11875778B1 (en) * | 2019-11-15 | 2024-01-16 | Yahoo Assets Llc | Systems and methods for voice rendering of machine-generated electronic messages |
| US11763071B2 (en) * | 2020-01-06 | 2023-09-19 | Catachi Co. | Methods and systems for facilitating unifying of multiple regulatory documents |
| US12596924B1 (en) * | 2020-03-16 | 2026-04-07 | Eightfold AI Inc. | System and method for machine-readable electronic document |
| US11734268B2 (en) | 2020-06-25 | 2023-08-22 | Pryon Incorporated | Document pre-processing for question-and-answer searching |
| US20220092097A1 (en) * | 2020-09-18 | 2022-03-24 | Anurag Gupta | Method for Extracting and Organizing Information from a Document |
| WO2022072992A1 (en) * | 2020-09-29 | 2022-04-07 | Google Llc | Scroller interface for transcription navigation |
| US12229208B2 (en) * | 2020-09-30 | 2025-02-18 | Home Depot Product Authority, Llc | Responsive category prediction for user queries |
| US20220156489A1 (en) * | 2020-11-18 | 2022-05-19 | Adobe Inc. | Machine learning techniques for identifying logical sections in unstructured data |
| CN112435651B (zh) * | 2020-11-20 | 2023-05-02 | 昆明学院 | 一种语音数据自动标注的质量评估方法 |
| US11748555B2 (en) * | 2021-01-22 | 2023-09-05 | Bao Tran | Systems and methods for machine content generation |
| US12493744B2 (en) * | 2021-02-09 | 2025-12-09 | Ancestry.Com Operations Inc. | Context-based keyphrase extraction from input text |
| DE202022002902U1 (de) | 2021-02-17 | 2024-02-08 | Applica sp. z o.o. | Iteratives Training für einen Text-Bild-Layout-Transformer |
| US11594054B2 (en) | 2021-02-19 | 2023-02-28 | Capital One Services, Llc | Document lineage management system |
| US11790568B2 (en) * | 2021-03-29 | 2023-10-17 | Kyndryl, Inc | Image entity extraction and granular interactivity articulation |
| US11521639B1 (en) * | 2021-04-02 | 2022-12-06 | Asapp, Inc. | Speech sentiment analysis using a speech sentiment classifier pretrained with pseudo sentiment labels |
| US12174913B2 (en) * | 2021-04-29 | 2024-12-24 | International Business Machines Corporation | Parameterized neighborhood memory adaptation |
| US12277389B2 (en) * | 2021-05-10 | 2025-04-15 | International Business Machines Corporation | Text mining based on document structure information extraction |
| US11755839B2 (en) * | 2021-05-19 | 2023-09-12 | International Business Machines Corporation | Low resource named entity recognition for sensitive personal information |
| US12347534B2 (en) | 2021-07-14 | 2025-07-01 | Kpmg Llp | System and method for implementing a medical records analytics platform |
| US11763803B1 (en) | 2021-07-28 | 2023-09-19 | Asapp, Inc. | System, method, and computer program for extracting utterances corresponding to a user problem statement in a conversation between a human agent and a user |
| CN113505201A (zh) * | 2021-07-29 | 2021-10-15 | 宁波薄言信息技术有限公司 | 一种基于SegaBert预训练模型的合同抽取方法 |
| CN113722555A (zh) * | 2021-07-29 | 2021-11-30 | 武汉光庭信息技术股份有限公司 | 一种数据标注项质检方法及系统 |
| US20230074189A1 (en) * | 2021-08-19 | 2023-03-09 | Fmr Llc | Methods and systems for intelligent text classification with limited or no training data |
| US11941147B2 (en) | 2021-08-31 | 2024-03-26 | Box, Inc. | Detection of personally identifiable information |
| US12072935B2 (en) | 2021-09-08 | 2024-08-27 | Microsoft Technology Licensing, Llc | Machine-learning of document portion layout |
| US20230102198A1 (en) * | 2021-09-30 | 2023-03-30 | Intuit Inc. | Artificial intelligence based compliance document processing |
| US11657078B2 (en) | 2021-10-14 | 2023-05-23 | Fmr Llc | Automatic identification of document sections to generate a searchable data structure |
| US11361151B1 (en) | 2021-10-18 | 2022-06-14 | BriefCatch LLC | Methods and systems for intelligent editing of legal documents |
| US12153880B2 (en) | 2021-10-18 | 2024-11-26 | BriefCatch LLC | Methods and systems for intelligent editing of legal documents |
| CN116186000A (zh) * | 2021-11-26 | 2023-05-30 | 华为云计算技术有限公司 | 数据治理的方法、装置及存储介质 |
| US12067363B1 (en) | 2022-02-24 | 2024-08-20 | Asapp, Inc. | System, method, and computer program for text sanitization |
| US20250265080A1 (en) * | 2022-04-12 | 2025-08-21 | The Trustees Of Dartmouth College | Processing architecture for fundamental symbolic logic operations and method for employing the same |
| US12282503B2 (en) * | 2022-04-19 | 2025-04-22 | Microsoft Technology Licensing, Llc | Inline search based on intent-detection |
| US11907643B2 (en) * | 2022-04-29 | 2024-02-20 | Adobe Inc. | Dynamic persona-based document navigation |
| US20230350954A1 (en) * | 2022-05-02 | 2023-11-02 | SparkCognition, Inc. | Systems and methods of filtering topics using parts of speech tagging |
| EP4276676A1 (en) | 2022-05-09 | 2023-11-15 | Canon Kabushiki Kaisha | Information processing apparatus, information processing method, program, and storage medium for extracting a named entity from a document |
| US12333244B2 (en) * | 2022-05-12 | 2025-06-17 | Dell Products L.P. | Automated address data determinations using artificial intelligence techniques |
| US12141208B2 (en) | 2022-05-23 | 2024-11-12 | International Business Machines Corporation | Multi-chunk relationship extraction and maximization of query answer coherence |
| US11853335B1 (en) | 2022-06-13 | 2023-12-26 | International Business Machines Corporation | Cooperative build and content annotation for conversational design of virtual assistants |
| US12205393B2 (en) * | 2022-07-12 | 2025-01-21 | Dell Products L.P. | Automating text and graphics coverage analysis of a website page |
| CN115495580B (zh) * | 2022-09-26 | 2026-02-10 | 中南大学 | 基于量子启发式算法的文本情感分类方法 |
| US12056175B2 (en) * | 2022-09-28 | 2024-08-06 | Atlassian Pty Ltd. | Label management system for an electronic document management service |
| US12079912B2 (en) * | 2022-11-10 | 2024-09-03 | International Business Machines Corporation | Enhancing images in text documents |
| US12026458B2 (en) | 2022-11-11 | 2024-07-02 | State Farm Mutual Automobile Insurance Company | Systems and methods for generating document templates from a mixed set of document types |
| US12124794B2 (en) * | 2022-11-22 | 2024-10-22 | Adobe Inc. | Stylizing digital content |
| EP4589464A4 (en) | 2022-12-02 | 2025-12-24 | Samsung Electronics Co Ltd | METHOD, ELECTRONIC DEVICE AND RECORDING MEDIUM FOR ADJUSTING A DOCUMENT STYLE |
| US20240296187A1 (en) * | 2023-03-02 | 2024-09-05 | Truist Bank | Automated classification of datasets using semantic type indentification |
| US12315051B2 (en) | 2023-03-14 | 2025-05-27 | Adobe Inc. | Reference based digital content stylization |
| US12525047B2 (en) | 2023-04-20 | 2026-01-13 | L&T Technology Services Limited | Method and system of classifying text data in a document |
| US20250053835A1 (en) * | 2023-08-07 | 2025-02-13 | Trunk Tools, Inc. | Methods and systems for generative question answering for construction project data |
| US20250322167A1 (en) * | 2023-08-09 | 2025-10-16 | Instabase, Inc. | Systems and methods to extract semantic information from documents |
| US12405970B2 (en) | 2023-10-06 | 2025-09-02 | International Business Machines Corporation | Multi-layer approach to improving generation of field extraction models |
| US20250307286A1 (en) * | 2024-03-29 | 2025-10-02 | Microsoft Technology Licensing, Llc | Chunk synthesis for retrieval augmented generation assistants |
| JP2025182482A (ja) * | 2024-06-03 | 2025-12-15 | 株式会社東芝 | 文書処理プログラム、文書処理装置および文書処理方法 |
| CN119005137B (zh) * | 2024-06-28 | 2025-04-04 | 北京安锐卓越信息技术股份有限公司 | 基于icontent架构的一键修改文档错误内容的方法 |
| US20260010573A1 (en) * | 2024-07-03 | 2026-01-08 | Sas Institute Inc. | System and method for compressing prompts to language models for document processing |
| CN118504533B (zh) * | 2024-07-19 | 2024-11-08 | 青岛理工大学 | 一种基于大语言模型的在线文档智能操作系统及操作方法 |
| CN119473084A (zh) * | 2024-10-30 | 2025-02-18 | 北京字跳网络技术有限公司 | 用于模板创建的方法、装置、设备和存储介质 |
| US12602421B1 (en) | 2025-01-23 | 2026-04-14 | Dell Products L.P. | Classifying retrieved context data for a relativistic response |
| US12511925B1 (en) * | 2025-04-01 | 2025-12-30 | Qpiai India Private Limited | System and method for semi-automated dataset annotation using similarity based clustering and in-context learning for segmentation |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2005266903A (ja) | 2004-03-16 | 2005-09-29 | Toshiba Corp | 文書処理装置及び文書処理方法 |
| JP2017004074A (ja) | 2015-06-05 | 2017-01-05 | 日本電気株式会社 | 関係検出システム、関係検出方法、及び、関係検出プログラム |
| JP2019531524A (ja) | 2016-07-27 | 2019-10-31 | ウィックス.コム リミテッド. | ウェブサイト構築システムおよびウェブサイト構築システムのための方法 |
Family Cites Families (104)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| AU6245396A (en) | 1996-07-03 | 1998-02-02 | Polydoc N.V. | Document producing support system |
| US6076051A (en) * | 1997-03-07 | 2000-06-13 | Microsoft Corporation | Information retrieval utilizing semantic representation of text |
| US7287219B1 (en) | 1999-03-11 | 2007-10-23 | Abode Systems Incorporated | Method of constructing a document type definition from a set of structured electronic documents |
| US6924828B1 (en) | 1999-04-27 | 2005-08-02 | Surfnotes | Method and apparatus for improved information representation |
| US20020002481A1 (en) | 2000-05-16 | 2002-01-03 | Hirokazu Uchio | Information processing apparatus for management of documents relevant to patent application |
| WO2002017128A1 (en) | 2000-08-24 | 2002-02-28 | Science Applications International Corporation | Word sense disambiguation |
| US9009590B2 (en) * | 2001-07-31 | 2015-04-14 | Invention Machines Corporation | Semantic processor for recognition of cause-effect relations in natural language documents |
| WO2003012661A1 (en) | 2001-07-31 | 2003-02-13 | Invention Machine Corporation | Computer based summarization of natural language documents |
| US20040001099A1 (en) | 2002-06-27 | 2004-01-01 | Microsoft Corporation | Method and system for associating actions with semantic labels in electronic documents |
| US7523394B2 (en) | 2002-06-28 | 2009-04-21 | Microsoft Corporation | Word-processing document stored in a single XML file that may be manipulated by applications that understand XML |
| US20050027664A1 (en) | 2003-07-31 | 2005-02-03 | Johnson David E. | Interactive machine learning system for automated annotation of information in text |
| US20050060643A1 (en) | 2003-08-25 | 2005-03-17 | Miavia, Inc. | Document similarity detection and classification system |
| US20050060140A1 (en) | 2003-09-15 | 2005-03-17 | Maddox Paul Christopher | Using semantic feature structures for document comparisons |
| US20050108630A1 (en) | 2003-11-19 | 2005-05-19 | Wasson Mark D. | Extraction of facts from text |
| US7742911B2 (en) | 2004-10-12 | 2010-06-22 | At&T Intellectual Property Ii, L.P. | Apparatus and method for spoken language understanding by using semantic role labeling |
| US8719700B2 (en) * | 2010-05-04 | 2014-05-06 | Xerox Corporation | Matching a page layout for each page of a document to a page template candidate from a list of page layout candidates |
| WO2006096260A2 (en) | 2005-01-31 | 2006-09-14 | Musgrove Technology Enterprises, Llc | System and method for generating an interlinked taxonomy structure |
| US7606781B2 (en) * | 2005-03-30 | 2009-10-20 | Primal Fusion Inc. | System, method and computer program for facet analysis |
| US8249344B2 (en) | 2005-07-01 | 2012-08-21 | Microsoft Corporation | Grammatical parsing of document visual structures |
| JP4521343B2 (ja) | 2005-09-29 | 2010-08-11 | 株式会社東芝 | 文書処理装置及び文書処理方法 |
| US8176004B2 (en) | 2005-10-24 | 2012-05-08 | Capsilon Corporation | Systems and methods for intelligent paperless document management |
| US20070150802A1 (en) | 2005-12-12 | 2007-06-28 | Canon Information Systems Research Australia Pty. Ltd. | Document annotation and interface |
| US7788579B2 (en) | 2006-03-06 | 2010-08-31 | Ricoh Co., Ltd. | Automated document layout design |
| US20080008391A1 (en) | 2006-07-10 | 2008-01-10 | Amir Geva | Method and System for Document Form Recognition |
| US9495358B2 (en) | 2006-10-10 | 2016-11-15 | Abbyy Infopoisk Llc | Cross-language text clustering |
| US8738359B2 (en) * | 2006-10-18 | 2014-05-27 | Honda Motor Co., Ltd. | Scalable knowledge extraction |
| US7734623B2 (en) * | 2006-11-07 | 2010-06-08 | Cycorp, Inc. | Semantics-based method and apparatus for document analysis |
| US8671341B1 (en) | 2007-01-05 | 2014-03-11 | Linguastat, Inc. | Systems and methods for identifying claims associated with electronic text |
| US7778953B2 (en) * | 2007-02-19 | 2010-08-17 | Kabushiki Kaisha Toshiba | Document management apparatus and document management method |
| US8180633B2 (en) * | 2007-03-08 | 2012-05-15 | Nec Laboratories America, Inc. | Fast semantic extraction using a neural network architecture |
| US8209278B1 (en) * | 2007-03-23 | 2012-06-26 | Jay Bradley Straus | Computer editing system for common textual patterns in legal documents |
| WO2008132706A1 (en) | 2007-04-26 | 2008-11-06 | Markport Limited | A web browsing method and system |
| US8527262B2 (en) | 2007-06-22 | 2013-09-03 | International Business Machines Corporation | Systems and methods for automatic semantic role labeling of high morphological text for natural language processing applications |
| US9405792B2 (en) | 2007-08-14 | 2016-08-02 | John Nicholas and Kristin Gross Trust | News aggregator and search engine using temporal decoding |
| WO2009029923A2 (en) | 2007-08-31 | 2009-03-05 | Powerset, Inc. | Emphasizing search results according to conceptual meaning |
| US8229730B2 (en) | 2007-08-31 | 2012-07-24 | Microsoft Corporation | Indexing role hierarchies for words in a search index |
| US8280885B2 (en) | 2007-10-29 | 2012-10-02 | Cornell University | System and method for automatically summarizing fine-grained opinions in digital text |
| US8392436B2 (en) | 2008-02-07 | 2013-03-05 | Nec Laboratories America, Inc. | Semantic search via role labeling |
| US8145632B2 (en) | 2008-02-22 | 2012-03-27 | Tigerlogic Corporation | Systems and methods of identifying chunks within multiple documents |
| US8196030B1 (en) | 2008-06-02 | 2012-06-05 | Pricewaterhousecoopers Llp | System and method for comparing and reviewing documents |
| US8286132B2 (en) | 2008-09-25 | 2012-10-09 | International Business Machines Corporation | Comparing and merging structured documents syntactically and semantically |
| US8214734B2 (en) | 2008-10-09 | 2012-07-03 | International Business Machines Corporation | Credibility of text analysis engine performance evaluation by rating reference content |
| US20100153318A1 (en) * | 2008-11-19 | 2010-06-17 | Massachusetts Institute Of Technology | Methods and systems for automatically summarizing semantic properties from documents with freeform textual annotations |
| US8443278B2 (en) * | 2009-01-02 | 2013-05-14 | Apple Inc. | Identification of tables in an unstructured document |
| US9262395B1 (en) | 2009-02-11 | 2016-02-16 | Guangsheng Zhang | System, methods, and data structure for quantitative assessment of symbolic associations |
| US8335754B2 (en) | 2009-03-06 | 2012-12-18 | Tagged, Inc. | Representing a document using a semantic structure |
| WO2010120925A2 (en) * | 2009-04-15 | 2010-10-21 | Evri Inc. | Search and search optimization using a pattern of a location identifier |
| JP5340847B2 (ja) | 2009-07-27 | 2013-11-13 | 株式会社日立ソリューションズ | 文書データ処理装置 |
| JP5477635B2 (ja) * | 2010-02-15 | 2014-04-23 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
| US9760634B1 (en) * | 2010-03-23 | 2017-09-12 | Firstrain, Inc. | Models for classifying documents |
| US9129300B2 (en) | 2010-04-21 | 2015-09-08 | Yahoo! Inc. | Using external sources for sponsored search AD selection |
| US9594730B2 (en) * | 2010-07-01 | 2017-03-14 | Yahoo! Inc. | Annotating HTML segments with functional labels |
| US20150112664A1 (en) * | 2010-12-09 | 2015-04-23 | Rage Frameworks, Inc. | System and method for generating a tractable semantic network for a concept |
| US8818932B2 (en) | 2011-02-14 | 2014-08-26 | Decisive Analytics Corporation | Method and apparatus for creating a predictive model |
| US10303999B2 (en) | 2011-02-22 | 2019-05-28 | Refinitiv Us Organization Llc | Machine learning-based relationship association and related discovery and search engines |
| US8543577B1 (en) | 2011-03-02 | 2013-09-24 | Google Inc. | Cross-channel clusters of information |
| US8719692B2 (en) | 2011-03-11 | 2014-05-06 | Microsoft Corporation | Validation, rejection, and modification of automatically generated document annotations |
| US20120296637A1 (en) * | 2011-05-20 | 2012-11-22 | Smiley Edwin Lee | Method and apparatus for calculating topical categorization of electronic documents in a collection |
| US8606780B2 (en) | 2011-07-08 | 2013-12-10 | Microsoft Corporation | Image re-rank based on image annotations |
| US8488916B2 (en) * | 2011-07-22 | 2013-07-16 | David S Terman | Knowledge acquisition nexus for facilitating concept capture and promoting time on task |
| US9280525B2 (en) * | 2011-09-06 | 2016-03-08 | Go Daddy Operating Company, LLC | Method and apparatus for forming a structured document from unstructured information |
| PT2639749T (pt) | 2012-03-15 | 2017-01-18 | Cortical Io Gmbh | Métodos, aparelhos e produtos para processamento semântico de texto |
| US9008443B2 (en) | 2012-06-22 | 2015-04-14 | Xerox Corporation | System and method for identifying regular geometric structures in document pages |
| US20150100877A1 (en) | 2012-06-29 | 2015-04-09 | Yahoo! Inc. | Method or system for automated extraction of hyper-local events from one or more web pages |
| US9280520B2 (en) * | 2012-08-02 | 2016-03-08 | American Express Travel Related Services Company, Inc. | Systems and methods for semantic information retrieval |
| US9582494B2 (en) | 2013-02-22 | 2017-02-28 | Altilia S.R.L. | Object extraction from presentation-oriented documents using a semantic and spatial approach |
| US20140324808A1 (en) | 2013-03-15 | 2014-10-30 | Sumeet Sandhu | Semantic Segmentation and Tagging and Advanced User Interface to Improve Patent Search and Analysis |
| US9922102B2 (en) * | 2013-07-31 | 2018-03-20 | Splunk Inc. | Templates for defining fields in machine data |
| GB2517976A (en) | 2013-09-09 | 2015-03-11 | Ibm | Business rule management system |
| US9058374B2 (en) | 2013-09-26 | 2015-06-16 | International Business Machines Corporation | Concept driven automatic section identification |
| WO2015048275A2 (en) | 2013-09-26 | 2015-04-02 | Polis Technology Inc. | System and methods for real-time formation of groups and decentralized decision making |
| US20150134321A1 (en) | 2013-11-08 | 2015-05-14 | Thomas Fennell | System and method for translating text |
| US9396763B2 (en) * | 2013-11-15 | 2016-07-19 | Clipmine, Inc. | Computer-assisted collaborative tagging of video content for indexing and table of contents generation |
| US10424016B2 (en) | 2013-12-19 | 2019-09-24 | International Business Machines Corporation | Modeling asset transfer flow relationships discovered in unstructured data |
| US10140578B1 (en) | 2014-03-17 | 2018-11-27 | Intuit Inc. | System and method for managing social-based questions and answers |
| US10055402B2 (en) | 2014-03-17 | 2018-08-21 | Accenture Global Services Limited | Generating a semantic network based on semantic connections between subject-verb-object units |
| US9477654B2 (en) | 2014-04-01 | 2016-10-25 | Microsoft Corporation | Convolutional latent semantic models and their applications |
| US9760626B2 (en) | 2014-09-05 | 2017-09-12 | International Business Machines Corporation | Optimizing parsing outcomes of documents |
| US10325511B2 (en) | 2015-01-30 | 2019-06-18 | Conduent Business Services, Llc | Method and system to attribute metadata to preexisting documents |
| EP3057009A1 (en) | 2015-02-10 | 2016-08-17 | ResearchGate GmbH | Online publication system and method |
| US20160267165A1 (en) | 2015-03-14 | 2016-09-15 | Hui Wang | Automated Key Words (Phrases) Discovery In Document Stacks And Its Application To Document Classification, Aggregation, and Summarization |
| US9940681B2 (en) | 2015-09-01 | 2018-04-10 | International Business Machines Corporation | Predictive approach to contract management |
| US10504010B2 (en) * | 2015-10-02 | 2019-12-10 | Baidu Usa Llc | Systems and methods for fast novel visual concept learning from sentence descriptions of images |
| US9760556B1 (en) | 2015-12-11 | 2017-09-12 | Palantir Technologies Inc. | Systems and methods for annotating and linking electronic documents |
| US10755804B2 (en) | 2016-08-10 | 2020-08-25 | Talix, Inc. | Health information system for searching, analyzing and annotating patient data |
| CN106295706B (zh) * | 2016-08-17 | 2019-04-19 | 山东大学 | 一种基于形状视觉知识库的图像自动分割和语义注释方法 |
| JP2018045664A (ja) | 2016-09-16 | 2018-03-22 | 株式会社リコー | 利用量管理装置、利用量管理方法、利用量管理プログラム、及び、利用量管理システム |
| US20180150768A1 (en) | 2016-11-30 | 2018-05-31 | Gluru Limited | Automated generation of natural language task/expectation descriptions |
| US10380228B2 (en) * | 2017-02-10 | 2019-08-13 | Microsoft Technology Licensing, Llc | Output generation based on semantic expressions |
| WO2018170321A1 (en) | 2017-03-15 | 2018-09-20 | Exari Group, Inc. | Machine evaluation of contract terms |
| US20180300315A1 (en) | 2017-04-14 | 2018-10-18 | Novabase Business Solutions, S.A. | Systems and methods for document processing using machine learning |
| US10540440B2 (en) | 2017-06-05 | 2020-01-21 | International Business Machines Corporation | Relation extraction using Q and A |
| EP3688609A1 (en) * | 2017-09-28 | 2020-08-05 | Oracle International Corporation | Determining cross-document rhetorical relationships based on parsing and identification of named entities |
| EP3462331B1 (en) | 2017-09-29 | 2021-08-04 | Tata Consultancy Services Limited | Automated cognitive processing of source agnostic data |
| US20190102697A1 (en) | 2017-10-02 | 2019-04-04 | International Business Machines Corporation | Creating machine learning models from structured intelligence databases |
| US10838996B2 (en) | 2018-03-15 | 2020-11-17 | International Business Machines Corporation | Document revision change summarization |
| US10650186B2 (en) | 2018-06-08 | 2020-05-12 | Handycontract, LLC | Device, system and method for displaying sectioned documents |
| US10891316B2 (en) | 2018-07-02 | 2021-01-12 | Salesforce.Com, Inc. | Identifying homogenous clusters |
| CN109582949B (zh) * | 2018-09-14 | 2022-11-22 | 创新先进技术有限公司 | 事件元素抽取方法、装置、计算设备及存储介质 |
| US11232132B2 (en) * | 2018-11-30 | 2022-01-25 | Wipro Limited | Method, device, and system for clustering document objects based on information content |
| US20200311123A1 (en) | 2019-03-28 | 2020-10-01 | Wipro Limited | Method and a system for multimodal search key based multimedia content extraction |
| US10614345B1 (en) | 2019-04-12 | 2020-04-07 | Ernst & Young U.S. Llp | Machine learning based extraction of partition objects from electronic documents |
| KR102699233B1 (ko) | 2019-09-16 | 2024-08-27 | 도큐가미, 인크. | 문서 간 지능형 저작 및 처리 보조기 |
| WO2021055102A1 (en) | 2019-09-16 | 2021-03-25 | Docugami, Inc. | Cross-document intelligent authoring and processing assistant |
-
2020
- 2020-07-24 KR KR1020227011501A patent/KR102699233B1/ko active Active
- 2020-07-24 JP JP2022542307A patent/JP7664262B2/ja active Active
- 2020-07-24 CN CN202080064610.1A patent/CN114616572B/zh active Active
- 2020-07-24 EP EP20864772.7A patent/EP4028961A4/en active Pending
- 2020-07-24 CN CN202511836092.1A patent/CN121683697A/zh active Pending
- 2020-07-24 CA CA3150535A patent/CA3150535A1/en active Pending
- 2020-07-24 KR KR1020247028082A patent/KR102865616B1/ko active Active
- 2020-07-24 KR KR1020257031882A patent/KR20250143131A/ko active Pending
- 2020-08-05 US US16/986,146 patent/US11507740B2/en active Active
- 2020-08-05 US US16/986,139 patent/US11816428B2/en active Active
- 2020-08-05 US US16/986,151 patent/US11822880B2/en active Active
- 2020-08-05 US US16/986,142 patent/US11514238B2/en active Active
- 2020-08-05 US US16/986,136 patent/US11392763B2/en active Active
-
2022
- 2022-04-20 US US17/724,934 patent/US11960832B2/en active Active
-
2024
- 2024-03-19 US US18/609,740 patent/US20240232518A1/en active Pending
- 2024-12-02 JP JP2024209611A patent/JP7758836B2/ja active Active
-
2025
- 2025-10-09 JP JP2025171167A patent/JP7842294B2/ja active Active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2005266903A (ja) | 2004-03-16 | 2005-09-29 | Toshiba Corp | 文書処理装置及び文書処理方法 |
| JP2017004074A (ja) | 2015-06-05 | 2017-01-05 | 日本電気株式会社 | 関係検出システム、関係検出方法、及び、関係検出プログラム |
| JP2019531524A (ja) | 2016-07-27 | 2019-10-31 | ウィックス.コム リミテッド. | ウェブサイト構築システムおよびウェブサイト構築システムのための方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| KR102865616B1 (ko) | 2025-09-30 |
| US20210081608A1 (en) | 2021-03-18 |
| KR20240129242A (ko) | 2024-08-27 |
| US20210081411A1 (en) | 2021-03-18 |
| US20210081613A1 (en) | 2021-03-18 |
| KR20250143131A (ko) | 2025-09-30 |
| US20210081602A1 (en) | 2021-03-18 |
| US20220245335A1 (en) | 2022-08-04 |
| US11816428B2 (en) | 2023-11-14 |
| JP2025188195A (ja) | 2025-12-25 |
| JP7664262B2 (ja) | 2025-04-17 |
| EP4028961A1 (en) | 2022-07-20 |
| CA3150535A1 (en) | 2021-03-25 |
| US11960832B2 (en) | 2024-04-16 |
| US11392763B2 (en) | 2022-07-19 |
| US20240232518A1 (en) | 2024-07-11 |
| CN121683697A (zh) | 2026-03-17 |
| US11507740B2 (en) | 2022-11-22 |
| US20210081601A1 (en) | 2021-03-18 |
| EP4028961A4 (en) | 2023-10-18 |
| KR20220059526A (ko) | 2022-05-10 |
| JP2025023185A (ja) | 2025-02-14 |
| KR102699233B1 (ko) | 2024-08-27 |
| JP7758836B2 (ja) | 2025-10-22 |
| US11822880B2 (en) | 2023-11-21 |
| CN114616572B (zh) | 2026-01-02 |
| CN114616572A (zh) | 2022-06-10 |
| JP2022547750A (ja) | 2022-11-15 |
| US11514238B2 (en) | 2022-11-29 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7842294B2 (ja) | クロスドキュメントインテリジェントオーサリングおよび処理アシスタント | |
| WO2021055102A1 (en) | Cross-document intelligent authoring and processing assistant | |
| US12210839B1 (en) | Multilevel data analysis | |
| Kumar et al. | Mastering text mining with R | |
| CN113383340A (zh) | 专利文献撰写装置、方法、计算机程序、计算机可读记录介质、服务器及系统 | |
| US20240211499A1 (en) | Intelligent Document System | |
| Mitri | Story analysis using natural language processing and interactive dashboards | |
| Essa et al. | Enhanced model for abstractive Arabic text summarization using natural language generation and named entity recognition | |
| Sawalha et al. | Morphologically-analyzed and syntactically-annotated Quran dataset | |
| US20250218206A1 (en) | Ai-generated datasets for ai model training and validation | |
| Gessler et al. | Midas loop: A prioritized human-in-the-loop annotation for large scale multilayer data | |
| US11977844B1 (en) | Reading assistance sponsorship system and methodolgy | |
| Pal et al. | Learner question’s correctness assessment and a guided correction method: enhancing the user experience in an interactive online learning system | |
| Li et al. | Towards a Useful Chinese Annotation Tool: An Examination of Annotators’ Practice and Needs | |
| Hao et al. | A user-oriented semantic annotation approach to knowledge acquisition and conversion | |
| CN120596093A (zh) | 数据可视化配置方法、装置、设备及介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20251020 |
|
| A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20251020 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20260127 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20260226 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20260326 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7842294 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |