JP2022547750A - クロスドキュメントインテリジェントオーサリングおよび処理アシスタント - Google Patents

クロスドキュメントインテリジェントオーサリングおよび処理アシスタント Download PDF

Info

Publication number
JP2022547750A
JP2022547750A JP2022542307A JP2022542307A JP2022547750A JP 2022547750 A JP2022547750 A JP 2022547750A JP 2022542307 A JP2022542307 A JP 2022542307A JP 2022542307 A JP2022542307 A JP 2022542307A JP 2022547750 A JP2022547750 A JP 2022547750A
Authority
JP
Japan
Prior art keywords
chunks
documents
document
computer
implemented method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022542307A
Other languages
English (en)
Other versions
JPWO2021055102A5 (ja
Inventor
ビガン アンドリュー
デローズ スティーブン
ジャフリ タキ
マーティ ルイス
パルマー マイケル
パオリ ジーン
パブロポウロウ クリスティーナ
プリコイウ エレナ
サーランギ スワガティカ
サウィッキ マーシン
シェハデ マナル
タロン マイケル
トプラニ バーヴェン
ルストム ワディア ズビン
ワトソン デイビッド
ホワイト エリック
ヨンシン ファン ジョシュア
グプタ クシュ
ミン ホアン アンドリュー
リウ ジャンリン
ジョージ パリアッカラ ジェローム
ウー ジャオフェン
ジャン ユエ
ジョウ シャオチュエン
Original Assignee
ドキュガミ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドキュガミ インコーポレイテッド filed Critical ドキュガミ インコーポレイテッド
Priority claimed from PCT/US2020/043606 external-priority patent/WO2021055102A1/en
Publication of JP2022547750A publication Critical patent/JP2022547750A/ja
Publication of JPWO2021055102A5 publication Critical patent/JPWO2021055102A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/131Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

機械学習、人工知能、および他のコンピュータ実装方法を使用して、ドキュメント内の様々な意味的に重要なチャンクを識別し、それらに適切なデータタイプおよびセマンティックロールを自動的にラベル付けし、この強化された情報を使用して、著者を支援し、ダウンストリームプロセスをサポートする。チャンクの場所、データタイプ、およびセマンティックロールは、しばしば、「コンテキスト」と呼ばれる、すなわち、それらのフォーマット、構造、およびコンテンツの組み合わせ、隣接または近くのコンテンツのもの、ドキュメント内の全体的な発生のパターンおよび全体にわたるすべてのこれらの事柄の類似性(主に、しかし排他的ではない、同じドキュメントセット内のドキュメント間で)から、自動的に決定できる。類似性は、正確または曖昧な文字列または特性の比較に限定されないが、自然言語文法構造の類似性、単語、チャンク、および他の埋め込みの類似性を測定するようなML(機械学習)技術、ならびに以前に識別されたチャンクのデータタイプおよびセマンティックロールを含み得る。

Description

本開示は、概して、階層的に意味的にラベル付けされたドキュメントのAI自己管理作成のための、および/またはそのようなドキュメントの支援されたオーサリングおよび処理のための方法および装置に関する。
関連出願の相互参照
本出願は、2019年9月16日に出願された米国仮特許出願第62/900,793号「Cross-Document Intelligent Authoring and Processing Assistant」に対する35USC§119(e)の優先権を主張する。前述の全ての主題は、参照によりその全体が本明細書に組み込まれる。
関係技術の説明
多くの企業は、毎回カスタマイズされているにもかかわらず、非常に類似した複数のドキュメントを作成している。例えば、保険事務所は特定の種類の保険について多くの提案をし得るが、それぞれを特定の顧客のニーズに合わせて調整しなければならない。これらのドキュメントは、類似のテキスト(場合によっては画像)コンテンツ(類似の目的およびトピックを反映する)、セクションなどの大単位の類似の選択および配置、および多くの場合、類似の幾何学的レイアウトおよびフォーマット特性を有するため、同じ「タイプ」であると見なすことができる。
いくつかのタイプのドキュメントは広く知られ使用されているが、多くはそうではない。多くは特定のビジネス、マーケット、またはアプリケーションに固有のものであり、新しい状況に合わせて新しいものが作成される。「著者」または「編集者」と呼ばれ得るユーザは、一般的に、特定のタイプの新しいドキュメント(時に「ターゲットドキュメント」と呼ばれる)を、同じタイプの以前のドキュメントをコピーし、必要に応じて変更すること、例えば、特定のコンテンツのチャンクを手動で編集または置き換えること、によって作成する。
現在の慣行では、ワードプロセッシングは、通常、フォーマットを達成するために必要な場合にのみチャンクを識別し、例えば、見出し、脚注、および図は、特別なフォーマットを取得するために明示的にマークされ得るが、名前、アドレス、または日付は明示的にマークされることはほとんどない。識別された場合でさえ、チャンクは一般的に、有用な情報であるフォーマット効果(マージン、フォントなど)にのみ関連付けられるが、これらのデータタイプまたはセマンティックロールのいずれかの表示は直接提供されない。同様に、ワードプロセッサは、多くの場合、階層的な格納を視覚的にのみ表現し、多くの場合、ネストされたセクション自体の明示的な表現はなく、異なるフォーマットの見出しのみである。
以前のドキュメントと同じ一般的な種類の新しいドキュメントを作成する場合、多くのケースで、作業の大部分は特定のチャンクのテキスト編集、置き換え、削除、または挿入であり、異なるセマンティックロール(買い手および売り手のアドレスの入れ替えなど)を持つものを混同しないように注意される。これは典型的には、オーサリングシステムは通常、これらのチャンク、特にデータタイプまたはセマンティックロールを何も知らず、非常に効果的に役立つことができないため、人間の介入を必要とする。
いくつかの単純なケースでは、特定のチャンクのコンテンツを埋めるための明示的な位置を提供する、「フォーム」および「テンプレート」が使用され得る。しかし、フォームは、典型的には、実質的にすべての必要なチャンクが事前に列挙することができ、大規模な、反復可能な、または高度に構造化されたチャンクがほとんど存在しない、単純なケースにのみ対処する。また、フォームの作成には熟練した努力が必要であり、状況の変化に適応することは困難であり、ライターを積極的に支援しない。
本特許または出願ファイルは、カラーで作成された少なくとも1つの図面を含む。この特許または特許出願の出版物とカラー図面のコピーは、要求と必要な料金の支払いに応じて、官庁から提供される。
本開示の実施形態は、添付の図面の実施例と併せると、以下の詳細な説明および添付の特許請求の範囲からより容易に明らかになる他の利点および特徴を有する。
図1は、機械学習および人工知能を使用して階層的に意味的にラベル付けされたドキュメントを作成するためのシステムおよびプロセスの1つの実装のブロック図である。 図2は、図1のシステムを通じて異なるドキュメントセットの処理を追跡するダッシュボードを示すスクリーンショットである。 図3は、ユーザからのフィードバックを受信するためのユーザインターフェースのスクリーンショットである。 図4は、他のソフトウェアアプリケーションとの統合のスクリーンショットである。 図5は、本発明と共に使用され得るコンピュータシステムの一実施形態のブロック図である。
好適な実施形態の詳細な説明
概要
同じタイプであると決定されたドキュメントのグループは、「ドキュメントセット」または「ドキュメントクラスタ」を構成する。例えば、保険会社の特定のクラスの顧客への特定の種類の保険の提案は、同じタイプと見なされ、ドキュメントセットを形成し得る。同じ会社の異なる種類の保険の提案、または彼らが異なると考える顧客への提案は、異なるドキュメントセットに属する異なるタイプと見なされ得る。レンタル契約書、特定の種類の患者の臨床メモ、販売提案書、スケジュール書、会議議事録などは、コンテンツ、構造、および/またはレイアウトの特徴的なパターンを共有するサブタイプと同様に、他の潜在的なタイプのドキュメントである。
ドキュメントセット内の新しいターゲットドキュメントの作成および編集は、非常に多くの場合、「意味的に重要」である「チャンク」の編集または置き換えを伴い、そのようなチャンクは、典型的には、必ずしも連続したテキストのスパンではなく、特定のデータタイプおよびセマンティックロールを有し、ビジネスまたは他のプロセスにとって意味および意義を有するドキュメントの特定の部分である。
これらのチャンクはさまざまなデータタイプであり、多くのコンピュータシステムにおいて極小のデータタイプよりも細かい。例えば、所与のチャンクは、単に文字列だけでなく、個人または組織名、日付、期間(日付と全く同じものではない)、通貨額を表し得る。より大きなチャンクは、薬物または他の物質のリスト、旅程表、従うべき手順、医療処方などの情報のバンドル、および無数のものを含むことができる。
さらに、チャンクは、それらが発生するドキュメントに関連してセマンティックロールを有し得る。例えば、個人名は、賃貸借契約書の「テナント」、もしくは販売提案書の「売り手」、または別の人の「代理人」とすることができる。日付は、一部の責任または活動の開始または終了を表すことができる。ドルの金額は、定期的な支払い金額、または特定の条件に関連するペナルティまたはボーナスなどとすることができる。このようなセマンティックロールは、チャンク内の情報の適切な使用を実行するのに重要である。セマンティックロールの名前は、「セマンティックロールラベル」または単に「ラベル」と呼ばれる。
チャンクは、典型的には、その位置、データタイプ、セマンティックロール、および/または他のデータ/メタデータを含むバンドルとして表される。位置は、一般に開始および終了点として表され、挿入されたマーカまたはバイト、文字、またはトークンオフセット(ドキュメントに対してグローバルである、または確立されたID、マーカ、または他のオブジェクトに対して相対的であるかのいずれか)など、いくつかの方法で表すことができる。セマンティックロールは、ラベルまたはその他の識別子で表される。チャンクは、任意のサイズとすることができ、一部は、「サブチャンク」として他のチャンクを含むことができる。チャンクは、テキストだけでなく、画像または他のメディアなどの非テキストデータ、および表、リスト、セクションなどの「構造」も含むことができる。
本明細書に開示される技術は、機械学習、人工知能、および他のコンピュータ実装方法を使用して、ドキュメント内の様々な意味的に重要なチャンクを識別し、それらに適切なデータタイプおよびセマンティックロールを自動的に提供し、この強化された情報を使用して、著者を支援し、ダウンストリームプロセスをサポートする。チャンクの位置、データタイプ、およびセマンティックロールは、しばしば、「コンテキスト」と呼ばれる、すなわち、それらのフォーマット、構造、およびコンテンツの組み合わせ、隣接または近くのコンテンツのもの、ドキュメント内の全体的な発生のパターンおよびドキュメント全体にわたるすべてのこれらの事柄の類似性(主に、しかし排他的ではない、同じドキュメントセット内のドキュメント間で)から、自動的に決定できる。「近くのコンテンツ」は、テキストの読み取りシーケンスにおける先行および後続などの水平に近いコンテンツを含むが、また、それらのそれぞれのマーカ、見出し、レベルなどと共に、リストおよびセクションのような同じコンテナ構造内のような垂直に近いコンテンツを含む。類似性は、正確または曖昧な文字列または特性の比較に限定されないが、自然言語文法構造の類似性、単語、チャンク、および他の埋め込みの類似性を測定するようなML(機械学習)技術、ならびに以前に識別されたチャンクのデータタイプおよびセマンティックロールを含み得る。
例えば、個人または組織名は、ドキュメントがそう述べているため、「売り手」などのセマンティックロールを有すように一般的に識別でき、いくつかの人間の言語においてセンテンスを使用することが非常に多いが、しばしばより大きなコンテキストも含んでいる。別の例では、1つまたは複数の単語を、多くの場合、「薬剤名」などのデータタイプを表すものとして容易に識別できるが、コンテキストは、それが処方ではなくアレルギーのセマンティックロールを担うことを決定するために必要である。多くの場合、セマンティックロールの重要な証拠は同じセンテンスではなく、より大きなチャンク(「既知のアレルギー」セクションなど)で発生するチャンクなどの様々な他の方法において表現される。文法のおよびドキュメント構造の構成の柔軟性および多様性(誤字脱字、転写エラーなどは言うまでもなく)は、データタイプの識別のより難しくしないが、セマンティックロール、特に単一のセンテンスよりも大きな範囲を持つもの、を識別することは非常に難しくなる。
所与のセマンティックロールはチャンクを、ドキュメント全体、または他のチャンクに関係させ得る。例えば、飛行機の出発時間は、旅程内の特定の「脚(leg)」に結び付けられ、他には間接的にのみ関連する。一般的に、チャンクの階層構造は、セクション内の併設、テーブルパーツなど、そのような項目を適切にグループ化する。
より詳細には、意味的に重要なチャンクの例は、契約の特定の当事者の名前、住所、および他の特徴、処方された薬物および医療記録における禁止された手順、不動産提案における要件(または除外)、旅程における日付およびフライト番号などを含む。これらはすべて、チャンクのセマンティックロールとみなすことができる。また、セクション全体およびサブセクションなど、さまざまなタイプおよび役割を持つより大きなチャンクがある。これらはしばしば全体として挿入または除去され、おそらく内部のより小さなチャンクの変化も伴う。チャンクは階層的であり得、すなわち、より大きな「含有する」チャンクは、任意の数のレベルまで他の「サブチャンク」を含み得る。
チャンクとは、一般に、「ジョン・ドゥ」などのドキュメント内の連続した一連の単語である。しかし、チャンクは部分的な単語を含み得る。「ジョン・ドゥの家」は名前を含むが、名前はアポストロフィの前(単語の途中)で終わる。チャンクは不連続であることさえでき、例えば、「ジョン(「ビル」とも呼ばれる)ドゥ」の同じ名前である。レイアウトはまた、チャンクを不連続とさせることができ、例えば、チャンクの途中(おそらく、ページヘッダ、フッタ、または脚注があり、目的によっては無視され得る)でページ分割が発生でき、介在する図、テーブル、チャート、サイドバー、またはその他の表示など。
チャンクの実際の位置およびコンテキストはまた重要であり得、チャンクは単なる孤立した文字列ではなく、異なるインスタンスに対して異なる(または全くない)セマンティックロールで何度も発生し得る。より現代的なシステムは通常、様々なラベルおよび他の情報をチャンクに持続的に関連付けることができる、「注釈」と呼ばれることもある、インラインまたはスタンドオフマークアップをサポートする。例えば、HTMLは、一般的な構造チャンク(「div」、「ol」など)の境界を手動でラベル付けするためのタグ、および(典型的に)より小さいチャンク(「頭文字」、「kbd」、「dfn」、「cite」など)のいくつかの広範なタイプまたは役割を提供する。他のXMLスキーマは、多くの他のラベルを提供し、ワードプロセッサは、「スタイル」を介してある程度類似したラベル付けを可能にする。
いくつかのチャンクは、一般に「フィールド」と呼ばれるものを表し得る。これらはしばしば小さなチャンクであり、しばしば所与のセット内の多くのまたはすべてのドキュメント内の同様のコンテキストおよびレイアウトにおいて発生するが、通常はそれぞれに異なるテキストコンテンツである。これは、また、同じまたは非常に類似したコンテンツを持つ単一のドキュメントにおいて、複数回発生し得る。そのようなチャンクは「フィールドチャンク」と呼ばれ得る。これらはしばしば手動で発見され、テンプレートベースのシステムで「フィールド」として扱われるが、ここでは、これらはドキュメント内およびわたってコンテキストおよび発生のパターンによって発見され、他のチャンクとほぼ同じやり方でデータタイプおよびセマンティックロールが割り当てられる。これらは、個人名、住所、日付などの名前付きエンティティを表してもよく、そうでなくてもよい。
別の一般的なタイプのチャンクは、「構造」または「構造的」チャンクと呼ばれ得る。そのようなチャンクは、典型的には、より大きく、しばしば多くの他のチャンク(その一部は構造チャンクでもあり得る)を含む。それらは、頻繁に、名前、番号、説明、および/または構造チャンクに関する他の情報を提供する「タイトル」または「見出し」を有する。構造チャンクの例は、チャプター、セクション、テーブル、図、サイドバー、およびより多くのものを含む。構造チャンクのタイプおよびセマンティックロールは、しばしば、近くのまたは含まれるチャンクのタイプおよびセマンティックロールを決定するために重要である。
データタイプだけでなく、特定のセマンティックロールもドキュメントを適切に作成して活用するために重要である。特定の名前が売り手に対して買い手を、または医師に対して患者を表すかどうか、所与の日付が要件の開始日または終了日であるかどうか、またはフライトの出発対到着時刻であるかどうか、数値が元本、利息、投薬量、温度、ペナルティ、またはその他の何かを指定するかどうか、は非常に重要である。より大きなチャンクの場合、役割は、「責任の制限」ステートメント対「準拠法」仕様対「定義」、そして無数の他のものを含む。チャンクのセマンティックロールは、しばしば特定のドメインまたはトランザクションに固有であり、おそらくドキュメントの最も重要な機能の一つである。多くの種類のドキュメントでは、特定のデータタイプとセマンティックロールを持つチャンクが必要である、または少なくとも非常に一般的であり、チャンクはドキュメント全体に対応するときに「カウンターパート」と呼ばれる。カウンターパートチャンクは、特に同じ著者または組織によるドキュメント、および通常は同じドキュメントセットに対して、同様の順序およびパターンで発生し得る。カウンターパートチャンクは、同じまたは非常に類似した役割を有し、一般に、類似したコンテキストおよび/またはフォーマットを有する。したがって、チャンクのデータタイプおよびセマンティックロールの分布は、ドキュメントのタイプを区別するための貴重な情報を提供し、ならびに、他のドキュメントのカウンターパートチャンクを識別するのに役立つ。
多くのカウンターパートチャンクは同様のコンテンツを有するが、そうではない他のものもある。例えば、異なるドキュメント内の同じ当事者(セマンティックロール)は、通常は別の個人であるが、非常に似たコンテキストおよび使用のパターン内に現れる。これは、「フィールドチャンク」で特に一般的であり得るが、これに限定されない。
発見されると、ビジネスドキュメント内のデータタイプおよびセマンティックロールを有する階層的セマンティックチャンクが、ダウンストリームビジネスプロセスにおいて使用され得る。例えば、バックオフィスデータベースは、特定の当事者の名前、特定の日付、期間および金利レートなどの数値が与えられた場合、新しい住宅ローンを適切に記録できる。特にこのような用途では、セマンティックロールが非常に重要であり、間違ったデータベースフィールド内へ適切なデータタイプ(売り手と買い手の名前または住所の入れ替えなど)を入力することは、特にダウンストリームのデータベース、プロセス、またはレポートに情報を移動する場合に大きな問題となる。
いくつかの特徴および利点
本明細書に記載の技術は、以下のいずれかを含む様々な特徴および利点を有し得る。
いくつかの実装形態は、ビジネスプロセスに有用なセマンティックラベリングを有する階層的に編成されたチャンクを備えたドキュメントを生成するための、より簡単で、より効率的で、より正確な方法を提供し得る。これは、様々なサイズのそのようなチャンクを識別し、それらがドキュメント内で果たすデータタイプおよびセマンティックロールを発見し、それらの使用のパターン、特徴的なコンテキストなどを学習するために様々な技術を使用して達成され得る。学習は、現在および以前のドキュメントのコンテンツ、構造、およびフォーマットの分析、著者および編集者からのフィードバック、ならびに複数のドキュメント、特に同じドキュメントセット内のものの比較から得られ得る。この知識により、システムは、例えば、より高品質の新しいドキュメントの作成を容易にし、他のソフトウェアアプリケーションで、バックオフィスデータベース内で、派生レポート、コンプライアンスチェックなどのダウンストリームでの使用の所望の情報を抽出するなどの、貴重な支援をユーザに提供できる。そのような学習は、教師なしおよび自己管理学習技術を用いて実行し得、それは、大量の事前ラベル付けされたまたは事前分析されたデータを必要とせず、代わりに、ラベル付けされていないまたは最小限にラベル付けされたデータからパターンを推論する。
いくつかの実装形態は、コンピュータが、ビジネスのドキュメント内でおよびわたってパターンを発見および使用して、これらのエラーの多くをライターが回避するのを支援し、したがって、所与のレベルの品質を達成するために必要な時間を削減する、ことによって、書き込みプロセスを支援することを可能にし得る。
今日、典型的なドキュメントシステムは、チャンク、または特にそのデータタイプもしくはセマンティックロールを識別していない。これは、著者および編集者のための、およびドキュメントからデータを、バックエンドのデータベース、ダッシュボード、またはその他のダウンストリームのビジネスプロセスにインポートするための、時間および費用を追加する。例えば、契約から手動で(チャンクごとに)データを検索し、スプレッドシートまたはデータ入力フォーム内にコピーするのが一般的である。
いくつかの実装形態は、オーサリングプロセス中にそのような階層的なセマンティックチャンクをラベル付けし、それらを明示的に表現するのに役立ち得、したがって、それらを人々および/またはコンピュータが抽出し、様々な種類の他のビジネスプロセスに接続する時間および費用を節約することを容易にする。
現在の技術は典型的には、同じライターまたはグループによって作成された、および/または同じタイプ(ここでは、特定のドキュメントセットのメンバーシップによって示されている)の複数のドキュメント間の類似性を十分に活用して、新しいドキュメントのチャンクをより確実に識別する、または重要と思われる差に注意を向けることはしない。「可分性」という見出しのセクションを要求するなどの明示的なルールは、アナリストがすぐに気づき説明する類似点のみをカバーし、静的でしばしば制約があり(例えば、言い換えまたは再編成を伴う欠落のケース、または対抗する条件への対応の失敗)、すぐに時代遅れになる。小規模企業はしばしばより応答性の高い技術を開発するために必要なリソースが不足しており、しばしば費用を正当化するためのドキュメントが少なすぎる。一方、より小規模な企業はしばしば、多様性の少ない範囲のドキュメントを有し、本明細書に記載されているような自動化された分析により適している。
いくつかの実装形態は、チャンクに関する抽出された情報と、それらのコンテンツ、コンテキスト、レイアウト、およびドキュメントにわたる使用のパターンを用いて、ライターが新しいドキュメントを作成するのを支援し得る。例には、少なくとも、変更、再フォーマット、または移動する特定のコンテンツ、同様のドキュメントに一般的に存在するものの、新しいドキュメントに欠落している句(「欠落している」または「省略されている可能性がある」チャンクまたはコンテンツと呼ばれる)、同様のドキュメントには一般的に存在しないものの存在する句(「普通ではない」チャンクまたはコンテンツと呼ばれる)、特定の場所での異なる当事者の名前または役割の交換などの変更などの提案が含まれる。
いくつかの実装形態は、ユーザが、チャンクが誤った範囲、データタイプ、またはセマンティックロールでラベル付けされていること、それらに関心がないこと、またはラベル付けに全く失敗していることを示す場合などに、ユーザフィードバックを受け入れ、保持し得る。いくつかの実装形態では、特定のユーザ補正を使用して機械学習およびニューラルモデルを改善し、ならびにユーザがそれらを拒否したケースにおいて、以前の提案を繰り返さないことを思い出し得る(追加の学習が特定の間違いのインスタンスを防ぐことに失敗する場合でさえ)。特に、いくつかの実装形態は、必要とされるユーザアクションの量を最小限に抑えるために、少ショット学習技術および要求するフィードバックの慎重な選択を有利にするために、大量のレビューステップまたは補正を必要とすることを回避し得る。いくつかの現在の技術は、例えば、ユーザが辞書に単語を追加するようスペルチェッカーに指示する場合、非常に具体的なことを学習する。しかし、これは、洗練された後の行動を決定するために使用されるモデルの反復トレーニングまたは微調整ではなく、単なる繰り返しのリスト(rote list)を含み、したがって、本明細書に記載されるような能力を完全には利用していない。
いくつかの実装形態は、改善されたが依然として不完全なモデルを再び適用するときに、繰り返し提案されることでユーザに不快にさせることを避けながら、少量のユーザ補正を使用して、それらの行動を学習および改善し得る。
多くの企業は、ドキュメントから得られた特定の情報を、そのプロセスをサポートするさまざまな種類のデータベースに記録している。例えば、多くの賃貸物件を所有している会社は、通常、借り手の支払いだけでなく、承認されたペット、借り手が責任を負わない事前の損害、またはその他の情報など、それらの賃貸契約に由来する特定の情報の管理を助けるためにバックエンドシステムを使用する。自動車または工具賃借人、住宅ローン会社、健康管理提供者、地方自治体、および他の組織は、他の情報を使用する。多くの商品およびサービスには多数のミックスアンドマッチオプションがあり、監督者はそれらの承諾、組み合わせ、価格設定、およびその他の要因に関する統計をレビューする。ビジネス情報システムは、一般に、分析を提供し、一貫性またはコンプライアンスを確認し、レポートを導き出し、および/または他のビジネスプロセスをサポートし、これらのすべては、本明細書に記載されているチャンク情報の使用によって促進できる。
一般的に、チャンクおよびそれらが提供する情報は散文テキスト全体に散在し、手動で抽出され、スプレッドシート、データベース、または他のシステムに手動で入力される。以前は、契約書、電子メールなどに書かれている自然な人間の言語の柔軟性、および同様に可変のレイアウトおよび表現規則を理由に、重要なチャンクを無数の様々な方法で表現できるため、手動作業が必要である。このようなドキュメントの基礎となる交渉はまた、多くの場合、電子メール、会話からのメモ、スライドプレゼンテーションなどを含む、複数の種類のドキュメントにわたって散在する。その情報はまた有用であり得るが、通常は手動で対処される。いくつかのシステムは、そのような情報ソースをドキュメントとして扱い、既に説明されている同じ利点を獲得し得る。
いくつかの実装形態は、本明細書に記載されるように変換されて階層的に意味的にラベル付けされたドキュメントになると、特定のドキュメントの実行をコンピュータが開始する手段を提供し得る。ドキュメントの階層的にラベル付けされた構造を、テキストのベクトル-セマンティック表現を提供するツールと組み合わせることにより、特定のチャンクを特定のアクションが必要であると識別できる。例えば、契約は、送金、通知、または他のアクション、およびそれらを有効にするまたはトリガする条件を指定し得る。これらは特定され、契約の実行を開始するために使用できる。
いくつかの実装形態は、「ダッシュボード」などのインターフェース内のドキュメントセットからの情報をレビューおよび要約し、識別された情報を顧客のバックエンドデータベースまたは同様のシステムに移動し、より効率的でより低い価格のビジネスデータの流れを可能にし、品質保証、一貫性、およびレポートを強化するための簡単な方法を提供し得る。チャンクが意味的にラベル付けされると、カウンターパートチャンクを含むドキュメントのセットにわたってサマリーレポートを生成することが容易になる。いくつかの実装形態は、ユーザがそのようなレポートを作成するための非常に簡単な方法を、含まれるべきチャンクの1つまたは複数の例を単にクリックすることによって提供し得る。これは、次いで、セット内のすべてのドキュメントにわたって役割またはコンテキストによって位置付けられるおよび抽出される。いくつかの実装形態はまた、予期されるカウンターパートチャンクを欠くドキュメントを発見し、そのようなチャンクを含むまたは識別するようにそれらを修正するか、またはそれらが正しくそれらを含まないことを確認する際に、ユーザを支援し得る。
別の様態では、企業または部門などの所与のグループのパフォーマンスは、チャンクのセマンティックロール、発生のパターン、ならびにそれらのドキュメントの他の特性およびそれらのユーザのフィードバックなどの情報を、システムの学習プロセスに組み込み、結果として得られた改善されたモデルを使用して、将来のドキュメントを強化および/または確認することによって、強化されることができる。しかし、多くの顧客はそのような情報を他の顧客と共有することを望んでおらず、多くは拘束力のある機密保持要件を有している。一方、公的な非機密ソースから導出された一般的な情報および学習は、自由に使用および共有できる。
いくつかの実装形態は、各顧客のデータおよびそれから導出された任意のモデル情報を各顧客に対して別個かつプライベートに保持しながら、秘密でない公開データに基づく一般的な学習を依然として共有しながら、フィードバックおよび学習の利益を提供し得る。これらのデータプロセスを個別に保持することは、統計的にも、情報がある顧客から別の顧客へ「漏れる」可能性が無いことを確実にする。
例示的な実施形態の紹介
以下は、例示的なシステムの説明である。図1を参照する。このシステムは、概して、階層的に意味的にラベル付けされたドキュメントのAI自己管理作成のための、および/またはそのようなドキュメントの支援されたオーサリングおよび処理のための方法および装置に関する。これは、構成、構造化、注釈付け、変更、レビュー、ドキュメントからデータを抽出、および/またはダウンストリームビジネスプロセスにおいてそのようなデータを使用するなどのプロセスを含む。より具体的には、比較的小さなセットを含むドキュメントのセットにわたって、主に教師なしおよび自己管理機械学習技術を使用して、それらの役割に関連付けられた、多くの意味的に意味のあるチャンクで構成されるドキュメントの詳細な階層構造を発見することにより、以前のドキュメントと同様のドキュメントに、およびビジネスプロセスにおけるそのような高度に強化されたドキュメントの使用に、焦点を当てている。
この例示的なシステムの動作は、以下のプロセスを使用し、これらは以下のセクションでより詳細に説明される。これは単なる例に過ぎない。他の実施態様は、ステップを省略すること、他のステップを追加すること、およびいくつかのステップの順序を変更することを含む、ステップの異なる組み合わせを使用し得る。これらはまた、各ステップの下に記載される技術の異なる組み合わせを含む、以下に列挙されるステップの異なる実装形態を使用し得る。図1において、ステップの前に「S」があり、以下のステップ1は「S01」とラベル付けされている。
1)インポート:ユーザのドキュメントのグループをデータストア110にもたらす。
2)編成:ドキュメントを、レンタル対販売契約書、または医療履歴対現在の臨床ノートのような、タイプ別にドキュメントセットに分ける。
3)ビジュアル抽出:そのコンテンツおよびビジュアルレイアウトに少なくとも基づいて、各ドキュメントから線状のテキストストリームを抽出し、これは、個別のテキストおよび他のエリア、その開始および終了の位置、フォーマット、およびコンテンツに関する限られた情報を含む。抽出されたデータは、幾何学的レイアウトによって区別されるパラグラフなどの、「ビジュアルライン」として、または「ビジュアルブロック」(「ハイパーライン」または「ビジュアル」チャンクとも呼ばれる)として編成され得る。
4)構造:ドキュメント内の見出し、リストアイテム、および他の構造チャンクの大マーカなクラスを識別する。
5)再ネスト:セクションおよびリストのネスト関係、およびそれぞれのテキストの範囲を決定する。
6)トピックチャンキング:各ドキュメントのトピックコンテンツを分析し、同様のトピックのエリアを囲むチャンク(トピックレベルのチャンク)を作成する。
7)トピックラベリング:
i)埋め込みおよびクラスタリングを使用して、コーパスの各見出しに対する候補データタイプおよびセマンティックロールラベルを作成する。
ii)キーフレーズ抽出技術を使用して、チャンクに対する候補データタイプおよびセマンティックロールラベルを作成する。
8)チャンクラベリング:複数の方法、例えば、ニューラルネットワーク、単語および文字の埋め込み、文法分析およびパターンマッチング、正規表現、類似性メトリクス、および/または他の方法を使用して、ドキュメント全体を通して他のチャンクにデータタイプおよびセマンティックロール候補を識別し、割り当てる(おそらく複数)。特定の実施形態に対して特に興味深いのは、以下のことである。
i)結果の構造上の文法解析およびパターンマッチング
ii)小さなチャンクをドキュメントでそれらが果たす特定のセマンティックロールと結びつけるための質問応答技術の使用
iii)XPathツリーマッチングと単語埋め込み技術を組み合わせて、言い回しおよび単語の選択が大きく異なる可能性があるにもかかわらず、構造および文法ツリーのパターンをマッチさせる。
9)名前付きエンティティ認識(NER):ドキュメント全体にわたって名前付きエンティティとして検出されるデータタイプを識別し、チャンクに割り当てる。
10)役割ラベリング、抽出ラベリング:名前が契約の「売り手」当事者を構成していること、または薬物がアレルギー対処方箋として言及されていることを表すような、セマンティックロールラベルをチャンクに割り当てる。
11)異常:検討中のドキュメントセットのドキュメントに通常存在する、または存在しないが、現在のドキュメントにはない(またはその逆)、セマンティックロールを特定する。
12)調停(Arbitration):チャンクの代替スコープ、データタイプ、およびセマンティックロールラベルを調整および/または選択し、XMLなどのフォーマットにおいて容易に表現可能な整形された構造を生成する。
13)DGML:ドキュメントの強化されたバージョンを作成し、これは、チャンクの位置、データタイプ、およびセマンティックロールラベルの明示的な識別情報、ならびに、場合によっては、それぞれの識別されたチャンクの信頼レベル、類似のチャンクにおいて期待されるデータタイプ(日付、日付範囲、個人名など)などの追加情報も含む。強化されたバージョンは、DGMLと呼ばれるXMLベースのマークアップ言語を使用して作成される。
14)フィードバック:強化されたバージョンをユーザに表示し、チャンク(およびおそらく省略されたチャンクの潜在的な位置)を選択してユーザを表示し、確認、拒否、または他の変更を行うためのユーザの選択を収集する。ユーザはまた、それらの独自の読み取りおよびレビューの順序を自由に選択できる。フィードバックはまた、ステップ(2)で説明されているように、ドキュメントをドキュメントセットの編成など、システムが行った任意の他の解釈に適用できる。
i)おそらく省略されたチャンクのケースでは、他のドキュメントから優先順位付けされた例を提供され、これは、必要に応じて現在のドキュメントを検査および/またはコピーし、より小さなネストされたチャンクにターゲットドキュメント値を適用することによって自動的にカスタマイズできる。
15)フィードバック応答:これらのインタラクションに対するユーザの応答を追跡し、その情報を使用してモデル120を微調整し、ならびに後に同じまたは同様のエラーを繰り返すことを防ぐ。
16)ダウンストリーム通信、送信:タイプおよび/またはロールごとにチャンクを選択し、それらを使用してドキュメントセットを介してレポートを生成し、および/またはバックエンド契約データベース、規制コンプライアンスチェッカー、管理レポートジェネレーターなどの機能を追加するダウンストリームシステムにそれらをエクスポートする。
図2は、上記のプロセスを通じて、異なるドキュメントセット1から7の処理を追跡するダッシュボードを示すスクリーンショットである。このダッシュボードでは、プロセスは次のステージに分けられる。
・アップロード(Uploading)
・前処理(Preprocessing)
・大きなチャンクをレビュー(Review Large Chunks)
・小さなチャンクをレビュー(Review Small Chunks)
・使用する準備ができている(Ready to Use)
カラーコーディングは完了の度合いを示す。緑のステージは完了であり、赤のステージは処理中であり、黒のステージはまだ開始されていない。
上に列挙されたステップのそれぞれは、以下により詳細に説明される。
例示的な実装のさらなる説明
ここでの番号付けは、この特定の例の分析の一般的な順序を反映している。しかし、すべてのステップがすべての前のステップに依存するわけではなく、結果として、多くの要素は、他の実装形態において並べ替えまたは並列化できる。要素はまた、シフトする、または繰り返して、追加情報を他の要素と交換できる、または要素は、別々のプロセスまたはマシンなどで独立して実行できる。
1)インポート
システムは、典型的なワードプロセッサドキュメント(MS Wordなど)およびページレイアウトドキュメント(PDFまたはpngファイルなど)を受け入れる。それぞれのケースにおいて、見出し、段落、テーブルセル、テーブル、画像などの視覚的に隣接する領域は、それらの相対位置、周囲の空白、フォントおよびレイアウトの特徴などの組み合わせを使用して、チャンクとして識別され、表現される。これらの特徴は、デザイナーによって部分的に選択され、多数のドキュメントの画像およびパターン分析によって部分的に学習される。機械で読み取り可能なテキストコンテンツがすでにない入力ドキュメントについては、OCRも適用される。
これらのチャンクは、選択されたレイアウト情報とともに、システム内の後のモジュールに提示される。
2)編成
ユーザは、彼らがシステムにチェックインするドキュメントを編成する必要は無い。システムは、テキストコンテンツ、レイアウト情報、および既に検出された構造情報(いくつかの見出しの識別など)で動作するクラスタリング方法を使用して、ドキュメントを特定のタイプのドキュメントの「セット」、例えば、レンタル契約対リース対販売、にグループ化する。見つかった特定のドキュメントセットは、ユーザに確認されることができ、自動的にまたはユーザによってのいずれかで名前が付けられる。確立されると、これらのドキュメントセットは、フォーマット、コンテンツ、セマンティックロール、およびそれらの差についての後の機械学習および推論を容易にする。例えば、システムは、所与のセット内のほとんどすべてのドキュメントが、特定の役割の3つの特定のサブチャンクおよび個人名のデータタイプを有する特定のセクションを有し、そのうちの1つが5つの異なるセクションで再現されることを発見し得る。そのようなパターンを使用して、他のドキュメントの類似(および類似しない)部分を識別するのを支援し、ユーザにレビューまたは変更を提案し、同じ(またはおそらく異なる)セット内の他のドキュメントにおいて再利用するテキストの例を提供する。
ドキュメントをドキュメントセットにクラスタリングすることは、ドキュメントの構造(さまざまなサイズ、データタイプ、および役割のチャンク間の順序および包含の関係)およびレイアウト、ならびにテキストコンテンツからの特徴を使用できる。いくつかのチャンクおよび/または役割が少なくともいくつかのドキュメントで識別されると、その情報を使用して、完全に再クラスタリングすることによって、またはより小さな調整によってのいずれかで、クラスタリングを改善することもできる。例えば、売り手および買い手の名前、住所など、同じ役割を持つチャンクの特定のコンテンツを無視すると、または、異なるチャンクの出現パターンが同じである、例えば、ある名前(例えば、売り手の名前)が特定の場所に表示され、一方で、別の名前(例えば、買い手の名前)が特定の他の場所に表示されることを確認すると、類似したドキュメントがほぼまたは完全に同一にさえなり得る。
システムは、ディレクトリ(もしあれば)へのアップロードされたファイルの元の編成と、セットへのそれらの独自の編成の両方を、維持する。したがって、ユーザは両方の編成を観ることができ、学習アルゴリズムは両方を情報として使用できる。例えば、一部のユーザは、様々な規則に従ってドキュメントに名前を付ける、および/または顧客、ドキュメントの種類、または他の特徴によってドキュメントを編成し、これは、ほぼ常に類似のパターン(共通のチャンクの位置および役割を有するような)およびドキュメント間の関係を理解するのに有用である。
3)ビジュアル抽出
i)エリア検出
このシステムは、ヒューリスティックおよび機械学習を使用して、幾何学的パターンに基づいてドキュメント内の領域を識別する。例えば、多くのドキュメントにおいて、意味のあるチャンクは、署名ブロック、抽象、定義のリスト、テーブルなどのような特別なレイアウトを有する。そのようなパターンを、幾何学的および/またはレイアウトの特徴、一意性または希少性、および/または同じドキュメント内またはドキュメント間のいずれか、特に同じドキュメントセット内での対応を考慮することによって、自動的に学習できる。
アプローチは、入力ドキュメントのフォーマットに応じて選択される。例えば、ワードプロセッサドキュメントは一般的に段落の境界に関する明示的な情報を提供するが、PDFまたはスキャンされたページは、システムがそれらをビジュアルラインから組み立てること、または空白の寸法を分析して、ビジュアルラインに文字(複数列のドキュメントなど)を割り当てることさえ要求する。
ii)署名の検出
システムは、ドキュメントパーツの署名(「ダイジェスト」としても知られている)を作成し、これらを使用して「興味深い」追加のチャンクを識別および分類し、その境界を検出する。署名は、単にテキストコンテンツにだけでなく、コンテキストの様々な態様にも基づいており、より小さな含まれるチャンク(例えば、カウンターパート内のコンテンツが変化するフィールドチャンク)のコンテンツを無視し得る。
署名は、チャンクのピクセル表現さえ使用し得る。テキストレイアウトのビットマップイメージは、タイル、好ましくは24ピクセル四方の(スキャン解像度の調整された)オーダー上のサイズ、に分割され、タイルはクラスタ化さている。オートエンコーダおよびその隣接関係を含むこれらのニューラルネットワーク処理は、テキストとルール、テキストブロックのエッジとコーナー、さらにはインデントの変更と実質的なフォント/スタイルの変更、との間の境界などの同様の視覚的イベントを明らかにする。さらなるニューラルネットワークは、次いで、このクラスタリングを使用して、類似のレイアウトオブジェクトを共同識別し、これは、重要なチャンクを頻繁に示すまたは特徴付ける。
ここでのアプローチは、ドキュメントチャンク内のピクセルならびに文字、チャンクのサイズ、ドキュメント内のその位置などに基づいてドキュメントチャンク埋め込みを生成するために教師なしアプローチを使用し得る(注記されるように、画像はチャンクであることもできる)。次いで、クラスタリングおよび比較の技術は、多くのダウンストリームタスクのためにこれらの埋め込みに対して使用できる。
iii)抽出
この態様は、レイアウト後のドキュメント(例えば、PDFまたはスキャンされた印刷ページ)を取り、ドキュメント内の認識された文字画像(「グリフ」)を、グリフの正しいドキュメント順序を表すテキストストリームに変換する(ストリームは、適切な場合、図または画像オブジェクトをも含み得、読み取り順序において、典型的な場所を有さない脚注またはページヘッダなどの複数のストリームが存在できる)。一部のドキュメントでは、読み取り順序の不完全な明示的な表現がある。よく知られている例は、通常、任意の所与の点において複数列レイアウトが有効であるという表示がなく、したがって、第1の「線」は、全体ではなく、半分(またはそれ未満)にわたってのみ延在するというものである。しかし、テキストの順序が複雑または不明確であり得る多くの追加の例がある。例えば、いくつかのレイアウトプログラムは各文字を個別に描画し、単語の境界は不明確となる。テーブルセル、サイドバー、図、脚注、および他の表示は、テキストの順序に明確な位置を有し得ない。ページヘッダおよびフッタ(ならびに行の終わりのハイフン)におけるようないくつかのテキストは、テキスト順序における場所を全く必要とし得ない。多くのフォーマットは、何かがそのような特別なカテゴリーにあるという明確な表示を提供しない。
システムは、グリフの視覚情報(位置、スタイルなど)を、テキストストリームを構築するためにドキュメント内で使用される書かれた言語の特性を理解するディープニューラルネットワークと組み合わせることによって、このタスクに対処する。さらに、これは、行、ブロック、列、画像、インラインフォント変更、およびヘッダ/フッタオブジェクトなどの多くの基本的なテキスト境界を検出する。
iv)表現
テキストシーケンスおよびいくつかの仮定された構造チャンクを抽出すると、システムは、それらならびに視覚的特徴(フォント、色、サイズなど)に関する情報を含むドキュメントの表現(一例では「DGML」として知られている)を作成する。その位置、タイプ、役割などの情報を含むチャンクの表現は、「注釈」と呼ばれる。組み合わされたデータは、次いで、自然言語処理(NLP)およびディープニューラルネットワーク(DNN)によって使用できる。ディープニューラルネットワークはこの視覚情報を組み込み、ヘッダ/ボディ、リスト/リストアイテムなどのチャンクを含むドキュメント構造を表す階層にドキュメントを構造化するのを支援する。
後の態様が元のソースによく似た編集可能なワードプロセッサドキュメントを構築できるように、十分な情報を含むことができる。これを、他の構造、コンテンツ、およびチャンク情報とともに、DGMLまたは同様の表現に含むことができる。多くのケースで、明確なフォーマットおよびレイアウトを持つドキュメントの部分はまた有用なチャンクである。しかし、別様に必要とされるチャンクと一致しない(およびその逆)フォーマット特性は、依然として、特別なタイプのチャンクを介して、スタンドオフ注釈を介して、または他の方法を介して表現できる。
4)構造
構造パイプラインは、平坦なテキストファイルを階層構造に変換し、セクション、サブセクション、およびドキュメントの他の部分は、当業者に知られている構造であるコンテンツベースオブジェクトの順序付けられた階層を形成する。この変換は、教師なし機械学習技術を使用して行われる。この方法はいくつかのステージを有する。
i)ハイパーライニング
これは、テキストを「ハイパーライン」にセグメント化することを含み、これは、ビジュアルラインよりも大きなグループであり、段落、見出し、または同様のものなどのより意味のある論理的な(ビジュアルとは対照的に)単位を備える。これは、トークン(特に先頭および末尾のトークン)の「単語形状」などの特徴、フォントおよびスペーシング特性などのレイアウト情報、ならびに類似の特徴を考慮する事前にトレーニングされたニューラルネットワークを使用して達成されることが好ましい。いくつかのハイパーラインは、以前のステップでも提供され得る(入力ドキュメントのフォーマット応じて)。
ii)ドキュメント言語モデル
これは、単にテキストに基づく言語モデルの代わりに、テキストコンテンツ、フォーマッティング、およびこれまでに発見された構造に対する情報をも含むドキュメント言語モデルを使用することが好ましい。これは、フォーマットされたページから意味のあるチャンクおよびそれらの発生のパターンを認識するための学習により、チャンクおよびそれらの階層(ヘッダ/ボディ、リスト/リストアイテムなど)のより良好な検出を可能にする。
これは、テキストコンテンツおよび視覚的特徴(ジオメトリ、フォント、色、サイズなど)の両方を含むドキュメントの表現を作成する。次いで、ディープニューラルネットワークおよびNLPプロセスは、ドキュメント構造を表す様々なサイズのチャンクの範囲および/または境界を検出することによって、データタイプおよびセマンティカルロールラベルを有するチャンクの階層内にドキュメントを構造化するタスクにおいてそのような情報を利用する。このステージでは、発見されたチャンクは、主に見出し、セクション、リストおよびアイテム、テーブル、図、および他の比較的大きな単位である。
iii)ハイパーラインクラスタリング
これは、単語形状構造に基づいてドキュメントセットにわたってハイパーラインをクラスタ化するためにオートエンコーダを使用し、各ハイパーラインを、レイアウト、開始および終了コンテンツ、ならびに他の特性に関して類似するハイパーラインのクラスタに割り当て、各クラスタは「クラスタID」によって識別される(これは、ドキュメントセットの作成または識別と混同されるべきではない)。
iv)インライン見出し
特に興味深い特別なケースは、「インライン見出し」であり、チャンクの見出し(チャンクのセマンティックロールを提供することがある)は、それ自体が別々の視覚的行にあるのではなく、以下のテキストの開始と同じ行にある。一般的に、インライン見出しは、太字、下線、異なるフォント、後続のコロン、またはその他の効果などによってタイポグラフィ的に区別される。別個のヒューリスティックおよびニューラルアルゴリズムは、これらのチャンクを識別する。
v)少ショット構造学習
上記の高度な構造化方法にもかかわらず、生成される構造は、特定の不完全性を有する、またはユーザの先行的な期待を満たさないことが予想できる。少ショット構造学習は、ステップ(14)乃至(15)で説明したように、ユーザによって提供されるフィードバックに依存して機械学習モデルを作成することに対処する。次いで、このモデルを使用して、構造に関するユーザフィードバックと、システムによって既に生成されているものとを組み合わせた構造を生成する(おそらく、以前のフィードバックによって反復的に強化される)。
このケースに適用される主な原理は、シーケンスが別のシーケンスに変換される機械翻訳(MT)方法から導出される。このケースでは、ハイパーラインを記述する1つのシーケンスは、階層をエンコードする開始/終了マーカも含む別のシーケンスに変換される。
このプロセスは、さまざまなフェーズまたはステップで行われる。
(a)最初に、機械翻訳モデルが、公的に利用可能なデータセットを使用して事前にトレーニングされる。
(b)「ディスパッチャ」(説明については「フィードバック応答」のセクションを参照)は、ユーザフィードバックをフィルタリングする。
(c)新しい構造ファイルがユーザフィードバックから生成され、微調整機械翻訳データセットが生成される。
(d)事前にトレーニングされたモデルはさらに、少ショット学習原理を使用してトレーニングされる。
5)再ネスト
この態様は、好ましくはハイパーラインクラスタリングステップからのクラスタIDのフラットリストが与えられると、プッシュダウンオートマトンを使用してネストされた構造を反復的に作成する「コーパス再ネスト」アルゴリズムを使用する。隣接するハイパーラインの署名を比較することによって、システムは、所与の見出しまたはリストアイテムが、より多く、等しく、またはより少ないネストされたレベルに属するかどうかを決定できる。これは、多くのドキュメント(チャプター、セクション、サブセクション、句、リストなど)の多重ネスト階層構造を再構築することを可能にする。
再ネストで考慮される特徴は、特に最初および最後を考慮した、ハイパーライン内のトークンの「形状」(NLP技術で知られている)、前の行を終了する句読点の特定のクラス(存在する場合)、キャピタライゼーション、先頭の空白、インデント、太字、下線などのフォーマット情報、行の先頭にある列挙文字列(例えば、「IV(A)(1)」または「iv)」などのパターン)、または特定の弾丸やその他の絵文字の存在および形式、その列挙子の値、同じ種類の先行する列挙子の存在、レベル、および値など、を含む。
6)トピックチャンキング
この態様は、ドキュメントの連続したチャンクにわたって語彙統計および他の学習技術を使用して、トピックがどこでシフトするかを検出する。これは、所与のトピックに関するセクション全体などの大きなチャンクの境界の識別を強化し、その理由は、セクション(どのようなレベルであっても)は、一般に、隣接するセクションよりも、その中でトピック、語彙、およびスタイルの均一性が高いからである。
7)トピックのラベリング
i)見出しラベラー
図1に示すように、コーパス内の各ヘッダについて、このステップは
・各見出しの「埋め込み」として知られる数値表現を作成し、
・それらの埋め込みに少なくとも基づいて見出しをクラスタ化し、
・密度、アーティリティ、類似性のレベルなどの尺度に少なくとも基づいて、「悪い」クラスタを除外し、
・それぞれの残りのクラスタ内の最も一般的なセマンティックロールラベルを、前記クラスタ内のすべての見出しに伝搬する。
ii)キーフレーズラベラー
各チャンクについて、このステップは、キーフレーズ抽出技術(ルールベース言語技術、ML、統計、ベイジアン、および/またはその他など)のアンサンブルを使用して、テキストの候補セマンティックロールラベルを生成する。
8)チャンクラベリング
i)文法
システムのこの態様は、スピーチタグ付けの一部、依存関係解析、構成要素解析、および他を含む自然言語処理タスクなどのテキストの言語学的分析から始まる。次いで、このシステムは、別のドメインからのツリーマッチング機構を適用して、NLPを介して発見されたツリーまたはツリー状構造内の文法的なおよび他の構造を位置付ける。これらは、XPath、GATE、および他のツールによって例示されるように、ツリー文法およびツリーパターンマッチングなどのドキュメント構造化方法を含む。
そのようなパターンを使用してセンテンスにおける文法上の現象を識別することは、システムがテキスト自体からセマンティックロールラベルを抽出することを可能にし、これは次に近くのチャンクに注釈を付けるために使用される。例えば、センテンスの構成要素構造に基づいて、センテンス「以下は、我々の合意の用語である」(および類似の文法構造を有する他のセンテンス)と一致する検索パターンを構築し、次いで、名詞句(この例では「用語」)を抽出し、それを、このセンテンスに続き、そのような「用語」を含むコンテンツ内の1つまたは複数のチャンクのセマンティックロールラベルとして使用できる。
ii)質問応答
質問応答のためのBERTを含む質問応答技術は、候補チャンクのセマンティックロールラベル(例えば、日付、人名、ドル額)を識別するように特別に調整される。対照的に、ほとんどの従来の質問応答モデルは、「有効日は何か?」のような質問に応答することを目的とする。このシステムは、代わりに、「2018年7月8日は何か?」のような質問に答えるようにモデルをトレーニングし、「有効日」または「Xの有効日」を予測することを目的とし、Xは、テキスト中の別のチャンクを表す(単なる「日付」ではなく、これは、セマンティックロールではなくデータタイプである)。
このシステムはまた、回答されたときにテキスト中の関連情報を指し示すことができる総合的な質問を発見する。これは、質問応答によって使用されるべき質問を自動的に提示する能力を提供する。
iii)埋め込みと統合されたXPathのようなルール
ここで、「文法」の下で説明されているドメイン内のツールは、word 2 vec、char 2 vec、および多くの関連する方法などのテキストのベクトル-セマンティック表現を提供するツールと統合されている。このシステムは、アナリストが、XPathおよび類似のツールによってうまく処理される構造情報(XMLまたはDOM互換形式で表現されるチャンクのデータを含むことができる)と、ベクトルモデルによってうまく処理されるファジーまたは「意味論的」類似性情報との両方を含む、パターンを表現およびクエリすることを可能にする。
9)NER(ラベル付けされていない小さなチャンク)
技術は、個人または企業名、住所などのデータタイプによっていくつかのチャンクを識別できる(これは「名前付きエンティティ認識」または「NER」として知られている)。しかし、NERはドキュメント内のこれらのエンティティのセマンティックロールを識別するのにかなり不足している。現在の技術はまた、句またはセクション全体などのより大きなチャンク、または意味のあるまたは有用なより大きなチャンクを含むチャンクのグループを識別することに失敗する。
システムのこの態様は、必ずしもそれらに役割を割り当てることなく、興味深い小さなチャンクを検出する。テキスト内のNERを識別するための多くの方法およびツールが存在する。このシステムは複数の方法を使用し、その例を以下に列挙する。これらの発明は主に教師なしである。
i)確立されたNER法
ii)予想される単語
ウィキペディアなどの広範な一般的なテキストを使用してnグラムの言語モデルをトレーニングすることによって、「通常の英語に対してコンテキストにおいて予想される単語」のモデルを構築する。特定のドキュメントを見るとき、システムは、その一般的なモデルに適合せず、したがって、処理されているドキュメントに特有である傾向があるnグラムを識別するための手段を提供する。
iv)TF-IDF
これは、TF-IDFベースのアプローチ(「用語頻度対逆ドキュメント頻度」)であり、ラベル伝播およびコンテキストセマンティックラベリングと併せて使用される。
v)シーケンスクラスタリング
nグラムなどの小さな単語または文字シーケンスを抽出し、それらをコンテキスト埋め込み(例えば、BERTのもの)を使用してクラスタ化する。予想される結果は、意味論的意味を共有するnグラムが一緒にクラスタリングを開始することである。組み合わせエクスプロージョンのコストは、ヒューリスティック(構文ツリー上を含む)を使用して、クラスタリングの前にいくつかのnグラムをフィルタで除外することによって対処される。多種多様なクラスタリングアルゴリズムが適用され得る。この例では、hdbscanアルゴリズムは、「none」クラスタにランダムノイズを割り当てながら効果的なクラスタリングを達成する。
vi)少ショットNER
システムは少ショット学習技術を使用して、少数のラベル付けされたインスタンス(例えば、選択的なユーザフィードバック)から、学習されたパラメータのより広く適用可能なルールまたは調整までを一般化する。これは、ユーザにフィードバックを求めなければならない回数を大幅に削減し、システムのパフォーマンスをより迅速に向上する。
10)抽出ラベリング
システムのこの側面は、チャンクを囲むセンテンスに直接現れる小さなチャンクのセマンティックロールラベルを検出する。意味のあるチャンクは、しばしば、コンテキストによって何らかの形で指定された役割を有する。例えば、以下である。
ジョン・ドゥ(「売り手」)は、…に住んでいる。
毎月の終わりまでに999ドルの賃料を支払わなければならない。
i)コンテキストセマンティックラベリング(CSL)
このプロセスは、センテンスの解析を含む以前に構築された構造上で動作するニューラルネットワークを使用して、テキストのどの部分が様々なチャンクのセマンティックロールラベルである可能性があるかを学習する。多くのチャンクは、さまざまなソースおよび信頼レベルを備えた、そのようなラベルを既に有し得るが、これは、それらについてのまたは対する追加の証拠、ならびに新しいラベルを提供する。ここでのパターンのいくつかは文法を伴う。例えば、「ドゥは、毎月の最終営業日までに$1000の賃料を支払うものとする」において、主要動詞は、通貨額の役割が何であるか、すなわち、それが支払われるべき賃料であること、を明らかにする。他のパターンは、構造、チャンキング、ラベリング、およびコンテキスト内で利用可能なコンテンツの特徴を使用して、教師ありおよび/または教師なしの方法によって自動的に学習される。括弧、テーブルレイアウト、キーフレーズおよび単語、ならびに他の特徴などのフォーマットはまた、ニューラルネットワークの特徴を提供する。
有用な情報は、多くの場合、セクションまたはサブセクション、またはその見出しなどを含んでいるチャンクに存在する。例えば、所与の薬が処方箋としてか、アレルギーとして関連しているかどうかは、含まれるセクションの見出しを見ることによってのみ検出可能であり得る(これは、セクションの正しい階層ネスティングを検出することが重要である理由の別の例である)。機械学習技術によって学習され、様々なチャンクに適用可能な役割を発見するために適用されることができる他の多くの手がかりが存在する。クロスドキュメントの類似性を使用して、特に同じドキュメントセット内のドキュメントに、同様のコンテキストで発見されたが、孤立したドキュメントでは発見可能ではあり得ないセマンティックロールを関連付けることもできる。
ii)ラベル伝播
このプロセスは、ドキュメントのコーパス内のテキストの類似チャンクにわたってラベルを標準化する。これは、コンテキストから抽出されたラベルと、前のステップから利用可能なラベルとの両方に適用される。アルゴリズムは、凝集クラスタリングを使用してチャンクをそれらの埋め込みに基づいてクラスタリングし、重み付きページランクアルゴリズム(初期ノード重みとしてラベルの頻度/信頼度を使用する)を使用してチャンクの各クラスタについて候補ラベルをランク付けし、同時発生および埋め込み類似性を使用してラベルが互いにどのくらい類似しているかを決定する。次に、それらのクラスタレベルのスコアおよび我々がラベル付けしているチャンクが、ラベルの元のチャンクとどのくらい類似しているか(コンテンツ、埋め込み、構造、データタイプ、セマンティックロール、および/またはコンテキストの観点から)に基づいて、チャンクにラベルを割り当てる。凝集クラスタリングおよびページランクアルゴリズムを適用して、類似のコンテキストにわたってラベルを伝播させ、ドキュメントのセットにわたってラベルをより一貫性のあるようにする。
11)異常
システムのこの態様は、ステップ(2)で生成されたようなドキュメントセット内の複数のドキュメントを検査し、現在のドキュメントで発生するが、一般に同じセットの他のドキュメントにカウンターパートチャンクを有していないチャンクを識別し、またはその逆も同様である。カウンターパートチャンクは、同一のコンテンツ、構造、フォーマット、コンテキスト、データタイプ、およびセマンティックロールを有する必要はないが、ひとつのドキュメントから別のドキュメントへのバリエーションを有し得る。それにもかかわらず、それらを、他の識別されたチャンクとそれらの方法において実質的に同様であると認識できる。
新しいドキュメントが、同じセットの他のドキュメントに典型的には存在しないチャンクを含む場合、ユーザは、それらが実際に意図されていたことを確認するために、それらのいくつかまたはすべてについてクエリされ得る。この例示的なシステムでは、そのようなクエリは、問題のチャンクが新しいドキュメントとそれが基づいていたもの(もしあれば)とに共通であるが、他のものにはほとんど共通でない場合に、より一般的になる。
新しいドキュメントが、同じセットの他のドキュメント、または特に関連する外部ソース(例えば、ハウススタイルのマニュアル、コンプライアンス要件など)においてさえ、通常存在するカウンターパートチャンクを欠いている場合、そのようなチャンクの一部またはすべての例が、他のドキュメントから引き出されたコンテンツとともに、ユーザに提案される。提案は、使用頻度、利用可能な代替案の最も典型的な(重心)、または新しいドキュメントに存在する他のチャンクとの共起の高い可能性を有するような、要因に応じて、ユーザに対してランク付けされ得る。チャンクの提案は、例えば、例が引き出されたドキュメントに固有の名前、日付、および他のサブチャンクを、新しいドキュメントから引き出された値と置き換えるために、自動的に更新され得る。
さらに、追加または削除のために提案されるべきチャンクの選択は、異なる著者、編集者、または他のスタッフの実践に有用に依存できる。例えば、現在の著者のドキュメントが特定の手段で別の著者のものと頻繁に異なる場合、その差は考慮された選択であり、エラーではないことを示し得る。一方、同じ監督者の下で働いているすべての著者が何らかの方法を行うが、現在の著者がそれとは異なる場合、それは、少なくとも最初に気付いたときに、レビューの必要性がより高いことを示し得る。
異常のモデリングは、構造およびチャンクのデータタイプおよびセマンティックロールならびにコンテキスト、コンテンツ、およびフォーマットを考慮する。例えば、どんなチャンクのデータタイプおよびセマンティックロールが、他の内部、隣接、または近くで発生するかのパターンをモデル化する。十分に確立されたパターンの違反は、異常として分類され、任意の他の異常と同様にユーザフィードバックのために提示され得る。
12)調停(Arbitration)
多くの前のステップは、ステップ(3)で生成された線形シーケンス内の文字、トークン、および/または非テキストオブジェクトの範囲として定義された(典型的には、必ずしも連続ではないが)ドキュメントのチャンクを作成および/または動作させる。
任意の時点で検討されているチャンクを、マークアップなどの「インライン」メタ情報、または様々な種類のポインタによってテキスト内の位置を指す「スタンドオフ」表現のいずれかによって表現できる。この例では、スタンドオフ表現は、ほとんどの処理に使用されるが、インライン表現は、しばしばそれを好む外部ツールとの通信などのいくつかの目的に使用される。これらのおよび他の表現は機能的に交換可能であり、それらの間の選択を、パフォーマンス、利便性などの関係によって管理できる。
チャンクの表現は、それらを作成したステップまたは実装、それらがどのように確実であるか(「信頼レベル」)、ならびにそれらの特定のデータタイプおよび/またはセマンティックロールラベルに関する情報を含む。冗長、不確実、競合、または部分的に重複するチャンクが頻繁に生じ得、これをここでは「非最適」と呼ぶ。例えば、2つまたは複数の異なるプロセスは、セマンティックロールラベルをテキストの同じスパン(またはほぼ同じスパン、例えば、名前の前に「博士(Dr.)」を含むもの、およびそうでないもの)に張り付けさせ得る。チャンクは、時には深く、ネストされ得るが、任意に重複もし得る(すなわち、重複するチャンクの各々が、他方にもあるいくつかのコンテンツ、およびそうではないいくつかを含む)。上記のステップを通じて、システムは、重複または同じ場所にあるものを含む、多数の注釈を表すことができる表現を維持し得る。
そのような非最適なチャンクは、通常、少なくともドキュメントがユーザに提示されるときには望ましくない。さらに、多くの最先端のNLPツールには、XML、JSON、SQL、および他の表現システムなどの当業者によく知られている多くのドキュメントツールおよび方法と同様に、重複しない構造が好ましい。より制限された構造が通常好ましく、しばしば「階層的」または「よく形成された」と呼ばれ、部分的に重複するチャンクを回避する。
システムのこの態様は、チャンクの集合を厳密に階層化する、および非最適なチャンクを回避するように修正する。これは、複数の手法で達成できる。第1に、チャンクを完全に削除できる(つまり、チャンク自体、それらが識別したドキュメントコンテンツは削除されない)。第2に、チャンクスコープを変更して(例えば、いずれかの端から1つまたは複数の文字またはトークンを含むまたは除外することによって)、別のチャンクとの重複を防ぎ得る。第3に、チャンクは、冗長であると決定され、マージされ得る。第4に、チャンクが矛盾していることが検出され(例えば、1つのツールが「エセックス」を場所、1つを人と考えた場合)、選択が行われ得る。
このプロセスは、部分的および/または完全な重複のケースを迅速に検出し、タイプ、役割、および信頼性によるチャンクを比較し、およびチャンクおよびそれらの関連データを修正することによって非最適なケースを解決する手段を含む。どのチャンクを修正、マージ、または削除するかを選択することは、信頼レベル、所与のチャンクのデータタイプ、セマンティックロール、およびコンテンツの事前確率、セマンティックロールラベル間の下位語、所与のコンテキストにおける条件付き発生確率、現在のおよび他の類似のドキュメントにおける他のチャンクの数、役割、および分布、その時のプロセスの優先度、類似ケースについての顧客フィードバック、および/または他の方法などの、いくつかの因子を考慮する。
修正は、チャンクの信頼レベルも変更し得る。例えば、システムのいくつかの態様は、類似または同一のセマンティックロールラベルを、ドキュメントの同じまたはほぼ同じ部分に適用し得る。そのケースでは、ラベルは典型的にはマージされ、結果として生じるチャンクは、それが包含する個々のチャンクよりも高い信頼性が割り当てられる。他のケースでは、矛盾したチャンク割り当ての間で選択が行われるが、選択されたチャンクは、あるレベルの反証があったことを反映する低下した信頼性で終了し得る。
このプロセスは、チャンクの識別とラベル付けの品質と一貫性を向上させ、情報が幅広いツールと相互運用することを可能にし、結果をより簡単におよび信頼性高く分析することを可能にする。先に説明した動作を、終了時だけでなく、いつでも適用できる。例えば、前のステップが何らかのサブタスクのために外部ツールを使用する場合、それは、整形性(well-formedness)への縮小を要求し得る。削除または修正されたチャンクは、代わりに「一時停止」することができ、これは、それらがもはや処理に影響を及ぼさないが、要求に応じて再導入され得ることを意味し、これは、後に最初から前の作業を再現する必要なく、非重複支持ツールのそのような使用を可能にし、処理の柔軟性および速度を増加させる。
1つのアプローチでは、すべての重複および/またはすべての非最適なチャンクは、ユーザに示されるドキュメントを生成する前に解決され、それにより、結果は、多くの最新のワードプロセッサおよび他のツールによって使用されるXMLフォーマットなどの階層フォーマット内で容易にエンコードできる。しかし、ユーザフィードバックまたは改善されたアルゴリズム学習などによって、潜在的な後の解決のために特定の場所で複数の重複する可能性のある代替案を維持することも可能である(XMLにおいてさえ)。
13)DGML(DocuGami Markup Language)
ドキュメントの強化バージョンは、ドキュメント構造、フォーマット、コンテンツ、および識別されたチャンクを表し、プロセスのどのステップでどのチャンクがどのレベルの信頼度で識別されたかを識別し得る。いくつかの実施形態は、この表現の構文としてXMLを使用するが、幅広い表現は、他のXMLスキーマ、JSON、様々なデータベース、カスタムテキストまたはバイナリフォーマットなどの実質的に同じ情報を含むことができる。
このステップでは、ドキュメントおよび検出されたチャンクに関する情報がXML形式に変換され(または「シリアル化」)、他のプロセス、特にフィードバック、編集、レビューに使用されるフロントエンドユーザインターフェースに、およびグループマネージャー、品質管理スタッフなどの他のユーザに概要、統計、およびコンプライアンス情報を提供する「ダッシュボード」アプリケーションに役立つフォーマットに、より簡単に渡すことができる。
DGML(Docugami Markup Language)はこの使用のための特定のXMLスキーマであり、これは説明されている情報のすべてを1つのパッケージに収容する。ほとんどの以前のスキーマは、構造、コンテンツ、時には、レイアウトを扱い得るが、ここで説明されているように抽象的に「チャンク」に注釈を付けることはない。多くの以前のスキーマはまた、特に信頼レベルおよび由来情報(provenance information)と共に、チャンクを自動的に検出し、オンザフライで表すことができる一般化されたメカニズムを提供しない。
また、一部のワードプロセッサおよび他のツールのファイルフォーマットを用いて、同じ情報をそのフォーマットに対して透明なフォーマットで表現することによって、それを「トンネル」することも可能である。例えば、ツールが、埋め込まれたコメントまたはメタデータ、「見えない」テキスト、無視可能な属性、または他の同様の特徴をサポートする場合、本明細書に記載される情報をそれらの中に隠し、結果として生じるドキュメントをそのツールで使用する、場合によっては変更する、ことを可能にし、トンネルされた情報がまだ利用可能である状態でシステムに戻されることができる。
14)フィードバックモードフロントエンド
すでに説明した方法でドキュメントおよびその検出されたチャンクに添付された広範な注釈および分析は、サンプル、テンプレート、または以前のドキュメントの編集を通じてユーザを誘導し、現在のニーズに合わせてカスタマイズされた類似しているが新しいドキュメントを作成することを実現可能にする。例えば、このシステムは、通常、契約の対象となる当事者および財産、病歴、現在の所見、および臨床ノートの他の特定のセクションに記載されている薬または状態、関連する日付などを識別する。同じドキュメントセットの他のドキュメントも検査することによって、このシステムは、どの事柄が共通でないか、共通であるか、または必要であるかを学習し、したがって、何をレビューおよび/または更新すべきかについてユーザに対して、より有用な推奨を行うことができる。例えば、有効日は、ドキュメントセット内のほぼ全ての契約に存在し得るが、その値はそれぞれ異なり得る。同様に、当事者も変化するが、当事者の種類ははるかに一貫している。
i)無誘導フィードバック
ユーザとの相互作用では、システムは第1に、いくつかのドキュメントで検出された(または検出されなかった可能性がある)チャンクに関するフィードバックを要求する。フィードバックのために提示される最初のいくつかのドキュメントは、ドキュメントセットの「クラスタ重心(cluster centroids)」になる。最後のいくつかは、ドキュメントセットの「外れ値」になる。
ii)誘導フィードバック
この後、システムは、ドキュメントの選択された部分をユーザに示し、それらに対する現在のまたは潜在的なラベル、それらの範囲などについて尋ねることによってフィードバックを提供するようにユーザを誘導する。
a.「興味深いラベル」は、ページランクベースのアルゴリズムおよび文法および構造モデルによって決定される。これらのラベルのうち、信頼性の低いインスタンスのセットがレビューのために選択される。
b.現在のドキュメントに低信頼度ラベルがもはや存在しない場合、追加のドキュメントに対して同じプロセスを繰り返し得る。いくつかの実施形態では、モデルは、ユーザが提供しているフィードバックに基づいて継続的に更新される。しかし、代わりに、フィードバックを蓄積し、後で、バッチで、および/またはオフラインで適用できる。モデルに対する調整は、次いで、フィードバックのためにその後に提示されるチャンクおよびラベルの選択に影響を与えることができ、いくつかのドキュメントの再分析をトリガし得る。
c.このシステムは、実質的に同じメカニズムを使用して、フィールドおよび構造チャンクについてのフィードバックを求める。1つのアプローチでは、すべてのチャンク検出器は信頼性の推定値を提供し、これを、フィードバックの候補を選択するために他の情報と共に使用できる。
フィードバックは、小さい対大きいチャンク、フィールド対構造チャンク、または他の順序で異なるパスで要求され得る。ユーザフィードバック用のユーザインターフェースの例については、図3を参照する。一部またはすべてのチャンクを表示し、ユーザが特定のものを選択して検査し、割り当てられたタイプおよび/または役割、ならびにオプション的に代替を確認することを可能にする。ユーザは、チャンクの境界を移動する、ラベルを選択する、または編集するなどができる。好ましくは、ユーザはまた、特定の変更(ラベルなどへの)がすべての対応するまたは同一タイプのチャンクに適用されることを要求できる。
15)フィードバック応答
i)フリートクエリは、システムが、典型的には複数のユーザからのユーザフィードバックに基づいてプライベートおよびパブリックデータの両方をクエリすることを可能にする方法である。選択された例は、意味的におよび構文的に以前の障害ケースに類似しており、これはフィードバックの値を増加する。
ii)ディスパッチャ。ディスパッチャは、フィードバックから学習できる特定の学習モデル120に戻るいくつかのMLモデルおよび非MLアルゴリズムの組み合わされた出力に関するユーザフィードバックを接続するための方法論である。
このシステムは、その出力に対するユーザフィードバックから、および他の学習および非学習モデルの出力に対するユーザフィードバックからモデルを改善することを可能にする。これは、フィードバックを、説明されたいくつかの数値およびニューラルモデルのための増分(「微調整」とも呼ばれる)トレーニングデータとして使用することによって達成される。フィードバックを使用してモデルを改善した後、特定のドキュメントだけでなく、セット内のすべてのドキュメント、またはユーザのすべてのドキュメントさえもが再評価される。したがって、各ドキュメントに対するフィードバックは、すべてのドキュメントについて、チャンク識別、役割の割り当て、構造の発見、およびしたがってユーザ支援を改善できる。この再トレーニングは、図1のステップ(15)からステップ(3)までの点線コネクタによって表される。
ドキュメントおよびすべての関連付けられた情報は、ドキュメントのセットの学習および分析(特に、排他的にではないが、特定のドキュメントセット内での)に貢献し、したがって、将来のドキュメントのパフォーマンスを向上せる。例えば、新しいチャンクがセット内の1つまたは複数のドキュメントに追加されると、それは将来のドキュメントで使用(または古いものの改訂)することが可能となり、将来のドキュメントに提案できる。ある時点で、最近導入されたチャンク役割の不在、または最近あまり使用されていないチャンク役割の存在は、異常になり得る。このポイントは、自発的に、またはフィードバック質問に応答してユーザによって、または経時的なカウンターパートチャンクの使用曲線に基づいて自動的に選択できる。例えば、特定の時間より前に作成された1つのセット内のドキュメントには、所与の役割および/またはコンテキストのチャンク(例えば、「除外」セクション)が含まれているものはほとんどないが、後に作成されたそれの大部分またはすべてがそれを有する場合、カウンターパートチャンクの欠如は、新しいドキュメントにおいて異常である可能性が高く、そのようにユーザに有用に提示され得る。
16)ダウンストリームコミュニケーション
説明されたようなチャンク情報を有するドキュメントに注釈を付けた後、選択された情報は、データベース、分析ツールなどの外部ビジネス情報システムによって必要とされる特定のフォーマットに変換され、それらのシステムに、直接または自動および/または手動のレビューステップを通じて、渡される。例えば、特定の当事者の名前および住所をデータベース内の正しいフィールドにコピーすることができ、これは、それらが「名前」および「住所」自体としてのみ識別された場合には自動的に行うことができない。ダウンストリームソフトウェアアプリケーションとの統合例については、図4を参照する。この例では、当事者が同意すると予想される用語を表すチャンクが抽出されており、それらは、Docusignと同様のダウンストリームアプリケーションに渡されて、記入され署名される。
図5は、本発明と共に使用され得るコンピュータシステム510の一実施形態のブロック図である。上述のステップは、そのようなコンピュータシステム上で実行するソフトウェアによって実装され得る。コンピュータシステム510は、典型的には、バスサブシステム512を介して周辺デバイスと通信する少なくとも1つのコンピュータまたはプロセッサ514を含む。典型的には、コンピュータは、マイクロプロセッサ、グラフィックス処理ユニット、またはデジタル信号プロセッサ、および特定用途向け集積回路(ASIC)またはフィールドプログラマブルゲートアレイ(FPGA)などのそれらの電子処理等価物のいずれかを含むことができ、またはプロセッサはそれらのいずれかであることができる。これらの周辺デバイスは、メモリサブシステム526およびファイルストレージサブシステム528を備えるストレージサブシステム524と、ユーザインターフェース入力デバイス522と、ユーザインターフェース出力デバイス520と、ネットワークインターフェースサブシステム516とを含み得る。入力および出力デバイスは、コンピュータシステム510とのユーザインタラクションを可能にする。
コンピュータシステムは、サーバコンピュータ、クライアントコンピュータ、ワークステーション、メインフレーム、パーソナルコンピュータ(PC)、タブレットPC、ラックマウントされた「ブレード」、またはその機械によって取られるべきアクションを指定する命令(順次的またはそうでなければ他の)を実行することが可能な任意のデータ処理マシンであり得る。
コンピュータシステムは、典型的には、MicrosoftのWindows(登録商標)、Sun MicrosystemsのSolaris(登録商標)、Apple ComputerのMacOs(登録商標)、Linux(登録商標)、またはUnix(登録商標)などのオペレーティングシステムを含む。コンピュータシステムはまた、典型的には、基本入力/出力システム(BIOS)およびプロセッサファームウェアを含むことができる。オペレーティングシステム、BIOSおよびファームウェアはプロセッサによって使用され、プロセッサに接続されたサブシステムおよびインターフェースを制御する。これらのオペレーティングシステムと互換性のある典型的なプロセッサには、IntelのPentium(登録商標)およびItanium(登録商標)、Advanced Micro DevicesのOpteron(登録商標)およびAthlon(登録商標)、ならびにARM HoldingsのARM(登録商標)プロセッサが含まれる。
特許請求される発明の発明、実施形態、および/または例は、従来のコンピュータアプリケーションにも、それらを実行するプログラム可能な装置にも限定されない。例えば、特許請求されるものの発明、実施形態、および/または例は、光コンピュータ、量子コンピュータ、アナログコンピュータなどを含むことができる。コンピュータシステムは、マルチプロセッサまたはマルチコアシステムであり得、分散またはリモートシステムにおいて使用または実装され得る。ここで「プロセッサ」という用語は、グラフィックプロセッシングユニット、デジタル信号プロセッサ、デジタルプロセッサ、およびこれらのデバイスの組み合わせを含む、単一のプロセッサおよびマルチコアまたはマルチプロセッサアレイを含むように最も広い意味で使用される。さらに、単一のコンピュータシステムまたは単一のマシンのみが例示され得るが、そのような用語の単数形の使用はまた、本明細書で論じられる動作の任意の1つまたは複数を実行する命令を個別にまたは共同で実行するコンピュータシステムまたはマシンの任意の集合を意味するものとする。コンピュータおよびネットワークの絶えず変化する性質に起因して、図5に示されるコンピュータシステム510の説明は、好ましい実施形態を例示する目的のための一例としてのみ意図される。コンピュータシステム510の多くの他の構成は、図5に示されるコンピュータシステムよりも多いまたは少ないコンポーネントを有することが可能である。
ネットワークインターフェースサブシステム516は、通信ネットワーク518へのインターフェースを含む外部ネットワークへのインターフェースを提供し、通信ネットワーク518を介して他のコンピュータシステムまたはマシン内の対応するインターフェースデバイスに結合される。通信ネットワーク518は、多くの相互接続されたコンピュータシステム、マシン、および通信リンクを含み得る。これらの通信リンクは、有線リンク、光学リンク、無線リンク、または情報の通信のための任意の他のデバイスであり得る。通信ネットワーク518は、任意の好適なコンピュータネットワーク、例えば、インターネットなどの広域ネットワーク、および/またはイーサネットなどのローカルエリアネットワークとすることができる。通信ネットワークは有線および/または無線とすることができ、通信ネットワークは、仮想プライベートネットワークで利用可能であるような、暗号化および復号化方法を使用できる。通信ネットワークは、他のシステムからデータを受信するおよび他のシステムにデータを送信することができる1つまたは複数の通信インターフェースを使用する。通信インターフェースの実施形態は、典型的には、イーサネットカード、モデム(例えば、電話、衛星、ケーブル、またはISDN)、(非同期)デジタル加入者線(DSL)ユニット、ファイアワイヤインターフェース、USBインターフェースなどを含む。HTTP、TCP/IP、RTP/RTSP、IPXおよび/またはUDP等の1つまたは複数の通信プロトコルを使用できる。
ユーザインターフェース入力デバイス522は、英数字キーボード、キーパッド、マウス、トラックボール、タッチパッド、スタイラス、またはグラフィックタブレット等のポインティングデバイス、スキャナ、ディスプレイに組み込まれたタッチスクリーン、音声認識システムまたはマイクロフォン等のオーディオ入力デバイス、目線認識、脳波パターン認識、および他のタイプの入力デバイスを含み得る。そのようなデバイスは、有線または無線でコンピュータシステムに接続できる。一般に、「入力デバイス」という用語の使用は、コンピュータシステム510内へまたは通信ネットワーク518上に情報を入力するためのすべての可能なタイプのデバイスおよび手段を含むことが意図される。ユーザインターフェース入力デバイスは、典型的には、ユーザが、いくつかのタイプのユーザインターフェース出力デバイス、例えば、ディスプレイサブシステム、上に表示されるオブジェクト、アイコン、テキスト等を選択することを可能にする。
ユーザインターフェース出力デバイス520は、ディスプレイサブシステム、プリンタ、またはオーディオ出力デバイスなどの非ビジュアルディスプレイを含み得る。ディスプレイサブシステムは、液晶ディスプレイ(LCD)などのフラットパネルデバイス、投影デバイス、または仮想現実システムなどの可視画像を作成するためのいくつかの他のデバイスを含み得る。ディスプレイサブシステムはまた、オーディオ出力または触覚出力(例えば、振動)デバイスを介するような非ビジュアルディスプレイを提供し得る。一般に、「出力デバイス」という用語の使用は、コンピュータシステム510からユーザに、または別の機械もしくはコンピュータシステムに、情報を出力するすべての可能なタイプのデバイスおよび手段を含むことが意図される。
メモリサブシステム526は、典型的には、プログラム実行中に命令およびデータを格納するためのメインランダムアクセスメモリ(RAM)530(または他の揮発性記憶装置)と、固定命令が記憶されるリードオンリメモリ(ROM)532とを含むいくつかのメモリを含む。ファイルストレージサブシステム528は、プログラムおよびデータファイルのための永続的ストレージを提供し、ハードディスクドライブ、関連付けられたリムーバブルメディアと共にフロッピーディスクドライブ、CD-ROMドライブ、光学ドライブ、フラッシュメモリ、またはリムーバブルメディアカートリッジを含み得る。特定の実施形態の機能性を実装するデータベースおよびモジュールは、ファイルストレージサブシステム528によって格納され得る。
バスサブシステム512は、コンピュータシステム510の様々なコンポーネントおよびサブシステムが、意図されるように互いに通信させるようにするためのデバイスを提供する。バスサブシステム512は、単一のバスとして概略的に示されるが、バスサブシステムの代替的な実施形態は、複数のバスを使用し得る。例えば、RAMベースのメインメモリは、ダイレクトメモリアクセス(DMA)システムを使用してファイルストレージシステムと直接通信できる。
詳細な説明は多くの詳細を含むが、これらは本発明の範囲を限定するものとしてではなく、単に異なる例を示すものとして解釈されるべきである。本開示の範囲は、上記で詳細に説明されていない他の実施形態を含むことを理解されたい。当業者には明らかである様々な他の修正、変更、および変形は、添付の特許請求の範囲で定義されるように、精神および範囲から逸脱することなく、本明細書に開示される方法および装置の配置、操作、および詳細においてなされ得る。したがって、本発明の範囲は、添付の特許請求の範囲およびそれらの法的同等物によって決定されるべきである。

Claims (100)

  1. ドキュメントを分析するおよび注釈を付けるための命令を実行するコンピュータシステム上に実装された方法であって、
    複数のドキュメントを含むドキュメントセットにアクセスすることと、
    前記ドキュメントセット内の個々のドキュメント内のチャンクを、(a)前記個々のドキュメント内のコンテンツ、レイアウト、およびコンテキストに基づいて、ならびに(b)前記ドキュメントセット内の前記ドキュメントにわたる前記コンテンツ、レイアウト、およびコンテキストのパターンに基づいて、自動的に識別することと、
    前記ドキュメントセット内のドキュメントからの前記識別されたチャンクの分析に基づいて、前記ドキュメントセット内のドキュメントに注釈を付けることと、
    を含むコンピュータ実装方法。
  2. コンテンツおよび/またはレイアウトの類似性に基づいて、ドキュメントを前記ドキュメントセット内にクラスタ化することによって前記ドキュメントセットを組み立てること、をさらに含む、請求項1に記載のコンピュータ実装方法。
  3. 前記ドキュメントセット内の個々のドキュメント内のチャンクを自動的に識別するステップは、さらに、(c)前記個々のドキュメント内のセマンティックロールを識別することに基づき、および(d)前記ドキュメントセット内の異なるドキュメント内のカウンターパートチャンクを識別することに基づいており、カウンターパートチャンクは異なるドキュメント内で同じセマンティックロールを果たす、請求項1に記載のコンピュータ実装方法。
  4. 異なるドキュメント内のカウンターパートチャンクを識別することは、
    異なるドキュメントでは異なるが、前記異なるドキュメント内の実質的に同様のコンテキスト内で発生するコンテンツを識別することを含む、請求項3に記載のコンピュータ実装方法。
  5. 異なるドキュメント内のカウンターパートチャンクを識別することは、
    異なるドキュメント内で実質的に同じコンテンツを識別することを含む、請求項3に記載のコンピュータ実装方法。
  6. 前記識別されたチャンクのいくつかに、前記チャンクを説明するメタデータで、注釈を付けることをさらに含み、異なるドキュメント内のカウンターパートチャンクを識別することは、前記メタデータの類似性に基づいている、請求項1に記載のコンピュータ実装方法。
  7. 前記ドキュメントセット内の前記ドキュメントにわたるパターンに基づいてチャンクを識別することは、
    個々のドキュメントにおいて、前記ドキュメントセットの前記ドキュメントに共通して発生するが、前記個々のドキュメントに発生するようには見えないチャンクを識別することを含む、請求項1に記載のコンピュータ実装方法。
  8. 前記識別されたチャンクは、
    ドキュメントテンプレートにおけるフィールドとして使用するのに適した前記ドキュメント内のコンテンツを含むフィールドチャンクと、
    前記ドキュメントの前記レイアウト内の構造を含むコンテンツを含む構造チャンクと、を含む、請求項1に記載のコンピュータ実装方法。
  9. 前記フィールドチャンクのうちのいくつかは階層的であり、サブチャンクとして他のチャンクを含む、請求項8に記載のコンピュータ実装方法。
  10. 前記識別されたチャンクのうちのいくつかは、他のチャンクによって果たされるセマンティックロールを記述するコンテンツを含む、請求項1に記載のコンピュータ実装方法。
  11. 前記チャンクのデータタイプおよび前記チャンクのセマンティックロールを用いて、前記識別されたチャンクのうちのいくつかに注釈を付けることをさらに含む、請求項1に記載のコンピュータ実装方法。
  12. レイアウトに基づいてチャンクを識別することは、
    行指向テキストを構造チャンクにグループ化することであって、前記グループ化は、単語形状、最初および最後のトークン、フォーマッティング特性、および/または句読点に基づくことを含む、請求項1に記載のコンピュータ実装方法。
  13. レイアウトに基づいてチャンクを識別することは、
    ページ画像のタイルに対してトレーニングされた機械学習推論を使用して、構造チャンクの空間境界を識別することを含む、請求項1に記載のコンピュータ実装方法。
  14. レイアウトに基づいてチャンクを識別することは、
    前記レイアウトの幾何学的パターンの人工知能ベースの視覚的認識を使用して、構造チャンクの空間境界を識別することを含む、請求項1に記載のコンピュータ実装方法。
  15. レイアウトに基づいてチャンクを識別することは、
    非テキスト構造特徴のレイアウトに基づいて構造チャンクを識別することであって、前記非テキスト構造特徴が、図、テーブル、サイドバー、脚注、およびページヘッダまたはフッタのうちの少なくとも1つを含む、ことを含む、請求項1に記載のコンピュータ実装方法。
  16. コンテンツに基づいてチャンクを識別することは、
    トピック推定のためのAI技術を使用してチャンクを識別することを含む、請求項1に記載のコンピュータ実装方法。
  17. コンテンツに基づいてチャンクを識別することは、
    少ショット名前付きエンティティ認識技術を使用して、前記ドキュメントのセット内のチャンクを識別することを含む、請求項1に記載のコンピュータ実装方法。
  18. 誤って識別されたチャンクに対するユーザ補正を受信することと、
    前記ユーザ補正に応答してチャンクを自動的に前記識別することを改善することと、をさらに含む、請求項1に記載のコンピュータ実装方法。
  19. ドキュメントを分析および改善するための実行可能なコンピュータプログラム命令を格納する非一時的コンピュータ可読記憶媒体であって、前記コンピュータプログラム命令は、コンピュータシステムによって実行可能であり、前記コンピュータシステムに、
    複数のドキュメントを含むドキュメントセットにアクセスすることと、
    前記ドキュメントセット内の個々のドキュメント内のチャンクを、(a)前記個々のドキュメント内のコンテンツ、レイアウト、およびコンテキストに基づいて、ならびに(b)前記ドキュメントセット内の前記ドキュメントにわたる前記コンテンツ、レイアウト、およびコンテキストのパターンに基づいて、自動的に識別することと
    前記ドキュメントセット内のドキュメントからの前記識別されたチャンクの分析に基づいて、前記ドキュメントセット内のドキュメントに注釈を付けることと、
    を含む方法を実行させる、非一時的コンピュータ可読記憶媒体。
  20. ドキュメントを分析および改善するためのコンピュータシステムであって、
    複数のドキュメントを含むドキュメントセットを受信し格納する記憶媒体と、
    前記記憶媒体へのアクセスを有し、ドキュメントを分析するおよび注釈を付けるためのアプリケーションプログラムを実行するプロセッサシステムと、
    を含み、
    前記プロセッサシステムが、
    前記ドキュメントセット内の個々のドキュメント内のチャンクを、(a)前記個々のドキュメント内のコンテンツ、レイアウト、およびコンテキストに基づいて、ならびに(b)前記ドキュメントセット内の前記ドキュメントにわたる前記コンテンツ、レイアウト、およびコンテキストのパターンに基づいて、自動的に識別し、
    前記ドキュメントセット内のドキュメントからの前記識別されたチャンクの分析に基づいて、前記ドキュメントセット内のドキュメントに注釈を付ける、
    前記アプリケーションプログラムを実行する、
    コンピュータシステム。
  21. ドキュメントを分析および改善するための命令を実行するコンピュータシステム上に実装された方法であって、
    複数のドキュメントを含むドキュメントセットにアクセスすることであって、前記ドキュメントセットは、前記ドキュメントセットの個々のドキュメント内のチャンクも識別する、ことと、
    セマンティックロールラベルを複数のチャンクに自動的に割り当てることであって、前記セマンティックロールラベルは、前記チャンクによって果たされるセマンティックロールを記述し、セマンティックロールラベルを前記チャンクに自動的に割り当てることは、(a)機械学習および/または自然言語処理方法を使用してチャンクのセマンティックロールを決定することを含み、(b)それぞれのドキュメント内で同じセマンティックロールを果たすと識別される異なるドキュメント内のチャンクにも基づく、ことと
    前記ドキュメントセット内のドキュメントのさらなる処理において、前記チャンクおよびそれらのセマンティックロールラベルを使用することと、
    を含むコンピュータ実装方法。
  22. 前記ドキュメントセット内の前記複数のドキュメントは、すべて同じドキュメントタイプである、請求項21に記載のコンピュータ実装方法。
  23. 前記ドキュメントセット内の前記チャンクは、
    ドキュメントテンプレートにおけるフィールドとして使用するのに適した前記ドキュメント内のコンテンツを含むフィールドチャンクであって、前記フィールドチャンクのいくつかは階層的であり、サブチャンクとして他のチャンクを含む、フィールドチャンクと、
    前記ドキュメントのレイアウト内の構造を含むコンテンツを含む構造チャンクと、
    を含む、請求項21に記載のコンピュータ実装方法。
  24. 前記ドキュメントセットは法律ドキュメントを含み、前記セマンティックロールは、(a)前記法律ドキュメントの当事者によって果たされる役割と、(b)日付、期間または他の時間表現によって果たされる役割とを含む、請求項21に記載のコンピュータ実装方法。
  25. セマンティックロールラベルをチャンクに自動的に割り当てることは、
    前記セマンティックロールラベルのいくつかをチャンクから自動的に抽出することと、
    前記抽出されたセマンティックロールラベルをチャンクに割り当てることと、
    を含む、請求項21に記載のコンピュータ実装方法。
  26. セマンティックロールラベルをチャンクに自動的に割り当てることは、
    機械学習を使用して、(a)個々のドキュメント内のチャンクのコンテンツ、レイアウト、およびコンテキストに基づいて、(b)前記ドキュメントセット内の前記ドキュメントにわたるチャンクのコンテンツ、レイアウト、およびコンテキストのパターンに基づいて、ならびに(c)チャンクのデータタイプに基づいて、チャンクからセマンティックロールラベルを自動的に抽出することと
    前記抽出されたセマンティックロールラベルをチャンクに割り当てることと、
    を含む、請求項21に記載のコンピュータ実装方法。
  27. セマンティックロールラベルをチャンクに自動的に割り当てることは、
    オートエンコーダ機械学習技術を使用して、前記セマンティックロールラベルのいくつかを自動的に抽出することと、
    前記抽出されたセマンティックロールラベルをチャンクに割り当てることと、
    を含む、請求項21に記載のコンピュータ実装方法。
  28. セマンティックロールラベルをチャンクに自動的に割り当てることは、
    候補セマンティックロールラベルを前記チャンクから自動的に抽出することと、
    機械学習を使用して、前記候補セマンティックロールラベルを洗練することと、
    前記抽出されたセマンティックロールラベルをチャンクに割り当てることと、
    を含む、請求項21に記載のコンピュータ実装方法。
  29. セマンティックロールラベルをチャンクに自動的に割り当てることは、
    前記ドキュメントセット内の異なるドキュメントからのチャンクのコンテンツ、レイアウトおよび/またはコンテキストの類似性に基づいて、チャンクから前記セマンティックロールラベルのいくつかを自動的に抽出することと
    前記抽出されたセマンティックロールラベルをチャンクに割り当てることと、
    を含む、請求項21に記載のコンピュータ実装方法。
  30. セマンティックロールラベルをチャンクに自動的に割り当てることは、
    候補セマンティックロールラベルをチャンクに割り当てることと、
    前記チャンクによって果たされる前記セマンティックロールの類似性に基づいて、チャンクをクラスタにグループ化することと、
    クラスタ内の前記チャンクの間の前記候補セマンティックロールラベルを標準化することと、
    前記標準化されたセマンティックロールラベルをチャンクに割り当てることと、
    を含む、請求項21に記載のコンピュータ実装方法。
  31. セマンティックロールラベルをチャンクに自動的に割り当てることは、
    候補セマンティックロールラベルをチャンクに割り当てることと、
    前記チャンクのサイズおよびテキスト埋め込みの類似性に基づいて、チャンクをチャンククラスタにグループ化することと、
    前記候補セマンティックロールラベルのテキスト埋め込みの類似性に基づいて、候補セマンティックロールラベルをラベルクラスタにグループ化することと、
    前記チャンククラスタおよび前記ラベルクラスタに基づいて前記候補セマンティックロールラベルを標準化することと、
    前記標準化されたセマンティックロールラベルをチャンクに割り当てることと、
    を含む、請求項21に記載のコンピュータ実装方法。
  32. セマンティックロールラベルをチャンクに自動的に割り当てることは、
    候補セマンティックロールラベルをドキュメントのセクションを含むチャンクに割り当てることであって、前記候補セマンティックロールラベルが前記セクションの見出しに基づいている、ことと、
    前記セクション内のコンテンツの類似性に基づいて、前記チャンクをクラスタにグループ化することと、
    前記候補セマンティックロールラベルを、クラスタ内のすべてのチャンクの前記セマンティックロールラベルとして最も一般的な候補セマンティックロールラベルを選択することによって標準化することと、
    前記標準化されたセマンティックロールラベルをチャンクに割り当てることと、
    を含む、請求項21に記載のコンピュータ実装方法。
  33. 前記セマンティックロールラベルは、セマンティックロールラベルの所定のセットから選択される、請求項21に記載のコンピュータ実装方法。
  34. 前記セマンティックロールラベルは、前記ドキュメントセット内のドキュメントのさらなる処理のために使用されるソフトウェアアプリケーションによって認識されるラベルを含む、請求項21に記載のコンピュータ実装方法。
  35. セマンティックロールラベルをチャンクに自動的に割り当てることは、
    (a)機械学習を使用して、近くにある他のチャンクに基づいて、または前記チャンクを含むチャンクを含むことに基づいて、チャンクのセマンティックロールを決定すること、
    または(b)近くのチャンクの文法的構造に基づいて、自然言語処理方法を使用して、チャンクのセマンティックロールを決定すること、
    の少なくとも1つを含む、請求項21に記載のコンピュータ実装方法。
  36. 前記チャンクのいくつかは名前付きエンティティ参照であり、そのようなチャンクは、前記ドキュメント内のそれらの前記チャンクによって果たされる前記セマンティックロールに対するセマンティックロールラベルでラベル付けされ、そのようなチャンクはまた、前記チャンクのデータタイプでラベル付けされる、請求項21に記載のコンピュータ実装方法。
  37. 前記チャンクのいくつかは前記ドキュメント内のマルチパラグラフ構造であり、そのようなチャンクは、前記ドキュメント内のそれらのチャンクによって果たされる前記セマンティックロールに対するセマンティックロールラベルでラベル付けされる、請求項21に記載のコンピュータ実装方法。
  38. 前記自動的に割り当てられたセマンティックロールラベルの信頼レベルを推定することと、
    前記推定された信頼レベルに基づいて、確認のためにいくつかの割り当てをユーザに提示することと、
    前記自動的に割り当てられたセマンティックロールラベルに対するユーザフィードバックを受信することと、
    前記ユーザフィードバックに応答して、前記機械学習および/または自然言語処理方法を改善することと、
    をさらに含む、請求項21に記載のコンピュータ実装方法。
  39. ドキュメントを分析および改善するための実行可能なコンピュータプログラム命令を格納する非一時的コンピュータ可読記憶媒体であって、前記コンピュータプログラム命令は、コンピュータシステムによって実行可能であり、前記コンピュータシステムに
    複数のドキュメントを含むドキュメントセットにアクセスすることであって、前記ドキュメントセットは、前記ドキュメントセットの個々のドキュメント内のチャンクも識別する、ことと、
    セマンティックロールラベルを複数のチャンクに自動的に割り当てることであって、前記セマンティックロールラベルは、前記チャンクによって果たされるセマンティックロールを記述し、セマンティックロールラベルを前記チャンクに自動的に割り当てることは、(a)機械学習および/または自然言語処理方法を使用してチャンクのセマンティックロールを決定することを含み、(b)それぞれのドキュメント内で同じセマンティックロールを果たすと識別される異なるドキュメント内のチャンクにも基づく、ことと
    前記チャンクおよびそれらのセマンティックロールラベルを、前記ドキュメントセット内のドキュメントのさらなる処理のために利用可能にすることと
    を含む方法を実行させる、非一時的コンピュータ可読記憶媒体。
  40. ドキュメントを分析および改善するためのコンピュータシステムであって、
    複数のドキュメントを含むドキュメントセットを受信して格納するための記憶媒体であって、前記ドキュメントセットはまた、前記ドキュメントセットの個々のドキュメント内のチャンクを識別する、記憶媒体と
    前記記憶媒体へのアクセスを有し、ドキュメントを分析および改善するためのアプリケーションプログラムを実行するプロセッサシステムと、
    を含み、
    前記プロセッサシステムが
    セマンティックロールラベルを複数の前記チャンクに自動的に割り当て、前記セマンティックロールラベルは前記チャンクによって果たされるセマンティックロールを記述し、セマンティックロールラベルを前記チャンクに自動的に割り当てることは、(a)機械学習および/または自然言語処理方法を使用してチャンクのセマンティックロールを決定することを含み、(b)それぞれのドキュメント内で同じセマンティックロールを果たすと識別される異なるドキュメント内のチャンクにも基づき、
    前記チャンクおよびそれらのセマンティックロールラベルを前記ドキュメントセット内のドキュメントのさらなる処理のために利用可能にする、
    前記アプリケーションプログラムを実行する、
    コンピュータシステム。
  41. ドキュメントを処理するための命令を実行するコンピュータシステム上に実装された方法であって、
    複数のドキュメントを含むドキュメントセットを処理して、前記ドキュメント内のチャンクを識別し、対応する注釈を生成することであって、
    前記ドキュメントの画像を処理して、前記ドキュメントの前記画像の視覚的に異なる領域を含む視覚的チャンクを識別し、前記視覚的チャンクの間隔およびフォーマットを指定する第1の注釈を生成し、
    ビジュアルチャンクおよび第1の注釈を処理して、前記ビジュアルチャンク内の構造からのコンテンツを含む構造チャンクを識別し、前記構造チャンクのレイアウトを指定する第2の注釈を生成し、
    前記構造チャンクおよび第2の注釈を処理して、トピックに従って構造チャンク内のコンテンツのグループ化に基づいてトピックレベルのチャンクを識別し、前記トピックレベルのチャンクのトピックを指定する第3の注釈を生成し、
    前記トピックレベルのチャンクおよび第3の注釈を処理して、ドキュメントテンプレート内のフィールドとして使用するのに適したコンテンツを含むフィールドチャンクを識別し、前記フィールドチャンクの前記フィールドを指定する第4の注釈を生成する、
    ステージを含む、ことと、
    前記フィールドチャンクと、前記ドキュメントからの他の識別されたチャンクの少なくとも一部と、前記チャンクに対する対応する注釈と、を含むフォーマットにおいて、前記処理されたドキュメントの表現を生成することと
    ダウンストリームプロセスにおける複数のソフトウェアアプリケーションのいずれかによって使用するために利用可能なフォーマットの表現を作成することと、
    を含むコンピュータ実装方法。
  42. 前記処理されたドキュメントの前記表現は、前記ドキュメントを処理する際に識別された前記チャンクの全て、および前記ドキュメントを処理する際に生成された前記対応する注釈の全てを含む、請求項41に記載のコンピュータ実装方法。
  43. 前記ドキュメントを処理する前記ステージのそれぞれが、機械学習、人工知能、および/または自然言語処理を使用する、請求項41に記載のコンピュータ実装方法。
  44. 前記ドキュメントを処理する前記ステージのそれぞれが、100%未満の信頼度でチャンクを識別する、請求項41に記載のコンピュータ実装方法。
  45. 前記処理されたドキュメントの前記表現は、チャンクの前記識別の信頼レベルを指定する注釈をさらに含む、請求項44に記載のコンピュータ実装方法。
  46. 誤って識別されたチャンクに対するユーザ補正を受信することと、
    前記ユーザ補正に応答してチャンクを自動的に識別する前記ステージを改善することと、をさらに含む、請求項44に記載のコンピュータ実装方法。
  47. 前記視覚的チャンクを処理する、構造チャンクを処理する、およびトピックレベルチャンクを処理する前記ステージは、他の視覚的チャンク内に含まれる視覚的チャンクについて再帰的に実行される、請求項41に記載のコンピュータ実装方法。
  48. 前記処理されたドキュメントの前記表現は、複数の前記チャンクのデータタイプおよびセマンティックロールラベルに対する注釈をさらに含み、前記セマンティックロールラベルは、前記チャンクによって果たされるセマンティックロールを記述する、請求項41に記載のコンピュータ実装方法。
  49. いくつかのより高いレベルのチャンクは、サブチャンクとして他のより低いレベルのチャンクを含み、前記処理されたドキュメントの前記表現は、より高いレベルのチャンクにおけるより低いレベルのチャンクの包含を指定する注釈をさらに含む、請求項41に記載のコンピュータ実装方法。
  50. いくつかのチャンクは階層関係を有し、前記処理されたドキュメントの前記表現は、チャンク間の階層関係を指定する注釈をさらに含む、請求項41に記載のコンピュータ実装方法。
  51. 前記処理されたドキュメントの前記表現における前記チャンクは、複数の異なるレベルにて、複数のセクション、見出し、リスト、項目、マーカ、および/または名前付きエンティティを含む、請求項41に記載のコンピュータ実装方法。
  52. 前記ドキュメントセット内の前記複数のドキュメントは、すべて同じドキュメントタイプである、請求項41に記載のコンピュータ実装方法。
  53. コンテンツおよび/またはレイアウトの類似性に基づいて、ドキュメントを前記ドキュメントセット内にクラスタ化することによって前記ドキュメントセットを組み立てること、をさらに含む、請求項41に記載のコンピュータ実装方法。
  54. 前記処理されたドキュメントの表現は、XMLフォーマットである、請求項41に記載のコンピュータ実装方法。
  55. 前記処理されたドキュメントの前記表現は、デジタル署名を使用して実装されるチャンクの位置に関する注釈をさらに含む、請求項41に記載のコンピュータ実装方法。
  56. 前記ドキュメントが元のレイアウトを有し、前記処理されたドキュメントの前記表現が、前記元のレイアウトで前記ドキュメントを再構築するのに十分な情報を含む、請求項41に記載のコンピュータ実装方法。
  57. 前記複数のソフトウェアアプリケーションは、ユーザが前記処理されたドキュメントの前記表現を作成、編集、および/またはレビューするためのユーザインターフェースを有するソフトウェアアプリケーションを含む、請求項41に記載のコンピュータ実装方法。
  58. 前記フォーマットは、標準化された公開されたフォーマットである、請求項41に記載のコンピュータ実装方法。
  59. ドキュメントを処理するための実行可能なコンピュータプログラム命令を格納する非一時的コンピュータ可読記憶媒体であって、前記コンピュータプログラム命令は、コンピュータシステムによって実行可能であり、前記コンピュータシステムに、
    複数のドキュメントを含むドキュメントセットを処理して、前記ドキュメント内のチャンクを識別し、対応する注釈を生成することであって、
    前記ドキュメントの画像を処理して、前記ドキュメントの前記画像の視覚的に異なる領域を含む視覚的チャンクを識別し、前記視覚的チャンクの間隔およびフォーマットを指定する第1の注釈を生成し、
    ビジュアルチャンクおよび第1の注釈を処理して、前記ビジュアルチャンク内の構造からのコンテンツを含む構造チャンクを識別し、前記構造チャンクのレイアウトを指定する第2の注釈を生成し、
    前記構造チャンクおよび第2の注釈を処理して、トピックに従って構造チャンク内のコンテンツのグループ化に基づいてトピックレベルのチャンクを識別し、前記トピックレベルのチャンクのトピックを指定する第3の注釈を生成し、
    前記トピックレベルのチャンクおよび第3の注釈を処理して、ドキュメントテンプレート内のフィールドとして使用するのに適したコンテンツを含むフィールドチャンクを識別し、前記フィールドチャンクの前記フィールドを指定する第4の注釈を生成する、
    ステージを含む、ことと、
    前記フィールドチャンクと、前記ドキュメントからの他の識別されたチャンクの少なくとも一部と、前記チャンクに対する対応する注釈と、を含むフォーマットにおいて、前記処理されたドキュメントの表現を生成することと
    ダウンストリームプロセスにおける複数のソフトウェアアプリケーションのいずれかによって使用するために利用可能なフォーマットの表現を作成することと、
    を含む方法を実行させる、非一時的コンピュータ可読記憶媒体。
  60. ドキュメントを処理するためのコンピュータシステムであって、
    複数のドキュメントを含むドキュメントセットを受信し格納する記憶媒体と、
    前記記憶媒体へのアクセスを有し、ドキュメントを処理するためのアプリケーションプログラムを実行するプロセッサシステムと、
    を含み、
    前記プロセッサシステムが、
    前記複数のドキュメントを処理して、前記ドキュメント内のチャンクを識別し、対応する注釈を生成することであって、
    前記ドキュメントの画像を処理して、前記ドキュメントの前記画像の視覚的に異なる領域を含む視覚的チャンクを識別し、前記視覚的チャンクの間隔およびフォーマットを指定する第1の注釈を生成し、
    ビジュアルチャンクおよび第1の注釈を処理して、前記ビジュアルチャンク内の構造からのコンテンツを含む構造チャンクを識別し、前記構造チャンクのレイアウトを指定する第2の注釈を生成し、
    前記構造チャンクおよび第2の注釈を処理して、トピックに従って構造チャンク内のコンテンツのグループ化に基づいてトピックレベルのチャンクを識別し、前記トピックレベルのチャンクのトピックを指定する第3の注釈を生成し、
    前記トピックレベルのチャンクおよび第3の注釈を処理して、ドキュメントテンプレート内のフィールドとして使用するのに適したコンテンツを含むフィールドチャンクを識別し、前記フィールドチャンクの前記フィールドを指定する第4の注釈を生成する、
    ステージを含む、ことと、
    前記フィールドチャンクと、前記ドキュメントからの他の識別されたチャンクの少なくとも一部と、前記チャンクに対する対応する注釈と、を含むフォーマットにおいて、前記処理されたドキュメントの表現を生成することと
    ダウンストリームプロセスにおける複数のソフトウェアアプリケーションのいずれかによって使用するために利用可能なフォーマットの表現を作成することと、
    を含む前記アプリケーションプログラムを実行する、
    前記コンピュータシステム。
  61. ユーザがドキュメントのセットに属するターゲットドキュメントを開発するのを支援するための命令を実行するコンピュータシステム上に実装された方法であって、
    複数のドキュメントを含むドキュメントセットにアクセスすることであって、前記ドキュメントセットは、前記ドキュメントセットの個々のドキュメント内のチャンクも識別し、前記チャンクのいくつかについてのデータタイプおよびセマンティックロールラベルも含み、前記セマンティックロールラベルは、それぞれのドキュメント内で前記チャンクによって果たされるセマンティックロールを記述する、ことと
    (a)前記ドキュメントセット内の前記ドキュメントにわたってチャンクによって果たされるセマンティックロールの発生の、および(b)前記ドキュメントセットにわたって異なるドキュメント内のカウンターパートチャンクの発生のパターンを導出することであって、カウンターパートチャンクは異なるドキュメントにおいて同じセマンティックロールを果たす、ことと、
    ユーザが前記ドキュメントのセットに属するターゲットドキュメントを開発するためのユーザインターフェースを提供することと、
    前記ドキュメントセットにわたる前記導出された発生のパターンに基づいて前記ターゲットドキュメントを開発するための提案を自動的に生成し、前記ユーザインターフェース内に前記提案を表示することと、
    を含む、コンピュータ実装方法。
  62. 前記発生のパターンを導出することは、前記発生のパターンを導出するために機械学習および/または人工知能を使用することを含む、請求項61に記載のコンピュータ実装方法。
  63. 前記ドキュメントセット内の前記複数のドキュメントは、すべて同じドキュメントタイプである、請求項61に記載のコンピュータ実装方法。
  64. 前記ドキュメントセット内の個々のドキュメント内のチャンクの発生のパターンを導出することをさらに含み、提案を自動的に生成することはさらに、そのような導出されたパターンに基づく、
    請求項61に記載のコンピュータ実装方法。
  65. 前記ドキュメントセット内の前記チャンクは、
    ドキュメントテンプレートにおけるフィールドとして使用するのに適した前記ドキュメント内のコンテンツを含むフィールドチャンクであって、前記フィールドチャンクのいくつかは階層的であり、サブチャンクとして他のチャンクを含む、フィールドチャンクと、
    前記ドキュメントのレイアウト内の構造からのコンテンツを含む構造チャンクであって、前記セマンティックロールラベルは、前記構造チャンクのいくつかに対するセマンティックロールラベルを含む、構造チャンクと
    画像または動画を含むチャンクと、
    を含む、請求項61に記載のコンピュータ実装方法。
  66. 前記ターゲットドキュメント内のチャンクを、前記ドキュメントセットにわたるセマンティックロールおよび/またはカウンターパートチャンクの前記導出された発生のパターンと比較することであって、いくつかの提案が前記比較に基づいて自動的に生成される、ことをさらに含む、請求項61に記載のコンピュータ実装方法。
  67. 前記ドキュメントセットにわたるセマンティックロールおよび/またはカウンターパートチャンクの前記導出された発生のパターンと比較して、前記ターゲットドキュメントにおけるセマンティックロールの発生における異常を識別することであって、少なくとも1つの提案が前記識別された異常に基づいて自動的に生成される、こと、
    をさらに含む、請求項61に記載のコンピュータ実装方法。
  68. 前記識別された異常は前記ターゲットドキュメント内にでは欠落しているが、前記ドキュメントセット内で一般的に発生している、セマンティックロールを識別することを含み、
    前記自動的に生成された提案は、前記欠落しているセマンティックロールに対するコンテンツを追加することを含む、請求項67に記載のコンピュータ実装方法。
  69. 前記識別された異常は、前記ターゲットドキュメント内で発生するが、前記ドキュメントセット内で一般的に発生しない、余分なセマンティックロールを識別することを含み、
    前記自動的に生成された提案は、前記余分なセマンティックロールについて対応するチャンクを除去または修正することを含む、請求項67に記載のコンピュータ実装方法。
  70. 前記識別された異常は、前記ターゲットドキュメント内で発生し、前記ドキュメントセット内でも一般的に発生しているセマンティックロールを識別することを含むが、前記ターゲットドキュメント内の対応するチャンクのコンテンツは、前記ドキュメントセット内の前記対応するチャンクのコンテンツと一致せず、
    前記自動的に生成された提案は前記ターゲットドキュメント内の前記一致しないコンテンツを除去または修正することを含む、請求項67に記載のコンピュータ実装方法。
  71. 前記識別されたチャンクはドキュメントテンプレートにおけるフィールドとして使用するのに適した前記ドキュメント内のコンテンツを含むフィールドチャンクを含み、
    前記導出されたパターンは、前記フィールドチャンクの1つについて、前記カウンターパートチャンクが同じコンテンツを実質的にすべて含むパターンを含み、
    少なくとも1つの自動的に生成された提案は、前記フィールドチャンクに対して、前記同じコンテンツを前記ターゲットドキュメントに入力することを含む、請求項61に記載のコンピュータ実装方法。
  72. 前記ユーザに提案を表示することは前記ユーザが前記提案を承諾するまたは拒否するためのオプションとともにいくつかの提案を表示することを含む、請求項61に記載のコンピュータ実装方法。
  73. (a)前記ユーザが前記ターゲットドキュメントに対する個々の提案を承諾したことに応答して、前記ターゲットドキュメントにおける前記承諾された提案の生成につながった前記ターゲットドキュメントにおける前記同じパターンを示す第2のターゲットドキュメントに対して前記同じ提案を繰り返すことと、
    (b)前記ユーザが前記ターゲットドキュメントに対する個々の提案を拒否することに応答して、前記ターゲットドキュメントにおける前記拒否された提案の生成につながった前記ターゲットドキュメントにおける前記同じパターンを示す第3のターゲットドキュメントに対して前記同じ提案を繰り返さないことと、
    の少なくとも一つをさらに含む、請求項61に記載のコンピュータ実装方法。
  74. いくつかの提案を自動的に適用することをさらに含み、前記ユーザに提案を表示することは前記自動的に適用された提案を前記ユーザが確認するためのオプションを表示することを含む、請求項61に記載のコンピュータ実装方法。
  75. 前記提案を表示することは前記ユーザインターフェース内の前記提案における信頼度によってランク付けされた順序で前記提案を表示することを含む、請求項61に記載のコンピュータ実装方法。
  76. 前記ターゲットドキュメント自体内のパターンに基づいて、および/または前記ドキュメントセットの外のドキュメント内のパターンに基づいて、前記ターゲットドキュメントに対する追加の提案を自動的に生成することであって、前記ターゲットドキュメント内のパターンに基づく、前記ドキュメントセット内のパターンに基づく、および前記ドキュメントセットの外のドキュメント内のパターンに基づく前記提案が、異なる優先度で前記ユーザインターフェース内に表示される、ことをさらに含む、請求項61に記載のコンピュータ実装方法。
  77. 前記自動的に生成された提案は前記ユーザおよび/または前記ユーザの所属にさらに依存する、請求項61に記載のコンピュータ実装方法。
  78. (a)前記ターゲットドキュメントが前記ユーザによって編集されている既存のドキュメントであり、前記自動的に生成された提案が前記既存のドキュメントを編集するための提案を含むこと、および(b)前記ターゲットドキュメントが前記ユーザによって作成されている新しいドキュメントであり、前記自動的に生成された提案が前記新しいドキュメントを作成するための提案を含むこと、の少なくとも1つである、請求項61に記載のコンピュータ実装方法。
  79. ユーザがドキュメントのセットに属するターゲットドキュメントを開発するのを支援するための実行可能なコンピュータプログラム命令を格納する非一時的コンピュータ可読記憶媒体であって、前記コンピュータプログラム命令は、コンピュータシステムによって実行可能であり、前記コンピュータシステムに、
    複数のドキュメントを含むドキュメントセットにアクセスすることであって、前記ドキュメントセットは、前記ドキュメントセットの個々のドキュメント内のチャンクも識別し、前記チャンクのいくつかについてのデータタイプおよびセマンティックロールラベルも含み、前記セマンティックロールラベルは、それぞれのドキュメント内で前記チャンクによって果たされるセマンティックロールを記述する、ことと
    (a)前記ドキュメントセット内の前記ドキュメントにわたってチャンクによって果たされるセマンティックロールの発生の、および(b)前記ドキュメントセットにわたって異なるドキュメント内のカウンターパートチャンクの発生のパターンを導出することであって、カウンターパートチャンクは異なるドキュメントにおいて同じセマンティックロールを果たす、ことと、
    ユーザが前記ドキュメントのセットに属するターゲットドキュメントを開発するためのユーザインターフェースを提供することと、
    前記ドキュメントセットにわたる前記導出されたチャンクのパターンに基づいて前記ターゲットドキュメントを開発するための提案を自動的に生成し、前記ユーザインターフェース内に前記提案を表示することと、
    を含む方法を実行させる、非一時的コンピュータ可読記憶媒体。
  80. ユーザがドキュメントのセットに属するターゲットドキュメントを開発するのを支援するためのコンピュータシステムであって、
    複数のドキュメントを含むドキュメントセットを受信し格納するための記憶媒体であって、前記ドキュメントセットは、前記ドキュメントセットの個々のドキュメント内のチャンクも識別し、前記チャンクのいくつかについてのデータタイプおよびセマンティックロールラベルも含み、前記セマンティックロールラベルは、それぞれのドキュメント内で前記チャンクによって果たされるセマンティックロールを記述する、記憶媒体と、
    前記記憶媒体へのアクセスを有し、前記ターゲットドキュメントを開発するためのアプリケーションプログラムを実行するプロセッサシステムと、
    を含み、
    前記プロセッサシステムが、
    (a)前記ドキュメントセット内の前記ドキュメントにわたってチャンクによって果たされるセマンティックロールの発生の、および(b)前記ドキュメントセットにわたって異なるドキュメント内のカウンターパートチャンクの発生のパターンを導出し、カウンターパートチャンクは異なるドキュメントにおいて同じセマンティックロールを果たし、
    ユーザが前記ドキュメントのセットに属するターゲットドキュメントを開発するためのユーザインターフェースを提供し、
    前記ドキュメントのセットにわたる前記導出されたチャンクのパターンに基づいて前記ターゲットドキュメントを開発するための提案を自動的に生成し、前記ユーザインターフェース内に前記提案を表示する、
    前記アプリケーションプログラムを実行する、
    コンピュータシステム。
  81. ユーザがドキュメントのセットをレビューするのを支援するための命令を実行するコンピュータシステム上に実装された方法であって、
    複数のドキュメントを含むドキュメントセットにアクセスすることであって、前記ドキュメントセットは、前記ドキュメントセットの個々のドキュメント内のチャンクも識別し、前記チャンクのいくつかについてのデータタイプおよびセマンティックロールラベルも含み、前記セマンティックロールラベルは、それぞれのドキュメント内で前記チャンクによって果たされるセマンティックロールを記述する、ことと
    (a)前記ドキュメントセット内の前記ドキュメントにわたってチャンクによって果たされるセマンティックロールの発生の、および(b)前記ドキュメントセットにわたって異なるドキュメント内のカウンターパートチャンクの発生のパターンを導出することであって、カウンターパートチャンクは異なるドキュメントにおいて同じセマンティックロールを果たす、ことと、
    前記ドキュメントセットにわたる前記導出された発生のパターンに基づいて、前記ドキュメントセット内の1つまたは複数のドキュメント内のコンテンツに関する情報を自動的に展開することと、ダウンストリームプロセスで使用するために前記情報を利用可能にすることと、
    を含む、コンピュータ実装方法。
  82. 前記発生のパターンを導出することは、前記発生のパターンを導出するために機械学習および/または人工知能を使用することを含む、請求項81に記載のコンピュータ実装方法。
  83. 前記ドキュメントセット内の前記チャンクは、
    ドキュメントテンプレートにおけるフィールドとして使用するのに適した前記ドキュメント内のコンテンツを含むフィールドチャンクであって、前記フィールドチャンクのいくつかは階層的であり、サブチャンクとして他のチャンクを含む、フィールドチャンクと
    前記ドキュメントのレイアウト内の構造からのコンテンツを含む構造チャンクであって、前記セマンティックロールラベルは、前記構造チャンクのいくつかに対するセマンティックロールラベルを含む、構造チャンクと
    画像または動画を含むチャンクと、
    を含む、請求項81に記載のコンピュータ実装方法。
  84. 前記情報は、前記ドキュメントセットからの個々のドキュメントから抽出されたコンテンツを含む、請求項81に記載のコンピュータ実装方法。
  85. 前記抽出されたコンテンツは、他のドキュメント内のチャンクに対するカウンターパートである前記個々のドキュメントからのチャンクの1つまたは複数の抜粋を含む、請求項84に記載のコンピュータ実装方法。
  86. 前記情報は、個々のドキュメントにおける特定のチャンクの発生または不発生の表示を含み、前記特定のチャンクは前記ドキュメントセットからの他のドキュメントにおいて発生するチャンクに対するカウンターパートである、請求項81に記載のコンピュータ実装方法。
  87. 前記情報は、前記個々のドキュメントの要約を含む、請求項81に記載のコンピュータ実装方法。
  88. 前記情報は、前記ドキュメントセット内の複数のドキュメントから抽出されたコンテンツを含む、請求項81に記載のコンピュータ実装方法。
  89. 前記情報は、前記ドキュメントセット内の複数のドキュメントから抽出されたチャンクを含み、前記情報はどのチャンクがカウンターパートであるかに従って編成される、請求項88に記載のコンピュータ実装方法。
  90. 前記情報は、前記ドキュメントセット内の前記ドキュメントにわたるカウンターパートチャンクの発生における異常の表示を含む、請求項88に記載のコンピュータ実装方法。
  91. 前記異常は、個々のドキュメント内にカウンターパートチャンクの不在を含み、前記情報は、前記カウンターパートチャンクが不在の個々のドキュメントへのナビゲーションを容易にするフォーマットにおいて利用可能にされる、請求項90に記載のコンピュータ実装方法。
  92. 前記異常は、個々のドキュメント内にカウンターパートチャンクの不在を含み、前記情報は、個々のドキュメント内にカウンターパートチャンクが不在であることを要約するフォーマットにおいて利用可能にされる、請求項90に記載のコンピュータ実装方法。
  93. 前記ダウンストリームプロセスは、ソフトウェアアプリケーションによって実装され、前記情報は、前記ソフトウェアアプリケーションによる使用に適したフォーマットにおいて利用可能にされる、請求項88に記載のコンピュータ実装方法。
  94. 前記情報は、前記ドキュメントセット内の前記複数のドキュメントから抽出された前記コンテンツを取り出すために前記ソフトウェアアプリケーションによって実行可能な1つまたは複数のプロセスの記述をさらに含む、請求項93に記載のコンピュータ実装方法。
  95. 前記ダウンストリームプロセスは、前記ドキュメントが事前定義された要件または方針の対象となるセマンティックロールを果たすチャンク内の前記コンテンツのコンプライアンスを検証することを含む、請求項88に記載のコンピュータ実装方法。
  96. 前記ダウンストリームプロセスは、人間によって理解可能なフォーマットにおいてレポートを生成することを含む、請求項81記載のコンピュータ実装方法。
  97. 前記ドキュメントセット内の前記ドキュメントの1つ内のチャンクのユーザ選択を受信することをさらに含み、
    前記ユーザ選択に応答して、前記レポートは、前記ユーザ選択されたチャンクに対するカウンターパートチャンクの発生または不発生を含む、
    請求項96に記載のコンピュータ実装方法。
  98. 前記レポートがいくつかのカウンターパートチャンクを欠いていることに応答して、前記欠けているカウンターパートチャンクの1つのユーザ選択を受信し、前記ユーザ選択に応答して、前記欠けているカウンターパートチャンクを追加するように前記レポートを更新すること、
    をさらに含む、請求項97に記載のコンピュータ実装方法。
  99. ユーザがドキュメントのセットをレビューするのを支援するための実行可能なコンピュータプログラム命令を格納する非一時的コンピュータ可読記憶媒体であって、前記コンピュータプログラム命令は、コンピュータシステムによって実行可能であり、前記コンピュータシステムに
    複数のドキュメントを含むドキュメントセットにアクセスすることであって、前記ドキュメントセットは、前記ドキュメントセットの個々のドキュメント内のチャンクも識別し、前記チャンクのいくつかについてのデータタイプおよびセマンティックロールラベルも含み、前記セマンティックロールラベルは、それぞれのドキュメント内で前記チャンクによって果たされるセマンティックロールを記述する、ことと
    (a)前記ドキュメントセット内の前記ドキュメントにわたってチャンクによって果たされるセマンティックロールの発生の、および(b)前記ドキュメントセットにわたって異なるドキュメント内のカウンターパートチャンクの発生のパターンを導出することであって、カウンターパートチャンクは異なるドキュメントにおいて同じセマンティックロールを果たす、ことと、
    前記ドキュメントセットにわたる前記導出された発生のパターンに基づいて、前記ドキュメントセット内の1つまたは複数のドキュメント内のコンテンツに関する情報を自動的に展開し、ダウンストリームプロセスで使用するために前記情報を利用可能にすることと、
    を含む、方法を実行させる、非一時的コンピュータ可読記憶媒体。
  100. ユーザがドキュメントのセットをレビューするのを支援するためのコンピュータシステムであって、
    複数のドキュメントを含むドキュメントセットを受信し格納するための記憶媒体であって、前記ドキュメントセットは、前記ドキュメントセットの個々のドキュメント内のチャンクも識別し、前記チャンクのいくつかについてのデータタイプおよびセマンティックロールラベルも含み、前記セマンティックロールラベルは、それぞれのドキュメント内で前記チャンクによって果たされるセマンティックロールを記述する、記憶媒体と、
    前記記憶媒体へのアクセスを有し、ユーザがドキュメントのセットをレビューするのを支援するためのアプリケーションプログラムを実行するプロセッサシステムと、
    を含み、
    前記プロセッサシステムが、
    (a)前記ドキュメントセット内の前記ドキュメントにわたってチャンクによって果たされるセマンティックロールの発生の、および(b)前記ドキュメントセットにわたって異なるドキュメント内のカウンターパートチャンクの発生のパターンを導出し、カウンターパートチャンクは異なるドキュメントにおいて同じセマンティックロールを果たし、
    前記ドキュメントセットにわたる前記導出された発生のパターンに基づいて、前記ドキュメントセット内の1つまたは複数のドキュメント内のコンテンツに関する情報を自動的に展開し、ダウンストリームプロセスにおいて使用するために前記情報を利用可能にする、
    前記アプリケーションプログラムを実行する、
    前記コンピュータシステム。
JP2022542307A 2019-09-16 2020-07-24 クロスドキュメントインテリジェントオーサリングおよび処理アシスタント Pending JP2022547750A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962900793P 2019-09-16 2019-09-16
US62/900,793 2019-09-16
PCT/US2020/043606 WO2021055102A1 (en) 2019-09-16 2020-07-24 Cross-document intelligent authoring and processing assistant

Publications (2)

Publication Number Publication Date
JP2022547750A true JP2022547750A (ja) 2022-11-15
JPWO2021055102A5 JPWO2021055102A5 (ja) 2023-08-01

Family

ID=74867926

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022542307A Pending JP2022547750A (ja) 2019-09-16 2020-07-24 クロスドキュメントインテリジェントオーサリングおよび処理アシスタント

Country Status (6)

Country Link
US (6) US11507740B2 (ja)
EP (1) EP4028961A4 (ja)
JP (1) JP2022547750A (ja)
KR (1) KR20220059526A (ja)
CN (1) CN114616572A (ja)
CA (1) CA3150535A1 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3460685A1 (en) * 2017-09-12 2019-03-27 Bricsys NV Improved semantic classification of an entity in a building information model
KR20220059526A (ko) * 2019-09-16 2022-05-10 도큐가미, 인크. 문서 간 지능형 저작 및 처리 보조기
US11875778B1 (en) * 2019-11-15 2024-01-16 Yahoo Assets Llc Systems and methods for voice rendering of machine-generated electronic messages
US11763071B2 (en) * 2020-01-06 2023-09-19 Catachi Co. Methods and systems for facilitating unifying of multiple regulatory documents
US20220092097A1 (en) * 2020-09-18 2022-03-24 Anurag Gupta Method for Extracting and Organizing Information from a Document
US20220156489A1 (en) * 2020-11-18 2022-05-19 Adobe Inc. Machine learning techniques for identifying logical sections in unstructured data
CN112435651B (zh) * 2020-11-20 2023-05-02 昆明学院 一种语音数据自动标注的质量评估方法
DE202022002902U1 (de) * 2021-02-17 2024-01-03 Applica sp. z o.o. Iteratives Training für einen Text-Bild-Layout-Transformer
US11594054B2 (en) 2021-02-19 2023-02-28 Capital One Services, Llc Document lineage management system
US11790568B2 (en) * 2021-03-29 2023-10-17 Kyndryl, Inc Image entity extraction and granular interactivity articulation
US11521639B1 (en) * 2021-04-02 2022-12-06 Asapp, Inc. Speech sentiment analysis using a speech sentiment classifier pretrained with pseudo sentiment labels
US20220358287A1 (en) * 2021-05-10 2022-11-10 International Business Machines Corporation Text mining based on document structure information extraction
US11755839B2 (en) * 2021-05-19 2023-09-12 International Business Machines Corporation Low resource named entity recognition for sensitive personal information
US20230017211A1 (en) * 2021-07-14 2023-01-19 Kpmg Llp System and method for implementing a medical records analytics platform
US11763803B1 (en) 2021-07-28 2023-09-19 Asapp, Inc. System, method, and computer program for extracting utterances corresponding to a user problem statement in a conversation between a human agent and a user
CN113505201A (zh) * 2021-07-29 2021-10-15 宁波薄言信息技术有限公司 一种基于SegaBert预训练模型的合同抽取方法
US11941147B2 (en) * 2021-08-31 2024-03-26 Box, Inc. Detection of personally identifiable information
US11657078B2 (en) 2021-10-14 2023-05-23 Fmr Llc Automatic identification of document sections to generate a searchable data structure
US11361151B1 (en) 2021-10-18 2022-06-14 BriefCatch LLC Methods and systems for intelligent editing of legal documents
WO2024072483A2 (en) * 2022-04-12 2024-04-04 The Trustees Of Dartmouth College Processing architecture for fundamental symbolic logic operations and method for employing the same
US11907643B2 (en) * 2022-04-29 2024-02-20 Adobe Inc. Dynamic persona-based document navigation
US20230350954A1 (en) * 2022-05-02 2023-11-02 SparkCognition, Inc. Systems and methods of filtering topics using parts of speech tagging
JP2023166252A (ja) * 2022-05-09 2023-11-21 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
US11853335B1 (en) 2022-06-13 2023-12-26 International Business Machines Corporation Cooperative build and content annotation for conversational design of virtual assistants

Family Cites Families (100)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69616093D1 (de) 1996-07-03 2001-11-22 Sopheon N V System zum unterstützen der produktion von dokumenten
US6076051A (en) 1997-03-07 2000-06-13 Microsoft Corporation Information retrieval utilizing semantic representation of text
US7287219B1 (en) 1999-03-11 2007-10-23 Abode Systems Incorporated Method of constructing a document type definition from a set of structured electronic documents
US6924828B1 (en) * 1999-04-27 2005-08-02 Surfnotes Method and apparatus for improved information representation
US20020002481A1 (en) 2000-05-16 2002-01-03 Hirokazu Uchio Information processing apparatus for management of documents relevant to patent application
AU2001286689A1 (en) * 2000-08-24 2002-03-04 Science Applications International Corporation Word sense disambiguation
WO2003012661A1 (en) * 2001-07-31 2003-02-13 Invention Machine Corporation Computer based summarization of natural language documents
US9009590B2 (en) * 2001-07-31 2015-04-14 Invention Machines Corporation Semantic processor for recognition of cause-effect relations in natural language documents
US20040001099A1 (en) * 2002-06-27 2004-01-01 Microsoft Corporation Method and system for associating actions with semantic labels in electronic documents
US7523394B2 (en) 2002-06-28 2009-04-21 Microsoft Corporation Word-processing document stored in a single XML file that may be manipulated by applications that understand XML
US20050027664A1 (en) * 2003-07-31 2005-02-03 Johnson David E. Interactive machine learning system for automated annotation of information in text
US20050060643A1 (en) 2003-08-25 2005-03-17 Miavia, Inc. Document similarity detection and classification system
US20050060140A1 (en) 2003-09-15 2005-03-17 Maddox Paul Christopher Using semantic feature structures for document comparisons
US20050108630A1 (en) 2003-11-19 2005-05-19 Wasson Mark D. Extraction of facts from text
US7742911B2 (en) 2004-10-12 2010-06-22 At&T Intellectual Property Ii, L.P. Apparatus and method for spoken language understanding by using semantic role labeling
US8719700B2 (en) * 2010-05-04 2014-05-06 Xerox Corporation Matching a page layout for each page of a document to a page template candidate from a list of page layout candidates
WO2006096260A2 (en) 2005-01-31 2006-09-14 Musgrove Technology Enterprises, Llc System and method for generating an interlinked taxonomy structure
US7606781B2 (en) 2005-03-30 2009-10-20 Primal Fusion Inc. System, method and computer program for facet analysis
US8249344B2 (en) 2005-07-01 2012-08-21 Microsoft Corporation Grammatical parsing of document visual structures
US8176004B2 (en) 2005-10-24 2012-05-08 Capsilon Corporation Systems and methods for intelligent paperless document management
US20070150802A1 (en) 2005-12-12 2007-06-28 Canon Information Systems Research Australia Pty. Ltd. Document annotation and interface
US7788579B2 (en) * 2006-03-06 2010-08-31 Ricoh Co., Ltd. Automated document layout design
US20080008391A1 (en) 2006-07-10 2008-01-10 Amir Geva Method and System for Document Form Recognition
US9495358B2 (en) * 2006-10-10 2016-11-15 Abbyy Infopoisk Llc Cross-language text clustering
US8738359B2 (en) 2006-10-18 2014-05-27 Honda Motor Co., Ltd. Scalable knowledge extraction
US8671341B1 (en) * 2007-01-05 2014-03-11 Linguastat, Inc. Systems and methods for identifying claims associated with electronic text
US7778953B2 (en) 2007-02-19 2010-08-17 Kabushiki Kaisha Toshiba Document management apparatus and document management method
US8180633B2 (en) 2007-03-08 2012-05-15 Nec Laboratories America, Inc. Fast semantic extraction using a neural network architecture
US8209278B1 (en) 2007-03-23 2012-06-26 Jay Bradley Straus Computer editing system for common textual patterns in legal documents
WO2008132706A1 (en) * 2007-04-26 2008-11-06 Markport Limited A web browsing method and system
US8527262B2 (en) 2007-06-22 2013-09-03 International Business Machines Corporation Systems and methods for automatic semantic role labeling of high morphological text for natural language processing applications
US8442923B2 (en) 2007-08-14 2013-05-14 John Nicholas Gross Temporal document trainer and method
EP2185999A4 (en) * 2007-08-31 2011-11-02 Microsoft Corp SUBJECT OF SEARCH RESULTS BY MEANING OF TERM
US8229730B2 (en) 2007-08-31 2012-07-24 Microsoft Corporation Indexing role hierarchies for words in a search index
US8280885B2 (en) 2007-10-29 2012-10-02 Cornell University System and method for automatically summarizing fine-grained opinions in digital text
US8392436B2 (en) * 2008-02-07 2013-03-05 Nec Laboratories America, Inc. Semantic search via role labeling
US8145632B2 (en) 2008-02-22 2012-03-27 Tigerlogic Corporation Systems and methods of identifying chunks within multiple documents
US8196030B1 (en) 2008-06-02 2012-06-05 Pricewaterhousecoopers Llp System and method for comparing and reviewing documents
US8286132B2 (en) * 2008-09-25 2012-10-09 International Business Machines Corporation Comparing and merging structured documents syntactically and semantically
US8214734B2 (en) 2008-10-09 2012-07-03 International Business Machines Corporation Credibility of text analysis engine performance evaluation by rating reference content
US20100153318A1 (en) 2008-11-19 2010-06-17 Massachusetts Institute Of Technology Methods and systems for automatically summarizing semantic properties from documents with freeform textual annotations
US8473467B2 (en) * 2009-01-02 2013-06-25 Apple Inc. Content profiling to dynamically configure content processing
US9262395B1 (en) * 2009-02-11 2016-02-16 Guangsheng Zhang System, methods, and data structure for quantitative assessment of symbolic associations
US8335754B2 (en) 2009-03-06 2012-12-18 Tagged, Inc. Representing a document using a semantic structure
US8862579B2 (en) * 2009-04-15 2014-10-14 Vcvc Iii Llc Search and search optimization using a pattern of a location identifier
JP5340847B2 (ja) 2009-07-27 2013-11-13 株式会社日立ソリューションズ 文書データ処理装置
JP5477635B2 (ja) * 2010-02-15 2014-04-23 ソニー株式会社 情報処理装置および方法、並びにプログラム
US8805840B1 (en) * 2010-03-23 2014-08-12 Firstrain, Inc. Classification of documents
US9129300B2 (en) * 2010-04-21 2015-09-08 Yahoo! Inc. Using external sources for sponsored search AD selection
US9594730B2 (en) 2010-07-01 2017-03-14 Yahoo! Inc. Annotating HTML segments with functional labels
US20150112664A1 (en) * 2010-12-09 2015-04-23 Rage Frameworks, Inc. System and method for generating a tractable semantic network for a concept
US8818932B2 (en) 2011-02-14 2014-08-26 Decisive Analytics Corporation Method and apparatus for creating a predictive model
US10303999B2 (en) * 2011-02-22 2019-05-28 Refinitiv Us Organization Llc Machine learning-based relationship association and related discovery and search engines
US8543577B1 (en) * 2011-03-02 2013-09-24 Google Inc. Cross-channel clusters of information
US8719692B2 (en) 2011-03-11 2014-05-06 Microsoft Corporation Validation, rejection, and modification of automatically generated document annotations
US20120296637A1 (en) 2011-05-20 2012-11-22 Smiley Edwin Lee Method and apparatus for calculating topical categorization of electronic documents in a collection
US8606780B2 (en) 2011-07-08 2013-12-10 Microsoft Corporation Image re-rank based on image annotations
US8488916B2 (en) 2011-07-22 2013-07-16 David S Terman Knowledge acquisition nexus for facilitating concept capture and promoting time on task
US9280525B2 (en) * 2011-09-06 2016-03-08 Go Daddy Operating Company, LLC Method and apparatus for forming a structured document from unstructured information
DK2639749T3 (en) 2012-03-15 2017-02-27 Cortical Io Gmbh Methods, apparatus and products for semantic processing of text
US9008443B2 (en) * 2012-06-22 2015-04-14 Xerox Corporation System and method for identifying regular geometric structures in document pages
US20150100877A1 (en) * 2012-06-29 2015-04-09 Yahoo! Inc. Method or system for automated extraction of hyper-local events from one or more web pages
US9280520B2 (en) 2012-08-02 2016-03-08 American Express Travel Related Services Company, Inc. Systems and methods for semantic information retrieval
US9582494B2 (en) 2013-02-22 2017-02-28 Altilia S.R.L. Object extraction from presentation-oriented documents using a semantic and spatial approach
US20140324808A1 (en) 2013-03-15 2014-10-30 Sumeet Sandhu Semantic Segmentation and Tagging and Advanced User Interface to Improve Patent Search and Analysis
US9922102B2 (en) 2013-07-31 2018-03-20 Splunk Inc. Templates for defining fields in machine data
GB2517976A (en) * 2013-09-09 2015-03-11 Ibm Business rule management system
US9058374B2 (en) 2013-09-26 2015-06-16 International Business Machines Corporation Concept driven automatic section identification
WO2015048275A2 (en) 2013-09-26 2015-04-02 Polis Technology Inc. System and methods for real-time formation of groups and decentralized decision making
US20150134321A1 (en) * 2013-11-08 2015-05-14 Thomas Fennell System and method for translating text
US9396763B2 (en) 2013-11-15 2016-07-19 Clipmine, Inc. Computer-assisted collaborative tagging of video content for indexing and table of contents generation
US10424016B2 (en) * 2013-12-19 2019-09-24 International Business Machines Corporation Modeling asset transfer flow relationships discovered in unstructured data
AU2015201364A1 (en) * 2014-03-17 2015-10-01 Accenture Global Services Limited Generating a semantic network based on semantic connections between subject-verb-object units
US10140578B1 (en) * 2014-03-17 2018-11-27 Intuit Inc. System and method for managing social-based questions and answers
US9477654B2 (en) 2014-04-01 2016-10-25 Microsoft Corporation Convolutional latent semantic models and their applications
US9760626B2 (en) * 2014-09-05 2017-09-12 International Business Machines Corporation Optimizing parsing outcomes of documents
US10325511B2 (en) 2015-01-30 2019-06-18 Conduent Business Services, Llc Method and system to attribute metadata to preexisting documents
US10733256B2 (en) 2015-02-10 2020-08-04 Researchgate Gmbh Online publication system and method
US20160267165A1 (en) * 2015-03-14 2016-09-15 Hui Wang Automated Key Words (Phrases) Discovery In Document Stacks And Its Application To Document Classification, Aggregation, and Summarization
US9940681B2 (en) * 2015-09-01 2018-04-10 International Business Machines Corporation Predictive approach to contract management
US10504010B2 (en) * 2015-10-02 2019-12-10 Baidu Usa Llc Systems and methods for fast novel visual concept learning from sentence descriptions of images
US9760556B1 (en) 2015-12-11 2017-09-12 Palantir Technologies Inc. Systems and methods for annotating and linking electronic documents
US10755804B2 (en) 2016-08-10 2020-08-25 Talix, Inc. Health information system for searching, analyzing and annotating patient data
JP2018045664A (ja) 2016-09-16 2018-03-22 株式会社リコー 利用量管理装置、利用量管理方法、利用量管理プログラム、及び、利用量管理システム
US20180150768A1 (en) * 2016-11-30 2018-05-31 Gluru Limited Automated generation of natural language task/expectation descriptions
US10380228B2 (en) * 2017-02-10 2019-08-13 Microsoft Technology Licensing, Llc Output generation based on semantic expressions
US11416956B2 (en) 2017-03-15 2022-08-16 Coupa Software Incorporated Machine evaluation of contract terms
US20180300315A1 (en) 2017-04-14 2018-10-18 Novabase Business Solutions, S.A. Systems and methods for document processing using machine learning
US10540440B2 (en) * 2017-06-05 2020-01-21 International Business Machines Corporation Relation extraction using Q and A
JP7187545B2 (ja) * 2017-09-28 2022-12-12 オラクル・インターナショナル・コーポレイション 名前付きエンティティの構文解析および識別に基づくクロスドキュメントの修辞的つながりの判断
EP3462331B1 (en) 2017-09-29 2021-08-04 Tata Consultancy Services Limited Automated cognitive processing of source agnostic data
US20190102697A1 (en) * 2017-10-02 2019-04-04 International Business Machines Corporation Creating machine learning models from structured intelligence databases
US10838996B2 (en) 2018-03-15 2020-11-17 International Business Machines Corporation Document revision change summarization
US10650186B2 (en) * 2018-06-08 2020-05-12 Handycontract, LLC Device, system and method for displaying sectioned documents
US10891316B2 (en) 2018-07-02 2021-01-12 Salesforce.Com, Inc. Identifying homogenous clusters
US11232132B2 (en) * 2018-11-30 2022-01-25 Wipro Limited Method, device, and system for clustering document objects based on information content
US20200311123A1 (en) 2019-03-28 2020-10-01 Wipro Limited Method and a system for multimodal search key based multimedia content extraction
US10614345B1 (en) 2019-04-12 2020-04-07 Ernst & Young U.S. Llp Machine learning based extraction of partition objects from electronic documents
WO2021055102A1 (en) * 2019-09-16 2021-03-25 Docugami, Inc. Cross-document intelligent authoring and processing assistant
KR20220059526A (ko) 2019-09-16 2022-05-10 도큐가미, 인크. 문서 간 지능형 저작 및 처리 보조기

Also Published As

Publication number Publication date
CN114616572A (zh) 2022-06-10
US11960832B2 (en) 2024-04-16
US11392763B2 (en) 2022-07-19
US11507740B2 (en) 2022-11-22
CA3150535A1 (en) 2021-03-25
US20220245335A1 (en) 2022-08-04
US11816428B2 (en) 2023-11-14
US20210081608A1 (en) 2021-03-18
US20210081411A1 (en) 2021-03-18
US11514238B2 (en) 2022-11-29
US20210081601A1 (en) 2021-03-18
US20210081613A1 (en) 2021-03-18
EP4028961A1 (en) 2022-07-20
US20210081602A1 (en) 2021-03-18
KR20220059526A (ko) 2022-05-10
US11822880B2 (en) 2023-11-21
EP4028961A4 (en) 2023-10-18

Similar Documents

Publication Publication Date Title
US11960832B2 (en) Cross-document intelligent authoring and processing, with arbitration for semantically-annotated documents
US11321364B2 (en) System and method for analysis and determination of relationships from a variety of data sources
US10558746B2 (en) Automated cognitive processing of source agnostic data
US9678949B2 (en) Vital text analytics system for the enhancement of requirements engineering documents and other documents
US20190006027A1 (en) Automatic identification and extraction of medical conditions and evidences from electronic health records
WO2021055102A1 (en) Cross-document intelligent authoring and processing assistant
EP4085353A1 (en) System and method for analysis and determination of relationships from a variety of data sources
US11120215B2 (en) Identifying spans using visual recognition
RU61442U1 (ru) Система автоматизированного упорядочения неструктурированного информационного потока входных данных
Nundloll et al. Automating the extraction of information from a historical text and building a linked data model for the domain of ecology and conservation science
US20240012809A1 (en) Artificial intelligence system for translation-less similarity analysis in multi-language contexts
Gessler et al. Midas loop: A prioritized human-in-the-loop annotation for large scale multilayer data
RU2571407C1 (ru) Способ формирования карты связей компонентов преобразованного структурированного массива данных
US11868313B1 (en) Apparatus and method for generating an article
Hao et al. A user-oriented semantic annotation approach to knowledge acquisition and conversion
US20230170099A1 (en) Pharmaceutical process
Hanafi Human-in-the-loop Tools for Constructing and Debugging Data Extraction Pipelines
Miloševic A multi-layered approach to information extraction from tables in biomedical documents
Ashish et al. Machine reading of biomedical data dictionaries
Özkan Çelik et al. Structured abstract generator (SAG) model: analysis of IMRAD structure of articles and its effect on extractive summarization
Sefid Automatic Summarization and Slide Generation for Scientific Papers
Dawson et al. The Role of Unstructured Data in Healthcare Analytics
Miloševic et al. Table mining and data curation from biomedical literature
Klügl Context-specific consistencies in information extraction
Rosner Electronic language resources for Maltese

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230724

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230724

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20230724

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231121

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20240221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240422