JP2023509437A - 様々なデータソースから関係を分析し特定するためのシステムおよび方法 - Google Patents

様々なデータソースから関係を分析し特定するためのシステムおよび方法 Download PDF

Info

Publication number
JP2023509437A
JP2023509437A JP2022540899A JP2022540899A JP2023509437A JP 2023509437 A JP2023509437 A JP 2023509437A JP 2022540899 A JP2022540899 A JP 2022540899A JP 2022540899 A JP2022540899 A JP 2022540899A JP 2023509437 A JP2023509437 A JP 2023509437A
Authority
JP
Japan
Prior art keywords
data
model
documents
lume
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022540899A
Other languages
English (en)
Inventor
リー,ジョン・ヒョン
ガードナー,ジェームズ・ジョンソン
エドワーズ,ジャスティン
ヴォーサンジャー,グレゴリー・アレクサンダー
スクリプカ,デービッド・アンソニー
ワーグナー-カイザー,レイチェル・エイ
Original Assignee
ケイピーエムジー・エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US16/730,131 external-priority patent/US11321364B2/en
Application filed by ケイピーエムジー・エルエルシー filed Critical ケイピーエムジー・エルエルシー
Publication of JP2023509437A publication Critical patent/JP2023509437A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/123Storage facilities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/131Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本発明は、様々なデータソースからのデータを分析するためのコンピュータ実装されたシステムおよび方法に関する。システムおよび方法の実施形態は、分析されたデータに基づいて具体的な質問に対する応答を生成することをさらに提供し、生成することは、分析されたデータに関連付けられた関連文書を検索することと、検索された関連文書のどれからどの情報が報告されるべきかを判定することと、判定および関連文書に関連付けられたグラフスキーマに基づいて応答を提供することとを含む。【選択図】図1

Description

関連出願の相互参照
[0001]本出願は、2018年10月12日に出願された米国特許出願第16/159,088号の一部継続出願であり、その出願日の利益を主張し、それは、2017年10月13日に出願された米国仮特許出願第62/572,266号の出願日の利益を主張し、その全体を参照によりその中に組み込む。
[0002]本発明は、様々なデータソースからのデータを分析し、分析されたデータに基づいて具体的な質問への応答を生成するためのシステムおよび方法に関する。
[0003]機械学習、自然言語処理、データ分析、モバイルコンピューティング、およびクラウドコンピューティングにおける進歩が、様々な組合せで使用されていくつかのプロセスおよび機能を置き換えるにつれて、作業のデジタル化が進行し続けている。基本的なプロセス自動化は、解決策が比較的低いコストで設計、検査、および実装され得るので、大幅なIT投資なしに実装することができる。強化されたプロセス自動化は、データの使用が機械学習の要素をサポートすることを可能にする、より高度な技術を組み込む。データ内の自然発生パターンを発見し、結果を予測するために、機械学習ツールを使用することができる。そして、文脈内のテキストを分析し、所望の情報を抽出するために、自然言語処理ツールが使用される。
[0004]しかしながら、そのようなデジタルツールは、概して、様々なフォーマットおよびコーディング言語で見つかり、したがって、統合することが困難であり、またあまり頻繁にカスタマイズされない。結果として、そのようなシステムは、分析を必要とし、様々なタイプの入力データ、たとえば、構造化データ、半構造化データ、非構造化データ、ならびに画像および音声を処理する、具体的な質問に対する自動化された解決策または回答を提供することができない。たとえば、そのようなシステムは、現在、「これら500個の契約のうちのどれが新しい銀行規制XYZに準拠できていないか?」などの質問に効率的に対処することができない。
[0005]したがって、既知のシステムの前述の欠点を克服する可能性があり、文書、通信文、テキストファイル、ウェブサイト、ならびに他の構造化入力ファイルおよび非構造化入力ファイルを分析して、具体的な質問に対する回答の形態の出力および他のサポート情報を生成するために、自動化およびカスタマイズされた分析を適用する可能性があるシステムおよび方法を有することが望ましい。
[0006]一実施形態によれば、本発明は、様々なデータソースからのデータを分析するためのコンピュータ実装されたシステムおよび方法に関する。方法は、入力として、様々なデータソースからデータを受信するステップと、様々なデータソースの各々からの受信データを共通データ構造に変換するステップと、受信データ内のキーワードを識別するステップと、文書コーパスに基づいて文または単語の埋め込みを生成するステップと、生成された文または単語の埋め込みに基づいて1つまたは複数のラベルの選択を受信するステップと、選択された1つまたは複数のラベルをモデルに追加するステップと、構成ファイルに基づいて共通データ構造にわたってモデルを訓練するステップと、モデルに基づいてユーザの質問に応答する結果を生成するステップとを含んでもよく、生成するステップは、受信データから関連文書を検索するステップと、検索された関連文書のどれからどの情報が報告されるべきかを判定するステップと、判定および関連文書に関連付けられたグラフスキーマに基づいて結果を提供するステップとを含む。
[0007]本発明はまた、様々なデータソースからのデータを分析するためのコンピュータ実装されたシステムに関する。
[0008]例示的な文書管理ワークフローは、文書の取込み、予測、統合、および分析のための重要なタスクをシームレスに統合する。ワークフローにより、ユーザが文書(たとえば、契約書)に関する具体的な質問に回答し、知識ベースを構築するために他の文書との関係をモデル化することが可能になる。具体的には、各ステップ(たとえば、取込み、予測、統合、および分析)は、ユーザによって必要とされる最小の努力または変更で構成可能なエンドツーエンドワークフローに統合される。文書からの情報の分析および抽出を可能にするために、各ステップは前のステップの上に構築される。この点に関して、他の文書管理フレームワークは、ワークフロー全体をまとめるために、通常、かなりの量の「グルーコード」(たとえば、特定のプロジェクト用にカスタムメイドされたコード)を必要とする。一方、本発明では、ユーザは、コードを書き直す必要なしに、様々なプロジェクトに対して容易に再利用可能な例示的なプロセスを作って各ステップを構成することができる。
[0009]さらに、一実施形態によれば、例示的なワークフローは、たとえば、プロセスを具体的な問題/ユースケースにマッピングすることにより、様々なタイプの文書分析問題を扱うことができる。問題は、様々な領域、たとえば、条項/規制順守、調達契約、商業上の漏洩、契約リスク分析などに起因する可能性がある。さらに、例示的なフレームワークは柔軟であり、ユーザがビジネスロジックルール、後処理、および品質評価タスクをカスタマイズし、それらをビジネスユースケースおよび特定のユーザの具体的なニーズに適応させることを可能にする。言い換えれば、例示的なプロセスは、標準の柔軟性がないフレームワークに問題を適合させるように試みるのではなく、文書分析問題に適合することである。さらに、例示的なワークフローの各パート(たとえば、文書処理、特徴生成、モデルアーキテクチャ、品質評価、後処理、および契約書統合)は、多くの具体的な問題をカバーすることができるデフォルトの構成に関連付けることができる。しかしながら、これらのデフォルトの構成は、新しいかまたは独特の質問に対処するように容易に修正することができる。加えて、Lumeデータ構造は、例示的なプロセス全体を通してデータおよびメタデータを永続させ、それにより、統一された学習モデルが可能になる。さらに、プロセスが完全に統合されるので、文書(たとえば、契約書)およびそれらの対応する随伴文書は、知識を抽出し、文書内の内容に関する具体的な質問に回答するために処理することができる。さらに、例示的なプロセスは、グラフベースの推論フレームワークを使用して複数の文書にわたる情報を分解することができる。たとえば、ビジネスロジックレイヤは、どのように文書ファミリが結合されるかを対象分野の専門家が指定することを可能にすることができる。さらに、グラフベースの推論フレームワークは、相反する条項の処置を指定することができる。加えて、推論はまた、文書ファミリレベルまたは個別文書レベルで行うことができる。
[0010]さらに、本発明はまた、交換可能なモデルアーキテクチャを提供し、それらは、最小限の人との対話で特定の条項を抽出するための最適なモデルフレームワークを見つけるために切り替えることができる。フレームワーク固有の言語は、デフォルトの構成またはカスタマイズされた構成に含めることができる。さらに、フレームワーク固有の特徴は、知識ベースを介して利用可能にすることができる。加えて、特定の問題に対する極めて効果的なデフォルトオプションは、ユーザによる構成を最小化する。さらに、交換可能なモデルアーキテクチャは、非専門家によって使用され得るカスタマイズされた構成ファイルを介して取り換えることができる、シーケンスラベル付け、分類、および深層学習モデルに対するサポートを提供する。
[0011]さらに、一実施形態によれば、本発明では、対象分野の専門知識は、解決策全体の中に符号化することができる。たとえば、本発明は、機械学習の出力を強化するために複雑な手動タスクの完了をデジタル化することができる。さらに、後処理は、顧客の仕様に基づいて高信頼回答をクリアまたは再フォーマットするために適用されてもよい。加えて、後処理はまた、対象分野の専門知識を活用して、文書からの複数の情報に依存する質問に対する下流の回答を生成することができる。さらに、高信頼回答が顧客の仕様に準拠することを保証するために、品質評価ステップが追加される。
[0012]さらに、一実施形態によれば、本発明はまた、豊富な高品質の訓練および検査のデータセットの開発を実現する。たとえば、本発明は、データのラベル付けにおいてキュレートされた対象分野の専門知識を提供する。さらに、本発明は、検索、テキスト類似性、およびクラスタリング技法を活用して、高性能モデルを製造する際に、より効率的かつ効果的なラベル付けされた代表的かつ多様なデータセットを得る。加えて、データセットはまた、フレームワーク固有の知識ベースからの情報を組み込むことができる。さらに、本発明はまた、当該の固有領域をより良く表すために、カスタム単語埋め込みの作成を実現する。さらに、統一された学習モデルまたは能動学習モデルのうちの少なくとも1つは、特定の文書情報をラベル付けするために活用することができる。最後に、例示的なフレームワークからの固有のモデルおよび結果は、サードパーティストレージデバイスに格納することができる。
[0013]これらおよび他の利点は、以下の発明を実施するための形態においてより完全に記載される。
[0014]本発明のより完全な理解を容易にするために、ここで、添付図面に対して参照が行われる。図面は、本発明を限定するものと解釈されるべきでなく、本発明の異なる態様および実施形態を示すことのみが意図される。
本発明の例示的な実施形態による、分析システムについての機能ブロック図である。 本発明の例示的な実施形態による、分析システムのアーキテクチャの図である。 本発明の例示的な実施形態による、本明細書ではLumeと呼ばれる変換ファイル用の標準データフォーマットの図である。 本発明の例示的な実施形態による、Lume構造の一例および例示的なレベルを描写する図面である。 図4Aに描写されたメタデータを有する文書の拡大図である。 本発明の例示的な実施形態による、Microsoft Word(登録商標)文書からのLume作成プロセスを描写する図面である。 本発明の例示的な実施形態による、Microsoft Word(登録商標)およびテキストファイルのディレクトリからのデータセット作成プロセスを描写する図面である。 本発明の例示的な実施形態による、分析システムについてのフロー図である。 本発明の例示的な実施形態による、分析システムによって取り込まれ分析されるべき文書の一例を示す図である。 本発明の例示的な実施形態による、表に示された表現文字列として提示された表現の一例の図である。 本発明の例示的な実施形態による、予測回答の形態の知的領域エンジンからの出力の一例の図である。 本発明の例示的な実施形態による、回答に対する支持および理由の形態の知的領域エンジンからの出力の一例の図である。 本発明の例示的な実施形態による、分析システムのシステム図である。 本発明の例示的な実施形態による、分析システムについてのフロー図である。 本発明の例示的な実施形態による、図13に描写された注釈ステップのフロー図である。 本発明の例示的な実施形態による、図13に描写された能動学習ステップについてのアーキテクチャ図である。 本発明の例示的な実施形態による、図13に描写された能動学習ステップについてのワークフロー図である。 本発明の例示的な実施形態による、図13に描写された機械学習ステップの図である。 本発明の例示的な実施形態による、図13に描写された統合ステップの図である。 本発明の例示的な実施形態による、複数の文書を表すグラフスキーマを描写する図である。
[0035]ここで、本発明の様々な特徴を示すために、本発明の例示的な実施形態が記載される。本明細書に記載される実施形態は、本発明の範囲に関して限定するものではなく、むしろ本発明の構成要素、使用、および動作の例を提供するものである。
[0036]一実施形態によれば、本発明は、構造化データおよび非構造化データの分析のための自動化されたシステムおよび方法に関する。(本明細書では「システム」と呼ばれることがある)分析システムは、人工知能領域の専門知識および関連技術の構成要素を含む、人工知能機能のポートフォリオを含んでもよい。システムは、文書取込みおよび光学式文字認識(OCR)、たとえば、文書を取り込み、分析を行うために機械によって読取り可能なフォーマットに文書を変換する能力などの基本機能を含んでもよい。好ましい実施形態によれば、システムはまた、システムが明示的にプログラムされずに(教師付きおよび教師なしで)学習するための能力を与える機械学習構成要素と、データにおける高水準抽象化をモデル化する深層学習構成要素と、自然言語処理(NLP)および生成、たとえば、人間の言葉またはテキストを理解し、テキストまたは言葉を生成する機能とを含む。
[0037]システムはまた、構造化データ(たとえば、取引システムデータおよびMicrosoft Excel(登録商標)ファイルなどの列および行で編成されたデータ)と、半構造化データ(たとえば、認識されたデータ構造に格納されず、フォームなどの何らかのタイプのタブまたはフォーマッティングをまだ含んでいるテキスト)と、非構造化データ(たとえば、契約書、ツイート、およびポリシー文書などの、認識されたデータ構造に格納されていないテキスト)と、画像および音声(たとえば、物理的対象の写真または他の視覚描写および人間の音声データ)とを含む、様々なタイプの入力データを取り込み、処理するように設計することができる。
[0038]システムは、構造化データおよび非構造化データの急速に成長する本体を作成する文書、通信文、およびウェブサイトを取り込み、理解し、分析するように導入することができる。一実施形態によれば、システムは、(a)台本、税申告書、通信文、会計報告、および同様の文書ならびに入力ファイルを読み取り、(b)情報を抽出し、構造化ファイルに情報を取り込み、(c)ポリシー、規則、規制、および/またはビジネス目的の文脈で情報を評価し、(d)質問に回答し、洞察をもたらし、情報内のパターンおよび例外を識別するように設計されてもよい。システムは、対象分野の専門知識を取り込み、格納し、自然言語処理(NLP)を使用して文書を取り込み、取り出し、分類し、高度機械学習および人工知能方法を組み込み、諮問および顧客のステークホルダとの協力的で反復型の改良を利用する。
[0039]システムが回答することができる質問の例には、たとえば、どの文書がある特定のポリシーまたは規制を順守するか、どの資産が最もリスクを伴うか、どの請求が介入を保証するか、どの取引先が縮小を受ける可能性が高い/低いか、どの顧客が成長/縮小する財源および市場占有率を有するか、ならびにどの文章が傾向または意味の変化に遭遇しているかが含まれてもよい。システムが分析することができるポリシーまたは規則の例には、たとえば、いくつか例を挙げると、新しい規制、会計基準、収益目標、拡大するプロジェクト対希薄化するプロジェクトの識別、信用リスクの評価、資産選択、ポートフォリオのリバランス、または示談結果が含まれてもよい。システムが分析することができる文書の例には、たとえば、適法契約書、融資文書、有価証券目論見書、会社財務申告書、デリバティブ裏書および原本、保険証書、保険金請求書、カスタマサービス記録、ならびに電子メール交換が含まれてもよい。
[0040]図1は、本発明の例示的な実施形態による、構造化データおよび非構造化データの自動分析のためのシステムの機能ブロック図である。図1に示されたように、システムは、コンテンツを取り込み構造化するアルゴリズムに加えて、様々なデータソース、領域知識、および人との対話を統合する。システムは、契約書、融資文書、および/またはテキストファイルなどの複数の文章5を取り込み、関連データ6を抽出する走査構成要素10を含む。取込みプロセスの間、システムは、画像(たとえば、PDF画像)を検索可能な文字に変換するOCR技術を組み込むことができ、走査画像を未加工文書11および本質的内容12に変換するNLP前処理を組み込むことができる。加えて、文書のメタデータおよびフォーマット情報を変換し保存するために、適切な取込み手法が使用される。多くのインスタンスでは、入力された非構造化データは、データセットに格納された文書のコーパス15を一緒に形成する複数の文書内に存在する。
[0041]図1の例は、特定のビジネス状況に実装されている「統制規則セット」を描写する。統制規則セットの一例は、新しいかまたは修正された金融規制であってもよく、金融機関または金融会社は、その契約が新しい規制を順守することを保証する必要があり得る。新しい規制の順守を評価するための契約書の手動調査は1つの代替であるが、その手法は、専門家が契約書を調査するために相当な時間および甚大なコストをかなり必要とする可能性がある。あるいは、システムは、契約書を読み取り、情報を抽出し、構造化ファイルに情報を取り込み、修正された規制、および/またはビジネス目的の文脈で情報を評価し、質問に回答し、洞察をもたらし、契約書内のパターンおよび例外を識別するように構成することができる。本発明の例示的な実施形態は、このように、複雑な文書の分析を自動化することができ、それは従来のサンプリング手法よりも100%のカバレージを可能にすること、洞察をもたらすために必要なコストおよび開発時間を削減すること、人が正確な一貫性を実現し管理することを可能にすること、知識および対象分野の専門家(SME)の専門知識を活用すること、ならびにデータがどのように処理されたかを記述する監査ログを自動的に作成することの利益を提供することができる。
[0042]図1を参照すると、統制規則セットは、手動調査において対象分野の専門家によって使用され、また手動調査において関連セマンティクス21および決定戦略22に変換される。セマンティクス21は、エンティティ、関係、および事実から構成されるオントロジーまたは知識ベース内で具現化された領域知識を含む。決定戦略22は、具体的な質問に回答するために関連セマンティクス21に適用された業務規則から構成される。これは、(順守対非順守などの)文書レベルの評価、特徴レベルの抽出(終了日付、キーエンティティ)、(抽出された事実およびオントロジーを利用して推論を行うことなどの)推論された事実、または(さらなる精査を必要とする文書の部分を識別することなどの)リスクを識別することを含む。機械学習調査25aは、指定された契約条項、日付、エンティティ、および事実などの方向を決定する特徴26aを分析し、(本明細書では「IDE」と呼ばれることがある)知的領域エンジンを使用して、自動化文書分析評価27aを引き受ける。機械学習調査25aは、信頼スコアを提供することにより、機械順守判定28aを支援する。並行して、たとえば、対象分野の専門家によって行われる選択された文書の手動調査25bは、方向を決定する特徴26bを分析し、契約書のサンプルに対する文書分析評価27bおよび手動順守判定28bを引き受ける。並行する手動評価および機械評価は、精度および信頼スコア29を決定するために使用され、次いで、精度および信頼スコア29は、手動調査および機械調査のためのフィードバック30として使用される。フィードバック30は、機械調査の改良を可能にし、その結果、各反復は、自動化分析における精度の向上および信頼スコアにおける対応する上昇をもたらすことができる。所与の精度を達成するために必要とされる反復回数を削減するために、能動学習法が使用される。
[0043]図2を参照すると、本発明の例示的な実施形態による、システムのアーキテクチャが描写されている。前述されたように、システムは、構造化データおよび非構造化データに関する情報抽出およびデータ分析をサポートすることができる。入力データ210は、文書、テキスト、ビデオ、オーディオ、表、およびデータベースなどの、様々なファイルまたは異なるタイプおよびフォーマットの情報の形態をとることができる。図2に示されたように、分析されるべきデータは、コア文書管理システム220に入力することができる。
[0044]本発明の好ましい実施形態によれば、入力データ210は、図2において「Lume」と呼ばれる共通データフォーマット230に変換される。Lumeは、好ましくは、すべての構成要素およびデータストレージ用の共通フォーマットであってもよい。図2に示されたように、コア文書管理システムは、(文書をLumeフォーマット230に変換する)文書変換システム240と、文書およびコーパスレポジトリ220とを含む。文書変換システムは、文書データおよびメタデータを抽出し、自然言語処理を実行するために使用されるフォーマット240にそれを格納するためのユーティリティを提供する。標準化されたLumeフォーマット230は、多数の構成要素が、次いで、Lumeに容易に適用され、拡張処理のための上流情報を利用することができるので、Lume内のデータの処理および分析を容易にする。1つのアプリケーションでは、処理のワークフローは、文、トークン、ならびに他の文書構造、エンティティ識別情報、分類法およびオントロジーに対する注釈を識別するために一緒につなぐことができ、知的領域エンジン251は、この情報を利用して導出および推論された特徴を作成することができる。これらの構成要素の各々は、入力としてLume240を、および出力としてLume240を利用し、メタデータはLumeに付加的に挿入することができる。構成要素の他の例には、たとえば、異なるエンジン、自然言語処理(NLP)構成要素255、インデックス付け構成要素、ならびに他のタイプの構成要素(たとえば、光学式文字認識(OCR)252、機械学習253、および画像処理254)を含んでもよい。
[0045]構成要素250は、Lume240を読み取り、Lume要素を生成する。次いで、Lume要素は、(データベース220、ベースデータフォーマット230内のペアレントクラス定義、およびアプリケーション固有データフォーマット240内のフォーマットの固有インスタンスによって描写された)スタンドオフ注釈フォーマットで格納される。一例として、NLP構成要素255は、Lume240を処理し、単語トークン、品詞、意味役割ラベル、固有表現、同一指示語句などを含む、基本的なデータ内の人間の言語固有の構成を示すために、さらなるLume要素を追加する。これらの要素は、照会言語を介してセット(もしくは単体)のLume240またはLume要素を迅速に検索する能力をユーザに提供するためにインデックス付けすることができる。
[0046]Lume技術は、図3~図6を参照して以下にさらに記載される。
[0047]図2はまた、いくつかの機械学習(ML)構成要素253をシステムに組み込むことができることを示す。たとえば、システムは、ML変換構成要素、分類構成要素、クラスタリング構成要素、および深層学習構成要素を含んでもよい。ML変換構成要素は、基本的なLume表現を高速分析処理向けの機械可読ベクトルに変換する。分類構成要素は、最初の訓練および構成に基づいて、所与のセットの入力を学習されたセットの出力(カテゴリまたは数字)にマッピングする。クラスタリング構成要素は、事前に決定された類似性基準に基づいて、ベクトルのグループを生成する。深層学習構成要素は、ノードおよび接続の多層ネットワーク表現を利用して出力(カテゴリまたは数字)を学習する固有のタイプの機械学習構成要素253である。
[0048]図2は、異なるタイプのユーザがシステムと対話することを可能にするいくつかのユーザインターフェース270をシステムが含む場合があることを示す。IDEマネージャ273は、ユーザが表現を修正、削除、およびシステムに追加することを可能にする。モデルマネージャ274は、ユーザがパイプライン内の実行用の機械学習モデルを選択することを可能にする。検索インターフェエース272(すなわち、データ探索)は、ユーザがプラットフォーム内にロードされたデータを見つけることを可能にする。文書およびコーパス注釈器271(すなわち、注釈マネージャ)およびエディタは、ユーザがLume上の注釈を手動で作成および修正し、システムを訓練および検査するためのコーパスにLumeをグループ化することを可能にする。視覚ワークフローインターフェース275(すなわち、ワークベンチ)は、ワークフローを構築するための視覚能力を提供し、プラットフォーム内に格納されたデータのヒストグラムおよび他の統計図を作成するために使用することができる。
[0049]図3は、本発明の例示的な実施形態による、Lumeの性状および特徴を示す。図3に示されたように、「name」は、文書の非適格名称を含む文字列である。「data」は、文書の文字列またはバイナリ表現(たとえば、元のデータを表す直列化データ)である。「elements」はLume要素のアレイである。
[0050]図3に示されたように、各Lume要素は、要素IDおよび要素タイプを含む。本発明の好ましい実施形態によれば、Lume要素を定義し作成するために、要素IDおよび要素タイプのみが必要とされる。要素IDは、要素用の一意の識別子を含む文字列である。要素タイプは、Lume要素のタイプを識別する文字列である。Lume要素のタイプの例には、名詞、動詞、形容詞などの品詞(POS)、ならびに人、場所、および組織などの固有表現認識(NER)が含まれる。さらに、ファイルパスおよびファイルタイプの情報を要素として格納することができる。ファイルパスは、文書の完全なソースファイルパスを含む文字列である。ファイルタイプは、元の文書のファイルタイプを含む文字列である。
[0051]必要ではないが、Lume要素はまた、1つまたは複数の属性を含んでもよい。属性は、キー-値のペアから構成されるオブジェクトである。キー-値のペアの一例は、たとえば、{「name」:「Wilbur」,「age」:27}であり得る。これは、開発者の柔軟性を可能にする単純でさらに強力なフォーマットを作成する。本発明の例示的な実施形態により、要素のIDおよびタイプのみが必要とされる理由は、要素がIDまたはタイプによってアクセス可能であることも保証しながら、それが要素内のLumeに関する情報を格納する柔軟性を開発者に提供することである。この柔軟性は、それらの領域専門知識に従ってユーザが要素の間の関係および階層をどのように格納したいかをユーザが判定することを可能にする。たとえば、要素は、複雑な言語構造についての必要な情報を含み、要素間の関係を格納、または他の要素を参照することができる。
[0052]本発明の例示的な実施形態によれば、Lume要素は、スタンドオフ注釈フォーマットを格納するために使用される。すなわち、その要素は、テキスト内に埋め込まれるのではなく、文書テキストとは別に注釈として格納される。この実施形態によれば、システムは、元のデータを修正せず、復元することができる。
[0053]好ましい実施形態によれば、Lume要素は他のLume要素との階層関係で格納されず、文書データおよびメタデータは非階層方式で格納される。(Lume以外の)よく知られたフォーマットは階層型であり、それらを操作および変換することを困難にする。Lumeの非階層型フォーマットは、文書レベルまたはテキストレベルのいずれかでの文書データまたはそのメタデータの任意の要素への容易なアクセスを可能にする。加えて、データ構造を編集、追加、または構文解析することは、対立の解消、階層の管理、またはアプリケーションに必要であってもなくてもよい他の動作の必要なしに、要素に対する動作を介して行うことができる。この実施形態によれば、それはスタンドオフ注釈フォーマットであるため、システムは、元データの正確なコピーを保存し、重複する注釈をサポートすることができる。加えて、これにより、オーディオ、画像、およびビデオなどの複数のフォーマットの注釈が可能になる。
[0054]Lume技術は、文書データおよびメタデータ用の汎用フォーマットを提供することができる。Lumeが作成されると、それは、書込みフォーマット変換がパイプライン内にツールを組み込む必要なしに、自然言語処理パイプラインの各ツールにおいて使用することができる。これは、データおよびメタデータに渡す必要がある基本変換がLumeフォーマットによって確立されるからである。システムは、プレーンテキストおよびMicrosoft Word(登録商標)を含むいくつかのフォーマットから文書データおよびメタデータを抽出するためのユーティリティを提供する。フォーマット固有パーサーは、これらのフォーマットからLumeにデータおよびメタデータを変換し、それに対応して修正されたLumeをフォーマットに書き戻す。システムは、単語のファミリに関連する情報を格納して、前処理およびステミングなどの自然言語処理向けにそれらを準備するために、Lume技術を使用することができる。加えて、システムは、文書内の関係およびグラフ構造に関連する情報を格納するために、Lume技術を使用することができる。
[0055]本発明の例示的な実施形態によれば、システムは、LumeおよびLume要素に加えて他の構成要素を含む。具体的には、システムは、データセット、Lumeデータフレーム、Ignite構成要素、および要素インデックスを含むように構成されてもよい。データセットは、一意の識別子を有するLumeオブジェクトの集合である。データセットは、通常、機械学習用の訓練セットおよび検査セットを指定するために使用され、また多くの文書に対する大量の動作を実行するために使用することができる。Lumeデータフレームは、Lumeの専用行列表現である。システム内の多くの機械学習および算術演算構成要素は、この最適化されたフォーマットを活用することができる。システムはまた、通常、既存のLume要素または元のソースデータを処理し、新しいLume要素オブジェクトを追加することにより、Lume(またはLumeコーパス)データを読み取り、Lume(またはLumeコーパス)データを返すIgnite構成要素を含んでもよい。要素インデックスは、セットまたは要素のコンピュータオブジェクト表現、ならびにLumeデータおよびメタデータの検索時の効率のためにIgnite内で通常活用される表現である。たとえば、いくつかの構成要素は、文字オフセットを作り直すように最適化されてもよく、したがって、文字オフセット上のインデックスは、それらの構成要素に対する動作を加速することができる。
[0056]本発明の例示的な実施形態によれば、システムの主要な機能には、以下のように記載される、データ表現、データモデル化、発見および合成、ならびにサービス相互運用性が含まれる。
[0057]データ表現:Lumeは、システム上で分析を格納および通信するために使用される共通データフォーマットである。Lumeは、データ表現に対するスタンドオフ手法を取り、たとえば、分析の結果は元のデータから独立した注釈として格納される。一実施形態によれば、LumeはPythonに実装され、Pythonオブジェクトとしてのコンピュータオブジェクト表現を有し、プロセス間通信用のJavaScriptオブジェクト記号(「JSON」)として直列化される。Lumeは、JSON、Swagger(YAML)、RESTfulなどのウェブベースの仕様と共に使用するために設計されてもよく、Pythonエコシステムとインターフェースするが、それはまた、Javaおよび他の言語で書かれた構成要素に実装され、それらをサポートすることができる。
[0058]データモデル化:Lumeは、単純であり、システムのユーザに対して基本的な要件を強制するのみであるように設計することができる。データとプロセスの両方の宣言的な表現を必要とするのではなく、システムのユーザに解釈およびビジネスロジックが任される。システムは、非公式のモデル化を残し、処理構成要素内の実装についての詳細を残すように設計することができる。これにより、Lumeが非常に単純な仕様を維持することが可能になり、Lumeが他のアプリケーションを妨げることなく固有のアプリケーション向けに拡張されることが可能になる。たとえば、Lumeを検索することが重要であるとき、それは、Lume構造の上部にインデックス付けするモジュールと統合される。文書オブジェクトモデル(DOM)と連携することが重要であるとき、DOMパーサーは、Lume要素および属性の形態の追加情報をLumeに格納し、この情報で変換してDOMモデルに戻す。
[0059]発見および合成:Lumeはまた、分析プロセスの来歴に関するさらなる設計の特徴を有してもよい。システムワークフローは、構成要素の反復性および発見を促進するために来歴情報を要求することができる。この来歴情報はLumeに格納され、来歴強化ワークフローを介して強化することができる。たとえば、これは、正しい処理ステップが完了したことを保証するために、出力されたLumeの各々に対するチェックを実現することができる。検証段階では、それは、正しいかまたは正しくないメタデータを作成したLume要素の来歴を追跡する手段を提供することができる。さらに、それはまた、すべての入力が出力として受信されたことを保証するために追跡することができる。
[0060]サービス相互運用性:システムによって提供されるサービスは、本発明の一実施形態による、Swagger(YAMLマークアップ言語)仕様を必要とする場合がある。システム構成要素を実装するために利用されるビジネスロジック、動作順序、および他のデータ解釈に関する多くの仮定が存在してもよい。どの構成要素が相互運用可能であるかを識別することは、入力および出力の仕様ではなく、例示的なワークフローの分析を介して実現されてもよい。システムでは、構成要素は、Lumeに対して単純に動作し、エラーの場合、正しいエラーコードを返し、適切なロギング情報を書き込むことができる。
[0061]図4Aは、Lume構造および異なるタイプのファイルのLumeへの初期変換の一例を示す。図4Aに示されたように、データセット410は、異なるタイプのファイルまたは文書の本体を指す。これらの文書は、最初に、たとえばAdobe(登録商標)ポータブルドキュメントフォーマット(PDF)、非構造化テキストファイル、Microsoft Word(登録商標)ファイル、およびHTMLファイルなどの異なるフォーマットであってもよい。
[0062]図4Aはまた、Lume用の定義された要素の一例を示す。たとえば、第1の要素411は、連絡先情報を含む研究ディレクタに対応することができ、第2の要素は、連絡先情報412を含むプロトコルマネージャに対応することができ、第3の要素は、連絡先情報413を含む開発業務受託機関(CRO)に対応することができ、第4の要素は、研究開発会社414に対応することができ、第5の要素415は、文書向けの機密保持通告に対応することができる。図4Bは、図4Aに描写されたメタデータを有する文書の拡大図を示す。
[0063]要素タイプの例示的なレベルも図4Aに示されている。たとえば、システムは、各々がLumeから抽出され得る個別の段落、トークン、またはエンティティをユーザが識別することを可能にする機能を実現することができる。
[0064]図5は、Microsoft Word(登録商標)文書からのLume作成の一例のさらなる詳細を提供する。図5に示されたように、第1のステップ、すなわち、ステップ501は、元の文書を初期化することである。初期化は、Lumeオブジェクトに元のデータを格納することを伴う。第2のステップ、すなわち、ステップ502は、文書をLumeフォーマットの要素に構文解析することである。このステップは、ソース文書からメタデータに対応する要素が作成されるループ502aを含んでもよい。これは、固有のフォーマットを取り込む文書固有の構成要素によって実行される。具体的には、取込み中、(i)元のファイルがオープンされ、(ii)DOCXフォーマットがXMLファイルに解凍され、次いで(iii)XMLファイルが構文解析用のデータ構造に読み取られる。構文解析は、メタデータからの文書内のデータを分離させ、次いで、データをLumeの「data」フィールドに、メタデータをLume要素に格納する。これは、次いで、Lumeテキストとして出力される。格納されるメタデータの例は、著者、ページ、段落、およびフォント情報である。
[0065]図5に示されたプロセスの完了時に、入力文書はLumeに変換されており、所望の要素が生成され格納されている。
[0066]図6は、図5の機能を文書のコーパスに適用する一例を示す。図6の第1のステップ、すなわち、ステップ601は、データセットを初期化することを含む。図6の次のステップは、データセット内の各文書への図5に示されたプロセスの適用を伴う。ステップ602においてデータセット内のLumeがLumeフォーマットに変換されるにつれて、結果がデータセットに格納される。変換は、Lumeデータ構造の作成(すなわち、ループ602b)、フォーマット固有のメタデータのLume要素への変換(すなわち、ステップ602a)、および意味注釈、自然言語処理、領域固有特徴の作成、または定量的な指紋へのベクトル化など、必要とされる追加の注釈を含む。より具体的には、ステップ601において、データセットの文書がURLにおいて識別され、次いで、ファイルデータを含むLumeが602に渡される。次に、602bにおいて、Lumeが適切なパーサーに渡され、パーサーは構文解析に適したデータ構造を作成する。602aにおいて、構文解析が文書に取り組み、データをLumeの「data」フィールドに、メタデータをLume要素に構文解析する。これは、次いで、Lumeテキストとして出力される。
[0067]図7は、本発明の例示的な実施形態による、構造化データおよび非構造化データを分析するためのプロセスの一例を示すプロセス図である。ステップ710において、テキスト、Microsoft Word(登録商標)、および/またはAdobe(登録商標) PDFの文書などの文書がシステムに取り込まれる。次いで、ステップ712において、上述されたように、文書がLumeフォーマットに変換される。ステップ714において、画像ファイルを文字に変換するために、OCRプロセスが使用されてもよい。ステップ716において、文書がデータセット内に収集される。ステップ718において、システムが構造Lume要素を識別し、注釈を付ける(たとえば、図6を参照)。文書がLumeフォーマットに変換され、Lume要素が生成されると、ステップ720において、自然言語処理(NLP)のルーチンまたは構成要素を、Lumeフォーマット化された情報に適用することができる。
[0068]ステップ722において、システムのユーザが、エンティティのリストを含むオントロジーを作成し、入力する。一例によれば、オントロジーは、人々、および人々がどのビジネスの従業員であるかを記述することができる。オントロジーは、たとえば、プラットフォーム内の文書から人々およびビジネスを抽出するのに役立つことができる。あるいは、オントロジーは、会社の異なる製品、それらが属するカテゴリ、およびそれらの間の任意の従属状態を記述することができる。ステップ724は、エンティティ分解および意味注釈を含む。エンティティ分解は、データ内で参照されるどのエンティティが実際に同じ現実のエンティティであるかを判定する。この分解は、抽出されたデータ、オントロジー、およびさらなる機械学習モデルを使用して遂行される。意味注釈は、データ内の語句をオントロジー上で定義された、形式的に定義された概念に関係づける。上記のビジネス従業員の例では、「John Doe」という単語の出現が識別され、オントロジー内で従業員John Doeと接続される。これにより、下流の構成要素が、John Doeに関する追加情報、たとえば、会社内の彼の肩書きおよび職務を利用することが可能になる。
[0069]ステップ726において、システムのユーザが、データセットに格納された文書に適用されるべき表現を作成する。表現は、たとえば、検索するパターンまたは文書の他の際立った特徴を指定するカンマ区切り値(CSV)ファイルであってもよい。表現は、対象分野の専門家の専門知識およびノウハウを組み込むことができる。たとえば、表現は、特定の契約条項または税務書類内の条項を識別する様々な固有の単語および単語間の関係、またはパターンを識別することができる。これらの表現は、文書の特定の側面、条項、または他の識別する特徴を検索および識別するために使用される。表現はまた、IDEへの演算子のうちの1つとして機能する機械学習演算子、事前訓練されたシーケンスラベル付け構成要素、またはアルゴリズムパーサーを活用することができる。
[0070]ステップ728において、表現がIDEに入力され、IDEが表現を読み取り、それらをデータセットに適用する。一実施形態によれば、出力は、予想される回答、ならびに回答に対する支持および理由を含んでもよい。IDEは、図8~図12と関連して以下にさらに記載される。
[0071]ステップ730において、さらなる特徴を設計するためにIDEの出力を利用することができる。これは、以前作成されたLume要素を利用し、さらなる特徴に対応する新しいLume要素を作成する。この特徴エンジニアリングは、学習および推論のタスク用に固有の信号に関係する特徴を作成するために、Lume要素のセットにわたるインジケータ機能として抽象的に考えることができる。一般的な場合、特徴エンジニアリングは、シーケンスラベル付けまたはシーケンス学習タスクに必要とされるさらなる定言的または説明的なテキスト特徴を生成することができる。たとえば、エンジニアリングは、カスタムのエンティティタグ付け用の特徴を準備し、関係を識別し、または下流の学習用の要素のサブセットを対象にすることができる。
[0072]ステップ732において、上流で作成されたLume要素から結果を生成するために、機械学習のアルゴリズムまたはルーチンが適用される。機械学習はまた、シーケンスラベル付けまたはベイジアンネットワーク分析によって置き換えることができる。これは、機械学習スコア、または前の注釈の精度、要素間の関係に関する確率的情報を、あるいは新しい注釈または分類のメタデータと共に作成する。ステップ734において結果が分析され、そこで結果は、注釈を検査するためにUIを介して、または結果に対するさらなる分析を実行するためにワークベンチを介してのいずれかで、調査のためにアナリストに提供される。ステップ736において、予測精度を向上させるために1つまたは複数の反復が実行される。表現を適用するステップ728、特徴を設計するステップ730、機械学習を適用するステップ732、および結果を調査するステップ734は、精度を向上させるために繰り返されてもよい。精度が所望のレベルを達成するように向上すると、ステップ738において、結果がデータベースに格納されてもよい。エンティティ分解および意味分解724、特徴設計730、および機械学習734は、知的領域エンジン内でも利用されるが、大規模処理パイプラインの場合は分離されることに留意されたい。
[0073]本発明の例示的な実施形態によれば、IDEは、自然言語処理、カスタム構築注釈構成要素、および手動で符号化された表現を活用して、文書のコーパスを系統的に分類し分析するためのプラットフォームを備える。IDEは、会社の認識/AI能力を産業領域知識と組み合わせるためのプラットフォームを提供することができる。各文書の分類は、利用されるべき特徴、識別されるべき特徴のパターン、および分類タスクに焦点を当てる参照位置または範囲情報を含む場合がある、一組の表現によって表すことができる。表現は、Lume要素およびLumeに含まれるデータから構成され、それらと連携することができる。IDEは、指定された結果ならびに分類の決定をサポートする注釈が付けられたテキストを生成して、コーパス内の文書ごとに表現を系統的に評価するように設計することができる。この例では、IDEは、自然言語処理およびテキストマイニングに利用されるが、IDEフレームワークは、画像、オーディオ、およびビデオなどのすべてのLumeフォーマットに適用されることに留意されたい。
[0074]IDEはいくつかの利点を提供することができる。たとえば、IDEは、具体的な質問に対する回答に加えて、分類判断をサポートするために注釈が付けられたテキストを出力することができる。注釈は、結果を監査し、透明性を実現するために使用することができる。加えて、正確な機械学習モデルを訓練することは、一般に、多数のラベル付けされた文書を必要とする。IDEを使用して領域知識を機械学習と統合することは、専門家が導出した特徴を利用することにより、正確なモデルを訓練するために必要な文書の数を1桁分だけ削減することができる。これは、非構造化データを伴う機械学習問題が全体的に過剰決定されたからであり、正確で解釈可能な特徴を選択する能力は、一般に利用可能なものよりも多くのデータを必要とする。たとえば、文書において、単語の辞書、正字法の特徴、文書構造、統語的な特徴、および意味論的な特徴を含む、数万の特徴が存在することができる。さらに、本発明の例示的な実施形態によれば、表現は、スプレッドシート(CSVもしくはXLSX)内で、またはIDEユーザインターフェースを介してなど、非コード環境内で成文化することができる領域固有言語を使用して作成することができるので、表現を入力する対象分野の専門家(SME)などの個人は、コンピュータコーディングスキルを必要としない。それにより、SMEは、機械訓練プロセスに活用することができる領域関連特徴を作成することができる。IDE UIにより、ユーザが表現を修正、削除、およびシステムに追加し、IDEを実行することによって作成された要素を視覚化することが可能になる。加えて、表現は交換可能であるように設計することができる。それらは、産業または問題のセット全体を通してユースケースにおける再利用のために作成することができる。さらに、IDEは、文書を格納し、文書と連携するためにLumeフォーマットを活用するように設計することができる。この設計により、文書内に存在するテキスト特徴に加えて、注釈およびメタデータが表現に対する入力になることが可能になる。
[0075]本発明の例示的な実施形態によれば、表現を作成し使用するためのプロセスは、(1)手動で文書を調査すること、(2)表現を通してパターンを取り込み、機械学習または統計抽出を活用することができるカスタム構築コードを作成すること、(3)IDEに表現をロードし、IDEを実行すること、(4)混同行列および精度統計を構築すること(すなわち、現在の結果を文書の目に見えないセットと比較することにより、これは表現がどれだけうまく一般化するかの推定値を作成し、システムが性能要件を満たすかどうかを判定する)、(5)前述のステップを繰り返し、改良すること、ならびに(6)予想回答ならびに回答に対する支持および理由を提供するセクションなどの出力を生成することを含む。
[0076]特定の一例によれば、IDEは、投資運用契約書または他の法律文書などの文書を分析することにより、法律問題に対する回答を自動的に決定するために使用されてもよい。例示目的で、この特定の例では、会社が500個の投資運用契約書に関連して回答するべき8個の法律問題を有すると仮定する。例示的な質問は、「契約は識別された人事異動に関連する通知を必要とするか?」であってもよい。図8は、法律問題に関する投資運用契約書のセクションの一例を描写する。
[0077]図9は、本発明の一実施形態による、表現の例を示す。図9に示されたように、表現は、コードではなく、(CSVなどの)表フォーマットで詳述されてもよい。図9の例では、各表現は、他の表現を参照するときに役立つ場合がある「名称」を有する。名称はまた、特徴を作成するために出力ファイルによって使用されてもよい。各表現はまた、適用されるべき表現に焦点を当てそれを制限する「範囲」を含んでもよい。範囲自体は表現として評価され、その結果は親表現の範囲を制限するために使用される。たとえば、範囲表現は、(Lumeフォーマットへの変換において事前に指定されるか、または別の表現によって作成される場合)Lume要素を指すことができるか、または契約書内の適切な条項を識別する演算子の結果であり得る。表現はまた、表現が含まれる場所である「文字列」フィールドを含む。文字列フィールドは、事前に決定された構文を有する。文字列フィールドは、文書内または論理演算の中を探すためにパターンを指定することができる。図9は文字列フィールドの例を示す。
[0078]表現はまた、特定の表現が評価されるべきか否かを判定するために使用される「条件」フィールドを含んでもよい。これは、計算効率についての表現を有効もしくは無効にする際に、または制御ロジックを実施してある特定のタイプの処理を有効もしくは無効にするために役立つ。
[0079]表現は、文書内のパターンを検索するために使用されてもよく、表現は、それらのパターンをカプセル化することができる。そのようなパターンの例には、たとえば、届出要件および人事異動を表す異なる方法が含まれる。たとえば、「重要人物」、「投資チーム」、「専門スタッフ」、「シニアスタッフ」、「シニアオフィサ」、「ポートフォリオマネージャ(portfolio manager)」、「ポートフォリオマネージャ(portfolio managers)」、「投資マネージャ(investment managers)」、「重要な意思決定者」、「重要な従業員」、および「投資マネージャ(investment manager)」などの「従業員」用の多くの単語が存在する。場合によっては、大文字と小文字を区別することが重要である。たとえば、「投資マネージャ」は従業員を指す場合があるが、「投資マネージャ」は顧客の投資組織を指す場合がある。場合によっては、(主従関係を示す)単語の順序が重要である。たとえば、投資マネージャが顧客に知らせることは、顧客が投資マネージャに知らせることと同じではない。これらのタイプのパターンのすべては、表現内にカプセル化することができる。対象分野の専門家(SME)は、ある特定のタイプの専門文書タイプを分析する際に、自分のノウハウを表現内にカプセル化することができる。
[0080]図10は、IDEからの出力の1つの形態の一例:予想回答を示す。それは、文書ごとの各質問に対する回答を含む。たとえば、図10に示されたように、出力は、入力ファイルのファイル名、契約の特徴に関する決定を提供する4つの質問に対する回答を列挙する表を含んでもよい。一実施形態によれば、IDEから出力されるさらに多くの質問または特徴が存在してもよい。
[0081]図11は、IDEからの出力の別の形態の一例:予想回答に対する支持および理由を示す。図11では、ユーザインターフェースは、その所与の回答を支持し正当化するためにIDEによって使用される実際の契約言語を表示する。実際の契約言語は、IDEが正しいがどうかをユーザが評価することができるように提示される。システムは、Lume要素に格納された情報を利用して、IDEによって提供された回答のための基礎を具体的に形成するテキスト内のある特定の単語を強調することができる。このようにして、IDEは、回答が正しいかどうかを人間のユーザが容易に検証することを可能にする。それはまた、いかなるエラーも理解し、そのようなエラーを訂正するために表現を改良するユーザの能力を容易にする。
[0082]図12は、本発明の例示的な実施形態による、システムのシステム図である。図12に示されたように、システムは、システムを実行するために使用されるソフトウェアおよびデータと共に、サーバ120および関連データベース122を備えてもよい。システムはまた、元の文書を走査し、システムに取り込むために使用されるスキャナ126を含んでもよい。サーバ120およびデータベース122は、取り込まれた文書を格納し、ならびにIDE、Lume、およびLume要素、ならびにシステムによって使用される他のソフトウェアおよびデータを格納するために使用されてもよい。対象分野の専門家(たとえば、税金の専門家)などのユーザ125は、たとえば、ラップトップコンピュータ、デスクトップコンピュータ、またはタブレットコンピュータなどのパーソナルコンピューティングデバイス124を介して、サーバ120、スキャナ126、およびデータベース122にアクセスしてそれらを使用することができる。
[0083]システムはまた、1人または複数の顧客または他のユーザがシステムにアクセスすることを可能にするように構成されてもよい。たとえば、図12に示されたように、顧客135は、パーソナルコンピューティングデバイス134および会社サーバ130を使用して、ネットワーク110を介してサーバ120にアクセスすることができる。顧客はまた、顧客データベース132に格納された顧客固有のデータ(たとえば、分析されるべき契約書のセット)をシステムに送信して、サーバ120によって分析され、データベース122に格納されるべきデータセット文書に組み込まれるようにすることができる。図12に示されたサーバ120は、全体的にサーバ140および150によって表された他の顧客またはユーザから、他の文書、スプレッドシート、pdfファイル、テキストファイル、オーディオファイル、ビデオファイル、ならびに他の構造化データおよび非構造化データを受信することができる。
[0084]図12には、ネットワーク110も示されている。ネットワーク110は、たとえば、インターネット、イントラネット、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、イーサネット(登録商標)接続、WiFiネットワーク、モバイル通信用グローバルシステム(GSM)リンク、携帯電話ネットワーク、全地球測位システム(GPS)リンク、衛星通信ネットワーク、または他のネットワークのうちのいずれか1つまたは複数を含んでもよい。サーバ、デスクトップコンピュータ、ラップトップコンピュータ、およびモバイルコンピュータなどの他のコンピューティングデバイスは、たとえば、異なる個人またはグループによって動作されてもよく、ネットワーク110を介してサーバ120およびデータベース122に契約書または保険証券などのデータを送信することができる。加えて、コンテナ化されたまたはマイクロサービスベースのアーキテクチャと共に、クラウドベースのアーキテクチャも、システムを展開するために使用されてもよい。
[0085]図13は、本発明の例示的な実施形態による、分析システムについてのフロー図である。図に描写されたように、フロー図1300は、文書取込みステップ1310、前処理ステップ1320、注釈ステップ1330、MLフレームワークステップ1340、後処理ステップ1350、およびマルチ文書統合ステップ1360を含む。これらのステップの結果として、フロー図1300は、抽出された文書知識を提供することができる。
[0086]一実施形態によれば、ステップ1310の間、様々なデータソース、たとえば、機械可読および/または非機械可読のPDF、Word(登録商標)文書、Excel(登録商標)スプレッドシート、画像、HTMLなどから、データが取り込まれる(すなわち、入力される)。具体的には、様々なデータソースからの生データは、同じLumeデータ構造に変換されてそこに格納され、それにより、異なるデータタイプにわたる一貫性が実現される。
[0087]さらに、一実施形態によれば、前処理ステップ1320の間、下流のモデル化ステップを強化するために、いくつかのタスクが実行される。たとえば、必要な場合、非機械可読PDFまたは画像からのテキストを機械可読テキストに変換するために、光学式文字認識(OCR)を実行することができる。さらに、下流で活用することもできる画像関連特徴を組み込むために、さらなるLume要素が追加されてもよい。加えて、自然言語処理タスクも文書テキストに対して実行される。たとえば、文書テキスト内の単語および文は、トークン化および/または見出し語化することができる。さらに、品詞タグ付けの一部または固有表現認識などの任意の情報も、次のモデル化のための利用可能な情報を強化するために、このステップの間に含めることができる。カスタム単語埋め込みもトークン要素に追加することができ、その中で単語埋め込みは領域固有文書セットにわたって再訓練され、トークン化された単語要素および/または文要素に追加される。一実施形態によれば、単語埋め込みは、多数の、たとえば50を超える文書で再訓練されてもよい。さらに、一実施形態によれば、追加された単語埋め込みは、注釈を簡素化し、特徴の作成およびモデル化においてOCRエラーを取り繕うことができる。さらに、文書が単一のファイル内に編集される状況(たとえば、通常、単一のPDF内に格納されるマスタサービス契約書および対応する複数の修正条項)では、ファイルをコンポーネント文書に分割する必要があり得る。これらの場合、文書をそれらの構成要素部分に分割するために、発見的なモデルまたは訓練されたモデルが利用される。一実施形態によれば、文書分割は、文書ファミリのセットに統合ロジックが適用される場合に役立つ。これらの状況では、各文書は、文書のセットにロジックを適切に適用するために、別々に分析および考慮される必要がある。たとえば、マスタサービス契約書が3つの修正条項を有すると仮定すると、これらの関連文書にわたる情報、たとえば、契約のための支払条件は、前処理およびモデル予測が実行された後に統合することができる。しかしながら、文書のうちのただ1つ、たとえば、最新の修正条項は、最も適した情報、たとえば、契約のための支払条件を含む場合がある。そのため、契約書統合は、文書のセットにわたってロジックを適用し、最も適した情報を抽出するために使用することができる。
[0088]さらに、一実施形態によれば、注釈ステップ1330の間、人間の知識および専門知識はプロセス1300に組み込むことができ、SMEは文書内の固有情報にラベル付けすることができる。この情報は、抽出する固有の語句および/もしくはテキストであり得るか、または固有の条項および/もしくは段落を、固有のタイプ、たとえばタイプA、タイプBなどとしてラベル付けすることができる。一実施形態によれば、そのようなSME知識は、様々な方法、たとえば、ウェブまたはExcel(登録商標)ベースのユーザインターフェースで組み込むことができる。次いで、これらの注釈は、Lumeデータ構造に直接追加することができる。
[0089]図14は、注釈ステップ1330のフロー図である。前処理が完了した後、Lumeデータ構造は注釈の準備ができている。Lume内のデータは、文書のテキストならびにその単語、文などを記述する要素を含む。次いで、Lume内の情報は、注釈ステップの間に活用される。具体的には、注釈は、Lumeに含まれるデータ(たとえば、テキスト)を直接指す要素として追加される。図に描写されたように、ステップ1331において、文書言語のキーワード/語句および代表例が識別される。一実施形態によれば、識別はユーザインターフェースを介してSMEによって実行されてもよい。さらに、識別されたキーワード/語句および代表例は、知識ベース1334に提供することができる。加えて、識別されたキーワード/語句および代表例はまた、ステップ1332に描写されたように、例示的な文の埋め込みを計算するために使用することができる。次いで、ステップ1333において、計算された埋め込みおよびSME知識に基づいて、カスタム単語埋め込みが訓練され、それも知識ベース1334に提供することができる。さらに、図に描写されたように、能動学習ステップも実行されてよい。
[0090]能動学習の間、データ注釈および訓練セット作成プロセスを識別し簡素化するために、戦略が作成される。一実施形態によれば、能動学習は、単語埋め込み、文埋め込み、およびキーワードを活用して、より広いデータセット内のテキストの可能な候補を見つけることができる。具体的には、論理的なキーワード検索のセットならびにターゲットテキストのいくつかの例(たとえば、ターゲット情報が現れる場所の例示的な文)が分析のために入力される。たとえば、契約条項に注釈を付けるために候補を検索する際に、キーワードは、「条項」、「期間」、「年」、または「月」などの言語を含む場合がある。さらに、「契約は10年の期間、存続する」などの文の埋め込みは、同様の文脈言語を見つけるために活用される可能性がある。この特定の能動学習戦略は、高い確率で、同様であるがそのものではない注釈の検索を絞り込む。次いで、ユーザはこれらの結果を調査し、これらの候補の注釈を使用して、文書のLumeデータセットにラベルを直接追加する。さらに、一実施形態によれば、この能動学習戦略はまた、まれな情報、たとえばまれなフィールドとの訓練セットの平衡を保つことに役立つ。さらに、能動学習では、多様な注釈を生成することができ、簡素化された方法で代表的なデータセットを開発し、他のメタデータと共にLumeに格納することができる。このようにして、注釈は、Lumeに格納された補完情報と一緒に活用することができる。
[0091]一実施形態によれば、図に描写されたように、特定の能動学習戦略(たとえば、データの多様性を増大させること、モデルの有益性を向上させることなど)を適用することができる。たとえば、文埋め込みの類似性を平均と比較することができる。次いで、ステップ1336において、ユーザは、たとえば、特定のラベルを確認または拒絶することにより、戦略の結果を調査することができる。次いで、結果がLumeメタデータに組み込まれる。さらに、ユーザはまた、検索もしくは注釈を改良するか、または必要に応じて新しいデータを追加してもよい。次いで、ステップ1337によって描写されたように、確認されたラベルがモデルに追加される。
[0092]一実施形態によれば、例示的なフレームワークは、補完的な方式で暗黙と明確の両方の知識伝達を組み合わせる。たとえば、IDE表現の形態の特徴エンジニアリングなどの暗黙の知識伝達は、明確な知識伝達、すなわち、能動学習を介する注釈をサポートするために使用される。言い換えれば、IDE表現は、SMEがラベル付け/調査するための候補を供給する能力を能動学習アルゴリズムに提供するために使用することができる。さらに、一実施形態によれば、候補を調査するプロセスにおいて、設計された特徴はまた、SMEの観察に基づいて、更新/改善されている。このサイクル(たとえば、IDE表現特徴(「明確」)->候補の調査(「暗黙」)->観察に基づく特徴の改良(「明確」)->より多くの候補の調査(「暗黙」))は、モデルが予想された性能を満たすまで繰り返す。
[0093]図15Aおよび図15Bは、図13に描写された能動学習ステップにおける構成要素間の対話を示す。一実施形態によれば、能動学習ステップは、ユーザインターフェース1410、能動学習アプリケーションプログラミングインターフェース(API)1420、データベース1430、モジュール管理モジュール1440、Igniteプラットフォーム1450、およびローカルプラットフォーム1460を利用することができる。API1420はモデル管理モジュール1440と通信し、モデル管理モジュール1440は、ユーザが所与のデータセットに対する任意の数の実験(たとえば、ハイパーパラメータまたは特徴セットを変更すること)を実行することを可能にする。さらに、API1420は、その実験の固有の設定のための性能測定基準を追跡する。さらに、API1420はまた、Igniteプラットフォーム(たとえば、ワークフローを実行するためにIgniteソフトウェアを実行するクラウドサーバ)またはローカルプラットフォーム(たとえば、ワークフローを実行するためにIgniteソフトウェアを実行するローカルサーバもしくはパーソナルコンピューティングデバイス)のいずれかと対話して、能動学習用の命令を解釈することができる。たとえば、SMEが複数の契約書から「サプライヤ名」を予測するためにモデルを作成しようと試みていた場合、SMEは、たとえば、ユーザインターフェース1410を介してモデルに、サプライヤ名が通常「により」、「の間」、「契約」、「(株)」などの単語のまわりのどこかに位置し得ることを示すことができる。一実施形態によれば、SMEは、この情報をIDE表現の形態でモデルに提供することができる。次いで、能動学習戦略は、API1420を用いて、IDE表現の記述に最も良く適合する注釈候補、たとえば、自動的な注釈(「自動注釈」)を選択する。これらの候補は、ユーザインターフェース1410を用いてSMEによって調整することができ、したがって、モデルに「サプライヤ名」に関する暗黙の知識を提供する。たとえば、初期モデル、たとえば、図15Bのモデル1は、調査された例(ユーザによって手動で確認された候補)ならびに能動学習戦略からのさらなる自動注釈付けされた例に対して訓練することができる。次いで、検査セット上でモデル性能を評価することができる。一実施形態によれば、手動で調査された例は、将来の訓練用に保持することができるが、自動注釈付けされた例は、さらなるモデル反復を通して伝搬されない。この候補調査プロセスの間、SMEは、観察された結果(たとえば、単語「による」を削除し、単語「会社」を追加すること)に基づいてIDE表現を改良してもよい。この改良が完了すると、ユーザインターフェース1410を介してSMEによって提供され得るIDE表現の改良から、モデル2の能動学習戦略を構成することができる。次いで、ユーザは、この更新された能動学習戦略からの例を手動で調査することができる。第1の反復として、(ユーザインターフェース1410を介してSMEによって提供された)手動で調査された注釈と、(能動学習予測フレームワークによって直接提供された)自動注釈との両方から、新しいモデルが訓練される。これは、(たとえば、図15Bのモデル1からモデル2への)新しいモデルのバージョンをもたらし、次いで、それは、新しい候補を作成して、これらの改良に基づいて調査するために、能動学習予測フレームワーク内で活用される。サイクルは、モデルが受入可能なレベルの性能で予測を行うのに十分な暗黙および明確な知識を有するまで続く。
[0094]一実施形態によれば、SMEの注釈がLumeデータ構造に組み込まれた後に、モデル訓練はMLフレームワーク1340から始まることができる。一実施形態によれば、MLフレームワーク1340は、Lumeデータ構造にわたって訓練するか、またはアルゴリズムを適用するために連携するいくつかの構成要素から構成される。たとえば、情報抽出構成要素1349は、機械学習構成要素1346との対話式レイヤとして機能する。さらに、一実施形態によれば、ユーザは、機械学習構成要素1346に命令を送信する前に情報抽出構成要素1349によって解釈することができる構成ファイル1341を作成することができる。一実施形態によれば、構成ファイル1341内の命令は、タスクタイプ(たとえば、訓練、検証、予測など)、アルゴリズムタイプおよびパッケージ(たとえば、Sklearnロジスティック回帰などの回帰アルゴリズム、keras LSTMなどの再帰アルゴリズムなど)、ならびに特徴(たとえば、カスタム特徴、単語埋め込みなど)を含む。機械学習構成要素1346は、命令されたように訓練もしくは予測を実行することにより、かつ/または回帰アルゴリズムもしくは再帰アルゴリズムに命令を送信することにより、構成ファイル1341からそれに渡された情報に作用する。機械学習構成要素1346はまた、BIOラベリング、スライディングウィンドウなどの必要とされ得る任意のラベル付け技法を適用し、ならびに訓練されたモデルを保存またはロードすることができる。一実施形態によれば、回帰アルゴリズムまたは再帰アルゴリズムは、機械学習構成要素1346からデータ入力を受信し、構成ファイル1341を介して命令されたように訓練または予測を実行し、機械学習構成要素1346に結果(訓練されたモデルまたは予測)を返す。さらに、一実施形態によれば、プロセスビルダ1345は、YAMLフォーマットで提供され得る命令を構築および解釈するためにAPIとして働くことにより、上記のタスクのすべてを可能にすることができる。たとえば、ユーザが訓練および予測用の異なるモデル化パッケージを使用したい場合、ユーザは、プロセスビルダ1345のフレームワーク1347にYAML構成内のパッケージおよびモデルのタイプ名を提供することができる。ユーザはまた、モジュール1348を使用して任意のデフォルトのモデル化アルゴリズムをカスタマイズすることができる。さらに、MLフレームワーク1340では、特徴エンジニアリングおよびモデル訓練の含有/それからの排除を変更するために、もしあれば最小のYAMLファイルに対する変更が必要とされる。さらに、モデルにわたる挙動の違いは、構成YAMLファイルに分離され、共通コードベースと混合されない。これにより、特定のモデルインスタンスのワークフロー挙動に対して任意のポイントおよび任意の範囲において目標とされた修正(たとえば、きめの細かい修正および/またはきめの粗い修正)を行う柔軟性をユーザにさらに許可しながら、コードベースが「安定」のままであることが可能になる。加えて、これらの修正は構成ファイル1341内に存在する(かつコード内に存在しない)ので、それらは、展開にさらなるコードをインストールする必要なしにプラットフォームに安全に渡すことができる。たとえば、ユーザは、句読点、ストップワードを無視するようにモデル入力を修正するか、または単語埋め込みなどのさらなる特徴を追加し、ならびに単語が大文字で書かれているかどうかを判定することができる。これらの変更は、ソースコードを変更するのではなく、構成YAMLファイルを修正することによって実行することができる。次いで、構成ファイルは、参照された特徴を取得し、訓練データセットから特徴行列を生成することができる。
[0095]図16は、本発明の例示的な実施形態による、図13に描写された機械学習ステップの図である。一実施形態によれば、モデルの訓練ならびに既存のモデルからの予測は、同じ構成ファイル、たとえば、構成ファイル1341を使用して実行される。図に描写されたように、訓練モードの間、目標の真のラベルは、訓練データセット、たとえば、Lumeデータセットから抽出され、次いで、初期化されたモデルに提供され得る。さらに、特徴も、訓練データセットから抽出され、次いで、初期化されたモデルに提供され得る。次いで、選択されたモデルアーキテクチャ、たとえば、サードパーティモデル化パッケージ1440(たとえば、sklearn、kerasなど)は、モデル訓練ステップを実行し、次いで、訓練されたモデルはデータベース1430に保存される。次いで、予測モードの間、訓練されたモデルは、データベース1430からロードされ、検査データセットからの結果を予測するために、構成ファイルからの特徴行列設定ならびに検査データセットから抽出された特徴に対して実行され得る。一実施形態によれば、訓練データセットは、具体的に、モデルを開発するために使用されるが、モデル性能を検査するためには決して使用されないデータであり、反対に、検査データセットは、モデル性能を検査するために使用されるが、モデルを訓練するためには決して使用されない。しかしながら、両方のデータセットはラベル付けされなければならない。
[0096]一実施形態によれば、文書について尋ねることができる多くの質問は、テキスト自体からの生の情報の明示的な抽出を伴う。しかしながら、スペルミスが一般的であり、かつ/またはフォーマット化に一貫性がない非機械可読文書の場合、さらなる処理が必要である。たとえば、日付は文書内で多くの異なる方法で書かれる場合がある(たとえば、4/5/2010、4.5.10、April 5th,2010、the fifth of April 2010など)が、分析について報告されるとき、情報は依然として一貫してフォーマット化されなければならない。したがって、後処理が必要とされる。この点に関して、後処理ステップ1350の間、ユーザは、モデル結果に対して実行するように特定のタスクおよび機能をカスタマイズすることができる。さらに、後処理ステップ1350はまた、モデルの結果にある特定のビジネスロジックおよび条件付けを課すために使用することができる。たとえば、ある特定のビジネスロジックは、1つのフィールドが別のフィールドに依存してもよい場合に課すことができる-契約内に自動更新が存在するべきでないことをモデルが予測する場合、自動更新条項の長さについての結果は存在するべきではない。そのため、後処理ステップ1350では、データはユーザが必要とするフォーマットで提供され得る。さらに、ビジネスロジックは、結果が独立したフィールドを含む場合、様々なモデル予測にわたって課すことができる。
[0097]さらに、一実施形態によれば、統合ステップ1360の間、関連文書が入力され、次いで、どの情報がどの文書から報告されるべきかを判定するために、ビジネスロジックはグラフ・コンソリデーション・エンジン1361(図17を参照)によって実行される。たとえば、複数の修正条項を有するマスタサービス契約の場合、契約条項に関する情報は、最新の修正条項から導出されるべきである。一実施形態によれば、このロジックは、ユーザによってグラフ・コンソリデーション・エンジン1361の中にコード化することができる。さらに、統合タスクは、文書間の関係をモデル化するためにグラフデータベース1370(たとえば、JanusGraph)によって実装することができる。たとえば、図17に描写されたように、複数の文書1362および1363(または同じ文書のバージョン、すなわち、「文書1」)は、更新されるかまたは相反する事実(たとえば、事実AおよびB)と共にグラフ・コンソリデーション・エンジン1361に入力することができる。たとえば、文書1362に関して、事実A=「True」および事実B=「1」である。一方、文書1363では、事実A=「False」および事実B=「2」である。この点に関して、文書1362と文書1363との間の対立を解消するために、グラフ・コンソリデーション・エンジン1361は、グラフデータベース1370から検索することができる、文書内で見つかる他のモデル出力を使用する。次いで、グラフ・コンソリデーション・エンジン1361は、文書1について現在の真の事実を反映する統合された出力1364を提供することができる。
[0098]図18は、本発明の例示的な実施形態による、複数の文書を表すグラフスキーマを描写する図である。たとえば、図に描写されたように、文書1366(すなわち、Doc1、Doc2、Doc3、およびDoc4)は、グラフスキーマ1367(すなわち、グラフスキーマA)またはグラフスキーマ1368(すなわち、グラフスキーマB)のいずれかで表すことができる。一実施形態によれば、グラフスキーマ1367および1368は、SMEによって定義されたビジネスケース用のカスタムモデルに基づくことができる。グラフスキーマ1367および1368は構成ファイルを介して生成することができ、構成ファイル内で、SMEは、文書内のどの情報がグラフ内の文書1366の間の接続を決定するために使用され得るかを指定することができる。次いで、このグラフモデルはグラフデータベースにロードすることができ、グラフにロードされたすべてのデータはこのグラフモデルに付着する。さらに、グラフエッジは、処理されたモデルに基づいて、自動的かつ動的に確立することができる。この点に関して、グラフスキーマ1367では、文書1366は、共有文書ID、たとえば、「コントラクト・ファミリ1」によって接続される。さらに、グラフスキーマ1368では、Lumeは、関連する顧客名を介して文書ルートに接続される。
[0099]さらに、一実施形態によれば、例示的なフレームワークは、動的なスキーマに対するグラフ照会カスタムを使用して、文書ファミリに関する質問に回答することができる。たとえば、質問が「更新期間を見つけ、最も新しいものから修正事項に優先順位を付ける」と仮定した場合、例示的なフレームワークは、修正条項のみを見つけ、「効果的な日付モデル」によってそれらを順序付けて、照会をグラフ照会に変換し、グラフの横断を実行する。統合がどのように実行されるかの完全な説明と共に、基本的なグラフモデルを理解する必要なしに、結果がユーザに返される。たとえば、結果は「X個の修正事項を見つけ、それらは以下の日付を有する。それらは以下の更新期間:Yを有する。最良の回答はZである。」であり得る。さらに、質問が「最も低い価格が有効な価格である」であった場合、例示的なフレームワークは、価格を有する任意の文書を見つけ、次いで最も低い価格を見つけて、照会をグラフ照会に変換し、グラフの横断を実行する。この点に関して、結果は、「価格を有するX個の文書を見つけた。値は[…]である。最も低い値はYである」であり得る。
[00100]さらに、図13に描写されたように、例示的なフレームワーク、たとえば、フロー1300はまた、高品質および一貫性を強化するためにフロー1300においてすべてのステップの後にQAチェックを実施する品質評価(QA)構成要素を含む。これらのチェックは、(i)どの特定のLume要素が作成され、予想通りにLumeデータ構造に追加されたかどうか、(ii)すべてのLumeがステップからステップに首尾良く渡されたかどうか、および(iii)各ステップで正しい属性キーおよびカウントが含まれたかどうかを含むことができる。さらに、ユーザはまた、必要に応じて自分自身のカスタム品質評価チェックを構成し、追加することができる。
[00101]本明細書に記載された様々な実施形態が幅広い実用性および用途の能力があることが当業者によって諒解されよう。したがって、様々な実施形態は、例示的な実施形態との関連で詳細に本明細書に記載されたが、本開示は様々な実施形態の説明および例示であり、権限を付与する開示を提供するために行われることが理解されるべきである。したがって、本開示は、実施形態を限定するか、またはそうでなければ任意の他のそのような実施形態、適合、変形、修正、および等価な構成を排除するように解釈されるものではない。
[00102]前述の説明は、本発明の実施形態の異なる構成および特徴の例を提供する。アプリケーション/ハードウェアのある特定の学名およびタイプが記載されたが、他の名称およびアプリケーション/ハードウェアの使用が可能であり、学名は非限定的な例によってのみ提供される。さらに、特定の実施形態が記載されたが、各実施形態の特徴および機能は、当業者の能力の範囲内であるように任意の組合せで組み合わされてもよいことを諒解されたい。図は、様々な実施形態に関してさらなる例示的な詳細を提供する。
[00103]本明細書では例として様々な例示的な方法が提供される。記載された方法は、様々なシステムおよびモジュールのうちの1つまたは組合せによって実行またはそうでなければ実施することができる。
[00104]本開示におけるコンピュータシステムという用語の使用は、単一のコンピュータまたは複数のコンピュータに関することができる。様々な実施形態では、複数のコンピュータはネットワーク接続することができる。ネットワーキングは、限定はしないが、有線およびワイヤレスのネットワーク、ローカルエリアネットワーク、ワイドエリアネットワーク、およびインターネットを含む、任意のタイプのネットワークであり得る。
[00105]例示的な実施形態によれば、システムソフトウェアは、データ処理装置による実行のために、またはデータ処理装置の動作を制御するために、1つまたは複数のコンピュータプログラム製品、たとえば、コンピュータ可読媒体上で符号化されたコンピュータプログラム命令の1つまたは複数のモジュールとして実装されてもよい。実装形態は、アルゴリズムの単一または分散された処理を含むことができる。コンピュータ可読媒体は、機械可読ストレージデバイス、機械可読ストレージ基板、メモリデバイス、またはそれらのうちの1つもしくは複数の組合せであり得る。「プロセッサ」という用語は、例として、プログラマブルプロセッサ、コンピュータ、または複数のプロセッサもしくはコンピュータを含む、データを処理するためのすべての装置、デバイス、および機械を包含する。装置は、ハードウェアに加えて、当該のコンピュータプログラム用の実行環境を作成するソフトウェアコード、たとえば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはそれらのうちの1つもしくは複数の組合せを構成するコードを含むことができる。
[00106](プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、またはコードとしても知られている)コンピュータプログラムは、コンパイラ型言語またはインタープリタ型言語を含む、任意の形態のプログラミング言語で書くことができ、スタンドアロンプログラムとして、またはモジュール、コンポーネント、サブルーチン、もしくはコンピューティング環境での使用に適した他のユニットとしてを含む任意の形態で展開することができる。プログラムは、当該のプログラムに専用の単一ファイルの中に、あるいは複数の連係ファイル(たとえば、1つもしくは複数のモジュール、サブプログラム、またはコードの部分を記憶するファイル)の中に、他のプログラムまたはデータ(たとえば、マークアップ言語文書に記憶された1つまたは複数のスクリプト)を保持するファイルの一部分に記憶することができる。コンピュータプログラムは、1つのコンピュータ上で、または1つのサイトに位置するか、もしくは複数のサイトにわたって分散され、通信ネットワークによって相互接続された複数のコンピュータ上で実行するために展開することができる。
[00107]コンピュータは、例として、プログラマブルプロセッサ、コンピュータ、または複数のプロセッサもしくはコンピュータを含む、データを処理するためのすべての装置、デバイス、および機械を包含してもよい。それは、ハードウェアに加えて、当該のコンピュータプログラム用の実行環境を作成するコード、たとえば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはそれらのうちの1つもしくは複数の組合せを構成するコードを含むことができる。
[00108]本明細書に記載されたプロセスおよびロジックフローは、入力データに対して動作し、出力を生成することによって機能を実行するために、1つまたは複数のコンピュータプログラムを実行する1つまたは複数のプログラマブルプロセッサによって実行することができる。プロセスおよびロジックフローはまた、専用論理回路、たとえば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)によって実行することができ、装置はまた、専用論理回路として実装することができる。
[00109]コンピュータプログラム命令およびデータを記憶するのに適したコンピュータ可読媒体は、例として、半導体メモリデバイス、たとえば、EPROM、EEPROM、およびフラッシュメモリデバイス、磁気ディスク、たとえば、内部ハードディスクまたはリムーバブルディスク、光磁気ディスク、ならびにCD ROMディスクおよびDVD-ROMディスクを含む、すべての形態の不揮発性メモリ、媒体、およびメモリデバイスを含むことができる。プロセッサおよびメモリは、専用論理回路によって補完されるか、またはそれに組み込まれ得る。
[00110]実施形態は特に分析を行うためのフレームワーク内で図示および記載されているが、様々な実施形態の範囲から逸脱することなく、変形形態および修正形態が当業者によって影響を受けてもよいことが諒解されよう。その上、当業者は、そのようなプロセスおよびシステムが本明細書に記載された具体的な実施形態に限定される必要がないことを認識されよう。本明細書に開示された明細書の考察および実施形態の実践から、他の実施形態、本実施形態の組合せ、ならびにそれらの使用および利点が当業者には明らかであろう。明細書および例は例示的であると見なされるべきである。

Claims (19)

  1. 様々なデータソースからのデータを分析するためのコンピュータ実装された方法であって、
    入力として、前記様々なデータソースからデータを受信するステップと、
    前記様々なデータソースの各々からの前記受信データを共通データ構造に変換するステップと、
    前記受信データ内のキーワードを識別するステップと、
    前記識別されたキーワードに基づいて文または単語の埋め込みを生成するステップと、
    前記生成された文または単語の埋め込みに基づいて1つまたは複数のラベルの選択を受信するステップと、
    前記選択された1つまたは複数のラベルをモデルに追加するステップと、
    構成ファイルに基づいて前記共通データ構造にわたって前記モデルを訓練するステップと、
    前記モデルに基づいてユーザの質問に応答する結果を生成するステップと
    を含み、前記生成するステップが、
    前記受信データから関連文書を検索するステップと、
    前記検索された関連文書のどれからどの情報が報告されるべきかを判定するステップと、
    前記判定および前記関連文書に関連付けられたグラフスキーマに基づいて前記結果を提供するステップと
    を含む、コンピュータ実装された方法。
  2. 前記様々なデータソースが、機械可読文書、非機械可読文書、スプレッドシート、画像、ハイパーテキストマークアップ言語ファイルのうちの少なくとも1つを含む、請求項1に記載の方法。
  3. 前記受信データをコンポーネント文書に分割するステップであって、前記受信データが発見的なモデルおよび訓練されたモデルのうちの1つに基づいて分割される、ステップ
    をさらに含む、請求項1に記載の方法。
  4. 前記受信データ内の単語要素および文要素のうちの少なくとも1つをトークン化するステップと、
    前記トークン化された単語要素および文要素のうちの少なくとも1つにデフォルトの単語埋め込みを追加するステップと
    をさらに含む、請求項1に記載の方法。
  5. 前記構成ファイルが、タスクタイプ、アルゴリズムタイプ、および特徴のうちの少なくとも1つに関する命令を含む、請求項1に記載の方法。
  6. (i)前記タスクタイプが訓練、検証、および予測のうちの1つであり、(ii)前記アルゴリズムタイプが回帰アルゴリズムおよび再帰アルゴリズムのうちの1つであり、(iii)前記特徴が単語埋め込みを含む、請求項5に記載の方法。
  7. 少なくとも1つの品質評価チェックを実行するステップ
    をさらに含む、請求項1に記載の方法。
  8. ユーザインターフェースを介して、少なくとも1つの表現を受信するステップと、
    前記少なくとも1つの表現を前記モデルに提供するステップと、
    アプリケーションプログラミングインターフェースを用いて、前記少なくとも1つの表現に関連付けられた注釈候補を選択するステップと、
    前記選択された注釈候補に基づいて前記モデルを訓練するステップと
    をさらに含む、請求項1に記載の方法。
  9. 訓練の間、目標の真ラベルおよび特徴が訓練データセットから抽出され、次いで、前記モデルに提供される、請求項1に記載の方法。
  10. 様々なデータソースからのデータを分析するためのコンピュータ実装されたシステムであって、
    プロセッサ
    を備え、前記プロセッサが、
    入力として、前記様々なデータソースからデータを受信し、
    前記様々なデータソースの各々からの前記受信データを共通データ構造に変換し、
    前記受信データ内のキーワードを識別し、
    前記識別されたキーワードに基づいて単語または文の埋め込みを生成し、
    前記生成された単語または文の埋め込みに基づいて1つまたは複数のラベルの選択を受信し、
    前記選択された1つまたは複数のラベルをモデルに追加し、
    構成ファイルに基づいて前記共通データ構造にわたって前記モデルを訓練し、
    前記モデルに基づいてユーザの質問に応答する結果を生成する
    ように構成され、前記生成することが、
    前記受信データから関連文書を検索することと、
    前記検索された関連文書のどれからどの情報が報告されるべきかを判定することと、
    前記判定および前記関連文書に関連付けられたグラフスキーマに基づいて前記結果を提供することと
    を含む、コンピュータ実装されたシステム。
  11. 前記様々なデータソースが、機械可読文書、非機械可読文書、スプレッドシート、画像、ハイパーテキストマークアップ言語ファイルのうちの少なくとも1つを含む、請求項10に記載のシステム。
  12. 前記プロセッサが、
    前記受信データをコンポーネント文書に分割する
    ようにさらに構成され、前記受信データが発見的なモデルおよび訓練されたモデルのうちの1つに基づいて分割される、
    請求項10に記載のシステム。
  13. 前記プロセッサが、
    前記受信データ内の単語要素および文要素のうちの少なくとも1つをトークン化し、
    前記トークン化された単語要素および文要素のうちの少なくとも1つにデフォルトの単語埋め込みを追加する
    ようにさらに構成される、請求項10に記載のシステム。
  14. 前記構成ファイルが、タスクタイプ、アルゴリズムタイプ、および特徴のうちの少なくとも1つに関する命令を含む、請求項10に記載のシステム。
  15. (i)前記タスクタイプが訓練、検証、および予測のうちの1つであり、(ii)前記アルゴリズムタイプが回帰アルゴリズムおよび再帰アルゴリズムのうちの1つであり、(iii)前記特徴が単語埋め込みを含む、請求項14に記載のシステム。
  16. 前記プロセッサが、
    少なくとも1つの品質評価チェックを実行する
    ようにさらに構成される、請求項10に記載のシステム。
  17. 前記プロセッサが、
    ユーザインターフェースを介して、少なくとも1つの表現を受信し、
    前記少なくとも1つの表現を前記モデルに提供し、
    アプリケーションプログラミングインターフェースを用いて、前記少なくとも1つの表現に関連付けられた注釈候補を選択し、
    前記選択された注釈候補に基づいて前記モデルを訓練する
    ようにさらに構成される、請求項10に記載のシステム。
  18. 訓練の間、目標の真ラベルおよび特徴が訓練データセットから抽出され、次いで、前記モデルに提供される、請求項10に記載のシステム。
  19. 様々なデータソースからのデータを分析するためのコンピュータ実装されたシステムであって、
    アプリケーションプログラミングインターフェースと、
    プロセッサと
    を備え、前記プロセッサが、
    機械学習モデルに基づいてユーザの質問に応答する結果を生成する
    ように構成され、前記生成することが、
    受信データから関連文書を検索することと、
    前記検索された関連文書のどれからどの情報が報告されるべきかを判定することと、
    前記判定および前記関連文書に関連付けられたグラフスキーマに基づいて前記結果を提供することと
    を含み、
    前記機械学習モデルが、前記アプリケーションプログラミングインターフェースによって提供された注釈候補に対して訓練される、
    コンピュータ実装されたシステム。
JP2022540899A 2019-12-30 2020-12-22 様々なデータソースから関係を分析し特定するためのシステムおよび方法 Pending JP2023509437A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/730,131 2019-12-30
US16/730,131 US11321364B2 (en) 2017-10-13 2019-12-30 System and method for analysis and determination of relationships from a variety of data sources
PCT/US2020/066700 WO2021138163A1 (en) 2019-12-30 2020-12-22 System and method for analysis and determination of relationships from a variety of data sources

Publications (1)

Publication Number Publication Date
JP2023509437A true JP2023509437A (ja) 2023-03-08

Family

ID=76686713

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022540899A Pending JP2023509437A (ja) 2019-12-30 2020-12-22 様々なデータソースから関係を分析し特定するためのシステムおよび方法

Country Status (6)

Country Link
EP (1) EP4085353A4 (ja)
JP (1) JP2023509437A (ja)
KR (1) KR20220133894A (ja)
AU (1) AU2020418514A1 (ja)
CA (1) CA3163394A1 (ja)
WO (1) WO2021138163A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113791791B (zh) * 2021-09-01 2023-07-25 中国船舶重工集团公司第七一六研究所 基于自然语言理解与转化的业务逻辑无代码开发方法
US20230117225A1 (en) * 2021-10-15 2023-04-20 International Business Machines Corporation Automated workflow analysis and solution implementation
US12001446B2 (en) 2022-04-12 2024-06-04 Thinking Machine Systems Ltd. System and method for extracting data from invoices and contracts
EP4283546A1 (en) * 2022-05-24 2023-11-29 ServiceNow, Inc. Machine learning prediction of additional steps of a computerized workflow
EP4297039A1 (en) * 2022-06-21 2023-12-27 Koninklijke Philips N.V. Data processing method, device and storage medium
WO2023247384A1 (en) * 2022-06-21 2023-12-28 Koninklijke Philips N.V. Data processing method, device and storage medium
CN116628172B (zh) * 2023-07-24 2023-09-19 北京酷维在线科技有限公司 基于知识图谱的政务服务领域多策略融合的对话方法
KR102663420B1 (ko) * 2023-08-01 2024-05-07 인스피언 주식회사 애플리케이션 서비스 제공 장치, 애플리케이션 서비스 제공 방법 및 애플리케이션 서비스를 제공하는 컴퓨터로 실행가능한 프로그램을 저장하는 저장매체

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9690770B2 (en) * 2011-05-31 2017-06-27 Oracle International Corporation Analysis of documents using rules
US8418249B1 (en) * 2011-11-10 2013-04-09 Narus, Inc. Class discovery for automated discovery, attribution, analysis, and risk assessment of security threats
WO2017040663A1 (en) * 2015-09-01 2017-03-09 Skytree, Inc. Creating a training data set based on unlabeled textual data
KR20190075067A (ko) * 2016-09-22 2019-06-28 엔퍼런스, 인크. 의미 정보의 시각화 및 생명 과학 엔티티들 사이의 현저한 연관을 나타내는 임시 신호의 추론을 위한 시스템, 방법 및 컴퓨터 판독 가능 매체
US20180143975A1 (en) * 2016-11-18 2018-05-24 Lionbridge Technologies, Inc. Collection strategies that facilitate arranging portions of documents into content collections
US10678816B2 (en) * 2017-08-23 2020-06-09 Rsvp Technologies Inc. Single-entity-single-relation question answering systems, and methods
US10922358B2 (en) * 2017-10-13 2021-02-16 Kpmg Llp System and method for analysis of structured and unstructured data

Also Published As

Publication number Publication date
AU2020418514A1 (en) 2022-08-25
WO2021138163A1 (en) 2021-07-08
EP4085353A1 (en) 2022-11-09
KR20220133894A (ko) 2022-10-05
EP4085353A4 (en) 2024-01-17
CA3163394A1 (en) 2021-07-08

Similar Documents

Publication Publication Date Title
US11321364B2 (en) System and method for analysis and determination of relationships from a variety of data sources
US11537662B2 (en) System and method for analysis of structured and unstructured data
JP2023509437A (ja) 様々なデータソースから関係を分析し特定するためのシステムおよび方法
Diamantopoulos et al. Software requirements as an application domain for natural language processing
US11907299B2 (en) System and method for implementing a securities analyzer
Soliman-Junior et al. A semantic-based framework for automated rule checking in healthcare construction projects
Du et al. Softcite dataset: A dataset of software mentions in biomedical and economic research publications
Alohaly et al. Automated extraction of attributes from natural language attribute-based access control (ABAC) policies
Abbas et al. On the relationship between similar requirements and similar software: A case study in the railway domain
Kelley et al. A framework for creating knowledge graphs of scientific software metadata
Del Alamo et al. A systematic mapping study on automated analysis of privacy policies
Melo et al. A strategy for archives metadata representation on CIDOC-CRM and knowledge discovery
Wu et al. Data‐driven approach to application programming interface documentation mining: A review
Soavi et al. From legal contracts to formal specifications: A systematic literature review
Di Sipio et al. MORGAN: a modeling recommender system based on graph kernel
Chen et al. The state of the art in creating visualization corpora for automated chart analysis
Massey et al. Modeling regulatory ambiguities for requirements analysis
Avdeenko et al. Intelligent support of requirements management in agile environment
Babur et al. Language usage analysis for EMF metamodels on GitHub
Ashfaq et al. Natural language ambiguity resolution by intelligent semantic annotation of software requirements
Sun et al. Design-time business process compliance assessment based on multi-granularity semantic information
Ge Knowledge graphs and its applications in finance
Xu et al. Jura: Towards automatic compliance assessment for annual reports of listed companies
Urbieta et al. Tracing user stories and source code using the language extended lexicon
Manrique-Losada et al. NLP in Requirements Processing: A Content Analysis Based Systematic Literature Mapping

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221111

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231120